备案控制台

开发者社区

开发者社区华章出版社文章正文

《R语言数据分析》——2.4　从其他在线来源获取数据

2017-05-02 1817

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《R语言数据分析》一书中的第2章，第2.4节，作者盖尔盖伊·道罗齐（Gergely Daróczi），潘怡　译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4　从其他在线来源获取数据

尽管readHTMLTable非常实用，但某些时候数据不是以结构化格式存放在表格中，更可能就是以HTML表形式存储。我们首先访问http://cran.r-project.org/web/views/WebTechnologies.html 来了解一下R包在相应的CRAN任务描述中列出的数据格式类型，如下图所示：

QQ_20170525112651

在这幅图中，我们看到了一个HTML列表，列出了包的名称，以及指向CRAN或GitHub的URL。要处理这样的HTML，我们首先要对HTML源有所了解才能对分析方法做确定。读者可以很容易地在Chrome或Firefox浏览器中完成这个任务：右键点击目录顶部的CRAN包标题，选择Inspect Element命令，将看到如下输出：

QQ_20170525112654

此时，我们已经得到了一个以ul（无序表）的HTML标签列出的相关R包，在标签h3后面就包括了CRAN packages字符串。

简而言之：

我们需要解析这个HTML文件

在search项找到第三级头

从其后的未排序的HTML表中获得所有表元素

这些工作也可以通过XML路径语言来完成，该语言拥有一种特殊的语法能通过查询来选择在XML/HTML文档中的节点。

更多有关R驱动的例子，请参考本书第4章，以及Springer.出版的Deborah Nolan和语句Duncan Temple Lang编著的《Use R！》系列。更多详细内容，请参考本书附录部分。

XPath初看起来很难理解，也很复杂。例如，待处理的表可以被如下语句描述：

QQ_20170525112703

让我再对此细化一下：

（1）我们正在查找一个h3标签，该标签的text属性为“CRAN packages”，我们需要在整个文本中查找有这些属性的特殊节点。

（2）following-siblings表达式代表了被选中的h3标签中所有同层子节点。

（3）过滤器仅查找ul的HTML标签。

（4）由于结果有好几个，我们仅通过index（1）挑选出第一个兄弟节点。

（5）然后从中挑选出所有li标签（表单元素）。

在R中重复类似操作：

QQ_20170525113010

And we have the character vector of the related 118 R packages：

QQ_20170525113015

使用XPath可以非常方便地在HTML文档中选择和搜索节点，xpathApply函数也提供了同样的功能。R将XPath函数的大多数功能都封装在了libxml中，以提供更高效和更方便的操作方法。不过我们也可以使用xpathSApply函数，该函数返回结果更加简化，它和XPath之间的差别就像lapply函数和sapply函数的差别一样。因此我们也可以按以下方式来保存unlist调用的结果：

QQ_20170525112710
QQ_20170525112714

细心的读者一定注意到了返回的结果列表是一个简单的字符向量，而原始的HMTL表单还包括了指向之前那些包的URL，那么这些内容跑到哪去了呢？

确切来说发生这种现象是由xmlValue函数的特点造成的，我们在样例的xpathSApply调用时从原始文档抽取节点信息时没有使用默认的NULL作为评价函数，因此函数仅简单地从每个不包含子节点的叶子节点中抽取原始文本数据，并得到了上面的结果。那么如果我们对包URL里面的内容更感兴趣怎么办呢？

调用不带任何指定fun的xpathSApply函数将返回所有原始子节点信息，这对我们并没有直接的帮助，也没必要对这些结果再应用一些常规表达式。函数xmlValue的帮助页面为我们提供了一些类似可以完成这些应用的函数，这里我们会毫不犹豫地选择xmlAttrs：

QQ_20170525112718

请注意样例中更新了path的信息，我们在这里选择的是所有的标签a而非其父标签li，和前面xmlValue函数的参数不同。在样例中，xmlAttrs的抽取参数是'href'，因此函数会对所有包含标签a的节点抽取属性及属性值。

有了这些基本函数，用户就能够从在线资源中获取任意公开的数据，当然在实际中实现的过程最后有可能会变得相对复杂。

另外一方面，由于数据获取经常受限于数据拥有者给定的版权范围，因此必须要首先确认这些可能的数据资源其相关的法律条文、使用条件等内容。除了法律事务，从数据供应商的技术角度去考虑数据的获取和抓取问题也是比较明智的，如果你在没有和管理员提前沟通的情况下对网站进行频繁的查询，则很有可能会被认为是在进行某种网络攻击，同时会给服务器带来不必要的负担。为了简化数据获取的问题，记得给查询设置合适的频率，例如，最少每个查询之间要相隔2秒，最好的方法则是从站点的robot.txt文件中了解Crawl-delay的大小，一般该文件会被放置在根目录下。大多数数据供应商也会对数据抓取给出一些指导意见，我们应该确保了解清楚关于下载速率的限制和频率。

某些时候，我们也有可能很幸运地找到一些现成的XPath筛选代码，那么就可以直接使用自带的R包，通过Web服务和主页下载数据。

文章标签：

Web App开发

数据挖掘

数据格式

关键词：

r语言数据

数据分析数据

数据分析r语言

r语言数据分析

数据分析语言

华章计算机

目录

相关文章

4as3qn2go3ure

|

2天前

|

数据可视化

【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-4

【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享

4as3qn2go3ure

33 1 1

4as3qn2go3ure

|

2天前

|

vr&ar

R语言单变量和多变量（多元）动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率-1

R语言单变量和多变量（多元）动态条件相关系数DCC-GARCH模型分析股票收益率金融时间序列数据波动率

4as3qn2go3ure

25 0 0

4as3qn2go3ure

|

14小时前

|

机器学习/深度学习算法

【视频】R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险|数据分享

【视频】R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险|数据分享

4as3qn2go3ure

13 6 6

4as3qn2go3ure

|

1天前

|

机器学习/深度学习数据挖掘数据建模

R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据（下）

R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

4as3qn2go3ure

37 9 10

4as3qn2go3ure

|

1天前

|

机器学习/深度学习数据可视化

数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化

数据分享|R语言逻辑回归Logisitc逐步回归训练与验证样本估计分析心脏病数据参数可视化

4as3qn2go3ure

34 18 19

4as3qn2go3ure

|

1天前

|

机器学习/深度学习数据可视化算法

数据分享|R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

数据分享|R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

4as3qn2go3ure

47 10 12

4as3qn2go3ure

|

1天前

|

数据可视化安全数据挖掘

数据分享|R语言用主成分分析（PCA）PCR回归进行预测汽车购买信息可视化

数据分享|R语言用主成分分析（PCA）PCR回归进行预测汽车购买信息可视化

4as3qn2go3ure

9 2 2

4as3qn2go3ure

|

1天前

|

vr&ar Python

R语言风险价值：ARIMA，GARCH，Delta-normal法滚动估计VaR（Value at Risk）和回测分析股票数据

R语言风险价值：ARIMA，GARCH，Delta-normal法滚动估计VaR（Value at Risk）和回测分析股票数据

4as3qn2go3ure

4 0 0

4as3qn2go3ure

|

2天前

R语言风险价值：ARIMA，GARCH，Delta-normal法滚动估计VaR（Value at Risk）和回测分析股票数据-3

R语言风险价值：ARIMA，GARCH，Delta-normal法滚动估计VaR（Value at Risk）和回测分析股票数据

4as3qn2go3ure

14 1 1

R语言风险价值：ARIMA，GARCH，Delta-normal法滚动估计VaR（Value at Risk）和回测分析股票数据-3

4as3qn2go3ure

|

2天前

【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-2

【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享

4as3qn2go3ure

13 1 1

华章出版社

热门文章

最新文章

R语言检验独立性：卡方检验(Chi-square test)

R语言基于ARMA-GARCH-VaR模型拟合和预

R语言中使用RCPP并行计算指数加权波动率

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化

R语言聚类算法的应用实例

R语言中的生存分析Survival analysis晚期肺癌患者4例

R语言极值理论 EVT、POT超阈值、GARCH 模型分析股票指数VaR、条件CVaR：多元化投资组合预测风险测度分析

R语言计量经济学：工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断

R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析

《区块链公链数据分析简易速速上手小册》第5章：高级数据分析技术（2024 最新版）（上）

《区块链公链数据分析简易速速上手小册》第4章：交易数据分析（2024 最新版）（上）

《区块链公链数据分析简易速速上手小册》第1章：区块链基础（2024 最新版）

python数据分析工具SciPy

Python中数据分析工具Matplotlib

Python数据分析工具Pandas

用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析

SciPy在数据分析中的应用：从数据清洗到可视化

Seaborn在数据分析中的应用：案例分析与实践

NumPy在数据分析中的核心应用

相关课程

更多

Python 数据分析库 Pandas 快速入门

深入理解数据分析

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

大数据之R语言速成与实战

相关电子书

更多

Python第四讲——使用IPython/Jupyter Notebook与日志服务玩转超大规模数据分析与可视化

互联网下半场的角逐，玩转轻资产的大数据服务—图（关系网络）数据分析与阿里应用

如何使用大数据计算服务 MaxCompute进行数据分析

相关实验场景

更多

函数计算进阶-IP查询工具开发

自然语言入门：NLP数据读取与数据分析

库仓一体实时数据分析

助力游戏运营数据分析

基于MaxCompute的热门话题分析

基于工具的数据探查

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）