《机器学习与数据科学(基于R的统计学习方法)》——第2章 连接数据

简介:

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第2章,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

第2章 连接数据

机器学习与数据科学(基于R的统计学习方法)

8e804649c986e5cbf811698e55fb6ef56434bccc

数据科学和它的使能技术机器学习一样,都是关于数据的,即使用海量数据训练算法,对未来事件作出预测;也会对存储的数据进行筛查,发现对商业有战略价值的模式。所以很自然地,机器学习过程中一个重要的部分就是从与待解决的问题相关的分散资源中访问数据内容。很多机器学习和数据分析讨论的前提是你已经有干净的数据,可以直接把它们应用在探索性数据分析工具中,然后选择一个合适的机器学习模型。遗憾的是,这种情况很少发生,更多的时候,你需要定位数据,确定它使用了哪种格式,找到一个有连接数据功能的R包,最后,连接数据并把它读入R数据框(data frame)中——这就是本章的全部主题。这一过程为下一个重要的步骤(数据处理)打下了基础,而后者是本书第3章的主题。

让我们后退一步,为“数据”下一个定义:

数据是属于同一群体的定性或定量的变量的值;是你感兴趣的一组对象的集合,其中的一个变量是对一项的特征的度量。

群体的例子是一种产品的销售数据、广告效果数据和制造过程数据。定性的变量的例子是销售价格、某个广告的点击数和一小时内一种产品的产量。在机器学习项目中,连接数据阶段的目标是定位并获取能为问题域提供帮助的数据源。

数据连接在机器学习项目中的重要性不容小觑。在和其他组织一起从事机器学习项目时,我学到的最重要的知识就是,人们天生愿意把数据存储在多个位置,并以多种格式存储,而这些数据都可以用于机器学习。从某种意义上来说,缺乏合适的数据方法决定了我们需要具备从各种数据源中灵活获取数据的能力。无论你在初创公司、大型企业还是科研机构工作,你都需要掌握多种连接数据集的方法。

在可用数据没这么多且我们从数据中学习的能力没有这么强时,这些都不是问题。所谓的“大数据”产业,就是以有效的方式利用不同来源的数据。数据源的种类和深度在不断提升,这个方面一个很好的例子是,非结构化社会媒体的数据使用量在不断增加。利用这些数据可以得到人气和信誉值,并结合交易数据集来达到空前的预测能力。

本章的目标是为你提供一个有用的连接数据的工具包,以便你在后续的机器学习项目中重复使用。在这里学到的连接数据的步骤,将成为你构建数据管道的第一步,数据管道将在第3章讨论。当一名数据科学家遇到一类全新的数据源时,他必须研究引入机制(和这里展示的相似),并把数据加入到本章提供的工具中。逐渐地,你将拥有一个不断完善的工具包,它的功能不断增强,并能连接常见的数据源。像R这种开源工具的优势是,给一些时间,就有人能开发出新的包来处理种类不断增加的数据源。实际上,这就是Twitter上所发生的事情。

在本章中,我们会学习一些连接各种类型的数据内容并将其引入到R环境中作为学习算法输入源的方法。这一步代表了机器学习方程的第一步。以下是本章的主题列表:

管理你的R数据工作环境;
数据集的种类和来源;
从网络上下载数据集;
读取数据文件;
抓取网页中的数据;
使用SQL连接数据;
R中的SQL等价表述;
读取Twitter数据;
读取谷歌分析数据;
写数据。

相关文章
|
1月前
|
数据采集 机器学习/深度学习 存储
【机器学习】数据清洗——基于Numpy库的方法删除重复点
【机器学习】数据清洗——基于Numpy库的方法删除重复点
71 1
|
1月前
|
数据采集 机器学习/深度学习 Python
【机器学习】数据清洗——基于Pandas库的方法删除重复点
【机器学习】数据清洗——基于Pandas库的方法删除重复点
45 1
|
1月前
|
机器学习/深度学习 数据采集 存储
【机器学习】机器学习流程之收集数据
【机器学习】机器学习流程之收集数据
40 1
|
1月前
|
机器学习/深度学习 数据采集 传感器
机器学习开发流程和用到的数据介绍
机器学习开发流程和用到的数据介绍
|
1月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
26 1
|
1月前
|
机器学习/深度学习 数据采集 存储
使用机器学习算法进行文本分类的方法与实践
本文将介绍使用机器学习算法进行文本分类的方法与实践。通过分析文本特征、选择合适的机器学习算法和构建有效的训练模型,可以实现准确和高效的文本分类任务。我们还将探讨如何处理文本数据预处理、特征提取和模型评估等方面的关键问题,以帮助读者更好地应用机器学习技术解决文本分类挑战。
|
2月前
|
机器学习/深度学习 消息中间件 人工智能
机器学习PAI报错问题之读取kafka数据报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
2月前
|
机器学习/深度学习 算法 Java
现代数据科学中的机器学习技术发展与应用
本文探讨了现代数据科学领域中机器学习技术的发展和应用。我们介绍了机器学习的基本概念和原理,并探讨了它在前端、后端、Java、Python、C以及数据库等多种技术领域的具体应用。通过深入剖析不同领域的案例研究,我们展示了机器学习在解决实际问题和推动技术创新方面的巨大潜力。最后,我们对未来机器学习技术的发展趋势进行了展望。
|
2月前
|
传感器
GEE——使用cart机器学习方法对Landsat影像条带修复以NDVI和NDWI为例(全代码)
GEE——使用cart机器学习方法对Landsat影像条带修复以NDVI和NDWI为例(全代码)
28 0
|
1月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。

热门文章

最新文章