本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第1章,第1.15节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。
2.15 小结
在本章中,我们了解了为何数据源是机器学习方程的命脉。我们介绍了许多连接原始数据并将其导入R环境中以用于机器学习算法的方法。下一步将会是“加工”这些原始数据,便于你选择的算法能够使用数据。这叫做“数据处理”,这是第3章的主题。
下面是本章主要内容的小结:
机器学习用的数据以各种形式存在,仅举几例,包括CSV、Excel和JSON。
使用各种各样的R包,你可以直接连接以SQL数据库表形式存在的数据。
来自像Twitter这样的社交媒体的数据已经成为机器学习应用流行的数据源。在R的帮助下,你可以很容易地连接Twitter作为数据源。
谷歌分析代表了另一种激动人心的机器学习数据源。
你可以非常容易地将数据从R中写到外部文件中。