《数据科学:R语言实现》——第2章 数据抽取、转换和加载

简介:

本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第1章,第1.1节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章

数据抽取、转换和加载

2.1 引言

在使用数据回答关键业务问题之前,最重要的事情是准备数据。数据通常存在文件中,使用Excel或者文本编辑器可以轻松地获取。但是数据也可以来自于其他来源,例如数据库、网站和各种文件格式。能够从这些源中引入数据很重要。
数据主要有4种类型。以文本形式存储的数据最简单。由于一些用户需要把数据存在结构化的文件中,因此带有.tab或.csv扩展名的文件可以用来存放一定列的数据。很多年以来,Excel在数据处理领域占据主导地位,这个软件使用.xls和.xlsx文件格式。掌握读取和操作数据库中的数据是另一项重要的技能。然而,大多数数据并不是存在数据库中的,我们也必须知道如何使用网络爬取技术从互联网上获取数据。作为本章的一部分,我们会介绍如何使用rvest程序包,从互联网上爬取数据。
许多有经验的开发人员已经创建了程序包,允许初学者更简便地的获取数据。我们关注于使用这些程序包执行数据抽取、转换和加载。在本章中,我们首先学习如何使用R程序包读取文本格式的数据,并逐行扫描文件。然后我们会讨论从数据库和Excel中读取结构化数据。最后,我们会学习如何使用R网络爬取工具,从互联网和社交网络上爬取数据。

相关文章
|
1天前
|
移动开发 数据可视化
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
|
1天前
|
自然语言处理 算法 数据挖掘
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据
|
2天前
|
前端开发 数据建模 计算机视觉
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
29 8
|
2天前
|
机器学习/深度学习
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
10 0
|
2天前
|
数据采集 数据可视化 定位技术
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)
12 0
|
2天前
|
机器学习/深度学习 前端开发 数据挖掘
R语言计量经济学:工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
R语言计量经济学:工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
32 0
|
2天前
|
存储 数据可视化 数据挖掘
R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据
R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据
|
2天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
13 0
|
2天前
|
机器学习/深度学习 数据采集 TensorFlow
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
22 0
|
2天前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
25 0