《机器学习与数据科学(基于R的统计学习方法)》——2.6 读取Excel文件

简介:

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第2章,第2.6节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.6 读取Excel文件

机器学习中另一种重要的文件类型是Excel。Excel是应用很广泛的电子表格软件,各种规模的企业都依赖这个工具来存储商业信息。这样一来,你希望在机器学习中使用存放在Excel中的数据就很容易理解了。

R提供了直接从Excel 2007电子表格文件中读取数据的工具:read.xlsx()和read.xlsx2()函数。read.xlsx2()函数通常能更快地处理大型电子表格。为了测试读取Excel文件,我们需要回到San Francisco Data网站去下载同一个Parking Meters数据集,但是这一次是下载XLSX格式的数据。注意到Excel文件是一个二进制文件而不是纯文本文档,我们需要为download.file()函数指定mode=“wb”(说明文件是二进制类型)。我们还需要使用library()函数来加载xlsx包,否则使用中会找不到包中的函数。最后,为了把Excel文件读入数据框中,我们将使用read.xlsx2(),并设定参数sheetIndex=1,这指示了读入Excel文件中的哪一个表单。

> fileUrl <- "https://data.sfgov.org/api/views/7egw-qt89/rows. xlsx?accessType=DOWNLOAD"
> download.file(fileUrl, destfile="./data/SFParkingMeters.  xlsx", mode="wb")
> library(xlsx)
> SFParkingMeters <- read.xlsx2("./data/SFParkingMeters.xlsx", sheetIndex=1)```
相关文章
|
1月前
|
监控 数据处理 索引
使用Python批量实现文件夹下所有Excel文件的第二张表合并
使用Python和pandas批量合并文件夹中所有Excel文件的第二张表,通过os库遍历文件,pandas的read_excel读取表,concat函数合并数据。主要步骤包括:1) 遍历获取Excel文件,2) 读取第二张表,3) 合并所有表格,最后将结果保存为新的Excel文件。注意文件路径、表格结构一致性及异常处理。可扩展为动态指定合并表、优化性能、日志记录等功能。适合数据处理初学者提升自动化处理技能。
22 1
|
1月前
|
安全 Java 数据库连接
jdbc解析excel文件,批量插入数据至库中
jdbc解析excel文件,批量插入数据至库中
21 0
|
1月前
|
数据采集 机器学习/深度学习 存储
【机器学习】数据清洗——基于Numpy库的方法删除重复点
【机器学习】数据清洗——基于Numpy库的方法删除重复点
73 1
|
1月前
|
数据采集 机器学习/深度学习 Python
【机器学习】数据清洗——基于Pandas库的方法删除重复点
【机器学习】数据清洗——基于Pandas库的方法删除重复点
52 1
|
1月前
|
存储 数据可视化 数据处理
Python中读取Excel文件的方法
【2月更文挑战第18天】
66 4
Python中读取Excel文件的方法
|
1月前
|
前端开发 UED
前端解析Excel文件
前端解析Excel文件
34 0
|
1月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
27 1
|
1月前
|
SQL 数据可视化 数据处理
使用SQL和Python处理Excel文件数据
使用SQL和Python处理Excel文件数据
54 0
|
6天前
|
数据库
开发指南009-从list导出excel文件
从数据库返回一般是对象的列表,平台底层提供了从list转为excel文件的方法
|
7天前
|
机器学习/深度学习 数据可视化 数据挖掘
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
19 1