《数据科学:R语言实现》——2.6 从数据库中读取数据

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介:

本节书摘来自华章出版社《数据科学:R语言实现》一 书中的第2章,第2.6节,作者:R for Data Science Cookbook 丘祐玮(David Chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6 从数据库中读取数据

由于R会把数据读入内存中,因此这对于处理和分析小型数据集很合适。然而,由于企业每天积累的数据量要比个人的多得多,数据库文档在存储和分析大型数据时就变得更加常用。为了使用R访问数据库,我们可以使用RJDBC、RODBC或者RMySQL作为通信桥梁。在这一部分中,我们会介绍如何使用RJDBC连接存在数据库中的数据。
准备工作
在这一部分中,我们需要首先准备MySQL环境。如果你的机器(Windows)上有一个环境,你可以从MySQL通知器中检查服务器状态。如果本地服务器正在运行,服务器状态应该弹出localhost (Online),如图8所示。
数据库服务器在线后,我们需要验证是否获得授权,可以通过任意数据库连接客户端使用给定的用户名和密码访问数据库。例如,你可以使用MySQL命令行客户端连接数据库。
实现步骤
执行下列步骤,使用RJDBC连接R和MySQL。
1.首先,我们需要安装加载RJDBC程序包:
screenshot
screenshot

运行原理
R可以使用两大标准访问数据库,即ODBC和JDBC。JDBC(又称Java数据库连接)由一系列Java实现的类和接口组成,它们允许Java和数据库间直接通信。另外,ODBC(又称公开数据库连接)是由微软开发的标准接口。
要比较两个标准,ODBC在输入和输出数据方面性能更优;但是它也是平台依赖的。换句话说,在你的程序运行之前,你必须为不同的操作系统配置连接。相反,JDBC是平台独立的,意味着写好的程序可以在任何操作系统上运行。
要使用RJDBC连接R和MySQL,我们首先需要从CRAN安装加载RJDBC程序包。RJDBC提供了接口来连接数据库。 因为JDBC是使用Java实现的,在使用RJDBC之前,你需要安装rJava。
接着,我们从MySQL的官方下载网站下载MySQL Connector/J,它是MySQL的官方JDBC驱动。解压.zip文件(或.tar文件后),我们把文件放在合适的路径下(你可以把.jar文件添加到类路径下)。现在我们可以编写R程序来访问数据库了。
在我们的R脚本中,我们在提交任何查询请求之前,首先需要注册和初始化MySQL驱动。这里,我们需要指定驱动的类名,com.mysql.jdbc.Driver(不同的数据库有不同的类名),以及.jar文件mysqlconnector-java-5.0.8-bin.jar。我们可以在.jar文件中找到类 。接着,我们使用注册的驱动建立数据库连接。这里,我们需要提供连接字符串(jdbc:mysql://localhost:3306/finance)、用户名(root)和密码(test)来访问数据库。因为我们的MySQL服务器安装和运行在本地主机上,我们可以设计一个连接字符串"jdbc:mysql://localhost:3306/finance" 。3306是默认的MySQL端口,finance是我们的目标数据库。
连接建立以后,我们可以给数据库提交SQL请求。我们首先使用dbListTables命令列出finance数据库上的表。然后,我们创建名为majortrade的表,并使用insert语句把snp500.csv中的数据记录插入majortrade表中。然后我们使用select语句获取数据库中的数据。最后,要释放连接,我们需要使用dbDisconnect命令。
更多技能
在R中,你也可以使用RODBC和RMySQL来连接数据库。在这一部分中,我们会介绍如何通过RMySQL访问数据库。执行下面的步骤,安装加载RMySQL程序包,然后给MySQL数据库提交查询。
1.我们需要安装加载RMySQL程序包:
screenshot

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
打赏
0
0
0
0
1408
分享
相关文章
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
【YashanDB知识库】python驱动查询gbk字符集崖山数据库CLOB字段,数据被驱动截断
【YashanDB知识库】python驱动查询gbk字符集崖山数据库CLOB字段,数据被驱动截断
有哪些方法可以验证用户输入数据的格式是否符合数据库的要求?
有哪些方法可以验证用户输入数据的格式是否符合数据库的要求?
187 75
【YashanDB 知识库】用 yasldr 配置 Bulkload 模式作单线程迁移 300G 的业务数据到分布式数据库,迁移任务频繁出错
问题描述 详细版本:YashanDB Server Enterprise Edition Release 23.2.4.100 x86_64 6db1237 影响范围: 离线数据迁移场景,影响业务数据入库。 外场将部分 NewCIS 的报表业务放到分布式数据库,验证 SQL 性能水平。 操作系统环境配置: 125G 内存 32C CPU 2T 的 HDD 磁盘 问题出现的步骤/操作: 1、部署崖山分布式数据库 1mm 1cn 3dn 单线启动 yasldr 数据迁移任务,设置 32 线程的 bulk load 模式 2、观察 yasldr.log 是否出现如下错
Hutool创建数据源工厂动态查询不同数据库不同数据表的数据
Hutool创建数据源工厂动态查询不同数据库不同数据表的数据
39 2
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
397 61
|
4月前
|
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
94 1
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。

热门文章

最新文章