某社区600万用户数据导入MYSQL、MSSQL、Oracle数据库方法

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
云数据库 RDS MySQL Serverless,价值2615元额度,1个月
简介:

1.导入MySql数据库

参考文献:http://zhuaxia.org/blog/post/145

1.1.LOAD DATA INFILE语法

因为获得的数据库文件是一个文本文件www.csdn.net.sql,因此需要用到mysql中的LOAD DATA INFILE命令,LOAD DATA INFILE的语法结构如下:

View Code

1.2.创建存放数据的表

观察文本结构,发现每一行都是如下所示结构:

username # password # email

中间用"#"进行分割。因此我们创建的表必定含有username,password和email字段,但是我们还必须为表添加一个主键列,并让其自动增长,这样我们在添加数据的时候就不需要手动添加主键列。因此表结构如下:

View Code

注意:MySQL中MyISAM引擎与InnoDB引擎有一些区别,但是这并不是本篇博客的主题,因此略过不提。

1.3.导入数据

在创建表以后,我们就可以通过 load data infile命令导入数据了,具体的导入命令如下:

load data local infile 'd:\\www.csdn.net.sql' into table csdnuser2 fields terminated by ' # ' (username,password,email);

大概运行了1分钟左右就导入完成了,导入完成以后显示:

Query OK, 6428632 rows affected, 2030 warnings (54.47 sec)
Records: 6428632  Deleted: 0  Skipped: 0  Warnings: 295

注意:

  安装的MySQL5.1默认的数据库文件存放的路径是:C:\Documents and Settings\All Users\Application Data\MySQL 中,比如我们的csdndb就在路径C:\Documents and Settings\All Users\Application Data\MySQL\MySQL Server 5.1\data\csdndb当中。如果经常恢复系统的话,放在c盘不安全,可以在安装的时候修改安装路径。如下图所示:

2.导入Sql Server数据库

参考文献:http://qiaolevip.iteye.com/blog/1324649

2.1.BULK INSERT语法

在Sql Server中,使用BULK INSERT命令导入数据,该命令以用户指定的格式将数据文件导入到数据库表或视图中。BULK INSERT语法结构如下:

View Code

2.2. 创建数据库表

View Code

2.3.使用bulk insert导入数据

View Code

(6428632 行受影响),耗时:00:02:00

其中fieldterminator = ' # ',表示列分隔符,rowterminator = '\n'表示行分隔符。

2.4.添加主键列

参考:http://topic.csdn.net/u/20090913/15/fa2e7e65-73d8-4b64-b6e0-bd583f564d86.html?95717

上面的操作虽然将数据导入到了数据库中,但是我们会发现数据库表csnd1没有主键列,那么如果我们在表中添加一个www.csdn.net.sql文件中没有的主键列以后,该如何进行数据库导入呢?经过多次测试,无法使用原来的bulk insert命令进行导入,但是可以用类似bulk的命令进行导入。

首先创建带主键id的csdnuser表:

View Code

然后使用如下命令进行导入:

View Code

(6428632 行受影响),耗时:00:01:25

3.导入Oracle数据库

3.1.目标表只有三列

参考:http://www.cnblogs.com/nocode/archive/2011/12/26/2302343.html

 首先创建数据库表,我们在scott用户下创建csdn表

View Code

创建控制文件D:\www.csdn.net.sql

View Code

打开cmd命令行,使用sqlldr命令进行导入,导入命令如下:

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn.ctrl DIRECT=TRUE log=resulthis.out

输出的日志文件为resulthis.out,他在C:\Users\xuwei目录下,因为上述sqlldr就在该目录下运行的。resulthis.out内容如下:

View Code

通过上述日志可以发现导入耗时为29.86秒。

3.2为数据表添加主键列,并且自动增长

参考:

(1)Mysql,SqlServer,Oracle主键自动增长的设置

(2)sqlldr 中使用sequence

  起初考虑为主键创建sequence,然后通过触发器来插入主键,但是一直报错。后来通过控制文件中使用sequence来插入主键完成操作。

创建数据库表:CSDNUSER

View Code

_______________________________________________

PS:2012-6-11

如果要求索引的等级BLEVEL,可以通过以下查询语句求出:

select index_name, blevel, num_rows from user_indexes where table_name = 'CSDNUSER'; 

但是发现查找结果为0。后来发现是因为上述建表出现问题,就是没有为primary key命名,如果没有指定primary key的名称,那么系统为默认设定一个名称,比如SYS_C0038642之类的主键名称。因此我们首先删除上述主键,然后再添加主键。

View Code

当然也可以直接在建表到时候就创建主键名称

View Code

在创建主键的时候,我们发现花费了一些时间,这是因为主键也是占据一定磁盘空间的。

————————————————————————————

创建控制文件:ora_csdn2.ctrl

View Code

在cmd中执行sqlldr命令

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn2.ctrl direct=true  log=resulthis.out

resulthis.out内容如下:

View Code

 3.3为数据表添加年龄列(2012-6-13)

  如果要利用上述数据进行数据分析,会发现内容太单调了,下面我们就要为原始数据添加一个年龄age列。即将原始的"username # password # email"的数据源文件变成"username # password # email # age"的文件,age是通过java代码写入文件的一个[18,99]区间的一个随机数。随机数的生成可以参考前一篇博客:java生成指定范围的随机数

通过java程序为www.csdn.net.sql源文件添加一列age,生成一个新的文件www.csdn22.net.sql

View Code

创建数据库表:csdnuser3

View Code

创建控制文件ora_csdn3.ctrl

View Code

打开cmd命令行,使用sqlldr命令进行导入,导入命令如下:

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn3.ctrl DIRECT=TRUE log=resulthis.out

输出的日志文件为resulthis.out,他在C:\Users\xuwei目录下,因为上述sqlldr就在该目录下运行的。resulthis.out内容如下:

View Code

通过上述日志可以发现导入耗时为38.00秒。

提高 SQL*Loader 的性能:

  1. 一个简单而容易忽略的问题是,没有对导入的表使用任何索引和/或约束(主键)。如果这样做,甚至在使用ROWS=参数时,会很明显降低数据库导入性能。
  2. 可以添加 DIRECT=TRUE来提高导入数据的性能。当然,在很多情况下,不能使用此参数。
  3. 通过指定 UNRECOVERABLE选项,可以关闭数据库的日志。这个选项只能和 direct 一起使用。
  4. 可以同时运行多个导入任务。

常规导入与direct导入方式的区别:

常规导入可以通过使用 INSERT语句来导入数据。Direct导入可以跳过数据库的相关逻辑(DIRECT=TRUE),而直接将数据导入到数据文件中。比如direct导入将不检测主键的唯一性

SQLLDR用法

用法: SQLLDR keyword=value [,keyword=value,...]有效的关键字:

View Code

导入的四种类型

  1. insert     --为缺省方式,在数据装载开始时要求表为空
  2. append  --在表中追加新记录
  3. replace  --删除旧记录(用 delete from table 语句),替换成新装载的记录
  4. truncate --删除旧记录(用 truncate table 语句),替换成新装载的记录

TRAILING NULLCOLS -- 表的字段没有对应的值时允许为空

 

本文转自xwdreamer博客园博客,原文链接:http://www.cnblogs.com/xwdreamer/archive/2012/06/08/2541678.html,如需转载请自行联系原作者

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
13天前
|
DataWorks Oracle 关系型数据库
DataWorks操作报错合集之尝试从Oracle数据库同步数据到TDSQL的PG版本,并遇到了与RAW字段相关的语法错误,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
30 0
|
3天前
|
Oracle Java 关系型数据库
【服务器】python通过JDBC连接到位于Linux远程服务器上的Oracle数据库
【服务器】python通过JDBC连接到位于Linux远程服务器上的Oracle数据库
14 6
|
3天前
|
SQL Oracle 关系型数据库
零基础入门 Oracle数据库:轻松上手
零基础入门 Oracle数据库:轻松上手
6 0
|
3天前
|
Oracle 关系型数据库 Java
java操作多数据源将oracle数据同步达梦数据库
java操作多数据源将oracle数据同步达梦数据库
|
5天前
|
存储 Oracle 关系型数据库
oracle 数据库 迁移 mysql数据库
将 Oracle 数据库迁移到 MySQL 是一项复杂的任务,因为这两种数据库管理系统具有不同的架构、语法和功能。
15 0
|
5天前
|
存储 关系型数据库 MySQL
Mysql大数据批量插入方法
Mysql大数据批量插入方法
21 0
|
3天前
|
关系型数据库 MySQL 数据库
docker MySQL删除数据库时的错误(errno: 39)
docker MySQL删除数据库时的错误(errno: 39)
10 0
|
1天前
|
关系型数据库 MySQL 数据库
mysql 设置环境变量与未设置环境变量连接数据库的区别
设置与未设置MySQL环境变量在连接数据库时主要区别在于命令输入方式和系统便捷性。设置环境变量后,可直接使用`mysql -u 用户名 -p`命令连接,而无需指定完整路径,提升便利性和灵活性。未设置时,需输入完整路径如`C:\Program Files\MySQL\...`,操作繁琐且易错。为提高效率和减少错误,推荐安装后设置环境变量。[查看视频讲解](https://www.bilibili.com/video/BV1vH4y137HC/)。
17 3
mysql 设置环境变量与未设置环境变量连接数据库的区别
|
3天前
|
关系型数据库 MySQL 数据库连接
用Navicat备份Mysql演示系统数据库的时候出:Too Many Connections
用Navicat备份Mysql演示系统数据库的时候出:Too Many Connections
10 0
|
12天前
|
关系型数据库 MySQL Linux
【MySQL-10】数据库函数-案例演示【字符串/数值/日期/流程控制函数】(代码演示&可cv代码)
【MySQL-10】数据库函数-案例演示【字符串/数值/日期/流程控制函数】(代码演示&可cv代码)
【MySQL-10】数据库函数-案例演示【字符串/数值/日期/流程控制函数】(代码演示&可cv代码)

推荐镜像

更多