海量数据处理方案

简介:
需求:
1、把2个excel的sheet表中的海量数据按照时间,对比起来放在同一个excel的shell中; 
2、两个表为无序, 且存在对方表中的数据在自己表中对应的时间点上不存在的情况

方法一、数据库
(1)使用toad导入数据

将EXCEL文件中某些字段导入到ORACLE数据库的对应表
连接想要导入的数据库
Database--->Import----> Table Data打开了导入窗口
在Object Name中选择你将要导入的表名点击"Show Data" ---> "Execute Wizard"打开了导入向导在导入向导中选择Excel file类型,下一步在import from File中选择刚刚导出的EXCEL文件,下一步默认,下一步;默认,下一步选择数据库字段对应的列,本机是USER_LOGIN_ID对应C列OA_LOGIN_ID对应B列 , 下一步再次确认列有没有导入错误,下一步点“Excecute”执行结束


(2)使用数据库进行操作
步骤1:创建临时表 js_sum
create table js_sum as
( select                                                                                                                         
    JP_NAME                 ,                                                                                                
    JP_CUR_DAY            ,                                                                                                
    JP_START_PRICE    ,                                                                                                
    JP_HIGHEST_PRICE,                                                                                                
    JP_LOWEST_PRICE ,                                                                                                
    JP_LAST_PRICE     ,                                                                                                
    JP_EXCHANGE_SUM ,                                                                                                
    JP_HANDLE_SUM     ,                                                                                                
    JP_CALC_PRICE     ,                                                                                                                                                                                                                            
    SH_NAME                 ,                                                                                                
    SH_CUR_DAY            ,                                                                                                
    SH_START_PRICE    ,                                                                                                
    SH_HIGHEST_PRICE,                                                                                                
    SH_LOWEST_PRICE ,                                                                                                
    SH_LAST_PRICE     ,                                                                                                
    SH_EXCHANGE_SUM ,                                                                                                
    SH_HANDLE_SUM     ,                                                                                                
    SH_CALC_PRICE     ,                                                                                                
    SH_LASTPRICE_UP ,                                                                                                
    SH_PERCENT_OVER                                                                             
    from japan j, shanghai s where    j.JP_CUR_DAY = s.SH_CUR_DAY
);

步骤2:加入2个表中剩余的数据到临时表中

步骤3:排序
将临时表中的所有数据进行排序

(3)使用toad导出数据
从ORACLE数据库导出成为EXCEL文件
利用TOAD连接上数据库,访问某个表,我本机是选中表“EXP_JS”, 右键“Save as...”
为了解决中文乱码问题,所以选择类型为"XLS Instance",如果存在长数字型字符串被改变的问题,
请选中“String Fields as Strings”
选择文件的存放路径 Destination directory
点击“OK”,会打开一个EXCEL文件,文件中已经是导出的数据,点击保存,将这个文件保存即可。




本文转自 tianya23 51CTO博客,原文链接:http://blog.51cto.com/tianya23/343695,如需转载请自行联系原作者
相关文章
|
存储 运维 Kubernetes
【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美
台湾作家林清玄在接受记者采访的时候,如此评价自己 30 多年写作生涯:“第一个十年我才华横溢,‘贼光闪现’,令周边黯然失色;第二个十年,我终于‘宝光现形’,不再去抢风头,反而与身边的美丽相得益彰;进入第三个十年,繁华落尽见真醇,我进入了‘醇光初现’的阶段,真正体味到了境界之美”。
【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美
|
9月前
|
存储 算法 搜索推荐
海量数据处理
海量数据处理
114 0
|
7月前
|
存储 NoSQL 算法
大数据存储方案
大数据存储方案
350 0
|
9月前
|
存储 负载均衡 Java
Java开发中应对海量数据的分库分表方案探究
在实际的Java开发中,当面临海量数据存储和处理的情况时,单一数据库可能无法满足性能和扩展需求。这时,分库分表方案成为一种常用的解决方案。本文将介绍分库分表的基本概念,并探究其在Java开发中的具体应用和实践。
208 0
|
10月前
|
存储 数据采集 分布式计算
数据湖架构的优势与挑战:数据存储和分析策略
随着大数据时代的到来,数据湖架构逐渐成为许多企业进行数据存储和分析的首选方案。数据湖是一种用于存储大量原始和结构化数据的中心化存储库。在本文中,我们将深入探讨数据湖架构的优势和挑战,并介绍一些常见的数据存储和分析策略。
324 0
|
存储 缓存 NoSQL
【分布式技术专题】「架构实践于案例分析」盘点高并发场景的技术设计方案和规划
【分布式技术专题】「架构实践于案例分析」盘点高并发场景的技术设计方案和规划
199 0
【分布式技术专题】「架构实践于案例分析」盘点高并发场景的技术设计方案和规划
我的收藏:第三章:海量数据和高并发解决方案
我的收藏:第三章:海量数据和高并发解决方案
我的收藏:第三章:海量数据和高并发解决方案
|
存储 缓存 负载均衡
阿里 P9 架构师讲解从单机至亿级流量大型网站系统架构的演进过程
阿里 P9 架构师讲解从单机至亿级流量大型网站系统架构的演进过程
|
存储 SQL 消息中间件
如何做一个好的大数据平台架构
如何做一个好的大数据平台架构
506 0
如何做一个好的大数据平台架构
|
存储 运维 监控
蚂蚁超大规模分布式系统稳定性体系实践
大规模分布式系统的稳定性建设,是确保业务服务不受硬件、人为等风险因素影响而中断的核心工作,随着业务规模增大和复杂度的提升,系统稳定性的重要程度和难度也随之增大。在蚂蚁集团业务发展过程中,业务复杂度、用户规模以及业务重要性都逐步增大,相应的稳定性建设也伴随着业务的发展进行了不断地建设和提升。
1707 1
蚂蚁超大规模分布式系统稳定性体系实践