大数据与机器学习:实践方法与行业案例.2.3 ETL

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

大数据与机器学习:实践方法与行业案例.2.3 ETL

华章计算机 2017-05-02 22:40:00 浏览2468
展开阅读全文

2.3 ETL


ETL是Extract-Transform-Load的缩写,是数据的抽取、转换、加载过程,当需要将数据从一个环境转移到另一个环境时(例如从生产环境到分析环境),或者需要对数据进行进一步加工处理时(例如在分析环境中,在数据仓库基础上产出每日交易量指标),即需要借助ETL过程。

ETL是构建数据闭环自循环过程的重要途径,几乎每个环节均可以通过ETL来完成。通过专门的ETL工具,定制满足业务要求的ETL作业,并结合自动调度工具,即可以实现数据的自动循环。

2.3.1 ETL工具

目前国内商用ETL工具以IBM的Datastage为代表,该ETL工具在金融行业有广泛的应用,但Datastage价格昂贵,许多公司从成本上考虑,采用了Pentaho的开源ETL工具Kettle。

在本书成书时,尽管Kettle本身仍然存在一些Bug,但由

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机