MaxCompute上如何处理非结构化数据

  1. 云栖社区>
  2. 阿里巴巴大数据 —玩家社区>
  3. 博客>
  4. 正文

MaxCompute上如何处理非结构化数据

kilowu 2016-10-12 17:46:01 浏览9639
展开阅读全文

0. 前言

MaxCompute作为阿里云大数据平台的核心计算组件,拥有强大的计算能力,能够调度大量的节点做并行计算,同时对分布式计算中的failover,重试等均有一套行之有效的处理管理机制。 而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑,在集团内外更是广为应用,在其上实现与各种数据源的互通,对于打通整个阿里云的数据生态具有重要意义。基于这一点,最近MaxCompute团队依托MaxCompute2.0系统架构,引入了非结构化数据处理框架:通过外部表,为各种数据在MaxCompute上的计算处理提供了入口。这里以MaxCompute处理存储在OSS上的数据为例,介绍这些新功能。

现阶段MaxCompute SQL面对的主要是以cfile列格式,存储在内部MaxCompute表格中的结构化数据。而对于MaxCom

网友评论

登录后评论
0/500
评论
kilowu
+ 关注