【云栖大会】阿里云大数据计算服务新版本重磅发布

  1. 云栖社区>
  2. 博客>
  3. 正文

【云栖大会】阿里云大数据计算服务新版本重磅发布

云计算小粉 2016-10-15 18:08:56 浏览3135
展开阅读全文
2016杭州云栖大会在云栖小镇召开,本届大会以“飞天·进化”为主题,内容规模比去年翻倍,从原本2天的议程增加至4天,从10月13日持续到16日,超过400场主题演讲使开发者们对阿里云计算生态发展和应用趋势、前沿技术和产品有了更深刻的了解。

MaxCompute(大数据计算服务)是阿里云的自主研发的大数据计算平台型产品,是阿里云原ODPS的最新产品名称,MaxCompute目前已经拥有众多行业客户并且得到深度应用。在杭州云栖大会第三天的“MaxCompute2.0专场”上,阿里云MaxCompute2.0新版本重磅发布,并为大家带来诸多激动人心的新Feature和技术。在本次专长上阿里云数据事业部首席技术专家关涛、阿里云数据事业部技术专家少杰、阿里云数据事业部高级专家应答、阿里云iDST视觉计算技术专家慕开、阿里云数据事业部技术专家九丰、阿里云数据事业部高级专家薛明、阿里云数据事业部高级专家艺卓以及阿里云大数据计算平台首席架构师林伟等做了精彩演讲,分享了业界领先的大数据计算的高性能、高效率技术以及大数据计算平台的安全技术等等,刷新了大数据技术知识的新高度!

关涛:MaxCompute 2.0 overview
阿里云数据事业部首席技术专家关涛在演讲中对MaxCompute2.0进行了整体介绍,对于MaxCompute2.0对的新功能、生态与开发效率、安全性以及如何使用进行了分享。

少杰:MaxCompute SQL 2.0——全新的运算引擎及其实现原理
MaxCompute-SQL2.0经过重大的重构,在性能上有长足的进步,TPC-Hbenchmark显示对比Hive有60%的性能提升。在阿里云数据事业部技术专家少杰在演讲中从Optimizer和Runtime两个主题分析了这个性能提升的原理和实现,也分享了benchmark结果分析和未来的展望。

应答:数据无边界——非结构化数据在MaxCompute上的处理

MaxCompute作为阿里云大数据平台的核心计算组件,拥有强大的计算能力,能够调度大量的节点做并行计算,同时对分布式计算中的failover,重试等均有一套行之有效的处理管理机制。而MaxCompute-SQL能在简明的语义上实现各种数据处理逻辑,在集团内外更是广为应用,在其上实现与各种数据源的互通,对于打通整个阿里云的数据生态具有重要意义。

基于这一点,最近MaxCompute团队依托MaxCompute2.0系统架构,引入了非结构化数据处理框架:通过外部表,为各种数据在MaxCompute上的计算处理提供了入口。在这个框架中,通过一条简单的DDL语句,即可在MaxCompute上创建一张外部表,建立MaxCompute表与外部数据源的关联,提供各种数据的接入和输出能力。

创建好的外部表可以像普通的MaxCompute表一样使用(大部分场景),充分利用MaxCompute-SQL的强大计算功能。目前对于OSS数据的读取计算功能,在集团内一些急需大规模非结构化数据处理能力的团队中已经使用。MaxCompute团队将进一步完善相关功能,并且提供对更多数据源的支持,例如TableStore(OTS)等。


慕开:智慧城市是如何构建的——城市大脑在MaxCompute上的海量视频分析
PAI是阿里云的分布式机器学习平台。除了支持常规的基于CPU集群的分布式机器学习算法,PAI平台还支持高性能的GPU计算集群,并提供相应的多机多卡的深度学习算法。用户可以很方便的通过PAI平台将常规的基于CPU集群的数据清理任务和基于GPU集群的深度学习算法融合一起组合训练。

九丰:计算出真知——GPU高性能异构机器学习平台

现有的pandas库提供丰富的API尤其是DataFrame-API来操作结构化数据;同时阿里云MaxCompute本身作为大数据处理平台,提供了海量数据的能力,其中MaxCompute-SQL是MaxCompute上主要的结构化数据处理语言。然而,Pandas作为单机的库,计算能力有限;MaxCompute-SQL能处理大量数据,但受限于SQL的表达能力。

因此,PyMaxCompute DataFrame框架提供了一种类似于Pandas-DataFrame的API,但是能运用MaxCompute的海量数据计算能力,对结构化数据来执行查询。DataFrame框架目前将所有操作编译成MaxCompute-SQL来执行,也能在本地使用pandas计算。同时,PyMaxCompute提供了类似scikit-learn类似的接口,通过输入和输出PyMaxCompute DataFrame,能让用户无需学习成本,就能用类似scikit-learn的体验进行机器学习和数据挖掘。


薛明+艺卓:生态与兼容——MaxCompute大数据生态集成和开发工具

MaxCompute-Studio是支持在阿里云分布式数据计算平台MaxCompute上进行数据开发的集成开发工具。该工具提供SQL语言本地语法检查、智能提示,在线调试UDF,项目空间管理,作业管理和执行计划可视化展示等功能,为开发者提供良好的数据开发体验。阿里云数据事业部高级专家薛明和艺卓对这款工具进行了详细的功能介绍和演示。

林伟:MaxCompute Going forward
阿里云大数据计算平台首席架构师林伟做了以“MaxCompute-Going-forward”为主题的演讲,介绍了MaxCompute在未来短期和长期主要关注点和路线图

网友评论

登录后评论
0/500
评论
云计算小粉
+ 关注