阿里云MaxCompute 2018-09月刊

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 阿里云 MaxCompute 2018-09 新功能发布汇总,更有技术干货、最佳实践、云栖头条及程序人生的精彩博文推荐,欢迎阅读。

2018年9月大数据计算服务 MaxCompute 又发布新功能啦!
_

【新功能】MaxCompute窗口函数支持WINDOW_CLAUSE

参考文档

适用客户

数据开发人员在进行数据开发过程中,用到调用window函数窗口时,SQL里反复写上OVER语句会显得冗余,MaxCompute在该版本中支持WINDOW语句预定义窗口,避免了这一现象。

发布功能

为了避免多次调用window函数窗口时,SQL里反复写上OVER语句会显得冗余,MaxCompute在该版本中支持WINDOW语句预定义窗口。

【新功能】子查询支持SCALAR SUBQUERY
参考文档

适用客户

适用于数据开发人员,在做数据开发时,遇到SUBQUERY的输出结果为单行单列的时候,可以当做标量来使用。

发布功能

MaxCompute SQL 中当SUBQUERY的输出结果为单行单列的时候,可以当做标量来使用。

【新功能】MaxCompute SQL-支持OUTER LATERAL VIEW
参考文档

适用客户

适用于数据开发人员,在做数据拆分的同时进行聚合的需求时,使用Outer Lateral View功能和split、explode等UDTF一起封装使用。

发布功能

Lateral view通常和split、explode等UDTF一起封装使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。
Lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,Lateral view再把结果聚合,产生一个支持别名表的虚拟表。
Lateral view outer:当table function不输出任何一行时,对应的输入行在Lateral view结果中依然保留,且所有table function输出列为null。

【新功能】MaxCompute 支持使用UDJ(User Defined Join)自定义SQL的Join操作
参考文档

适用客户

数据开发人员在遇到很多跨表操作的需求时,原来要依赖于内置join + 各种UDF/UDTF+复杂的SQL语句来完成,一些情况下还只能完全自定义MR来完成,这两个方式门槛高且执行效率低。MaxCompute在UDF框架中新近引入的一种新扩展机制:UDJ(User Defined Join),来实现灵活的跨表、多表自定义操作,同时减少不得不通过MR等方式对分布式系统底层细节的操作。

发布功能

MaxCompute在UDF框架中新近引入的一种新扩展机制:UDJ(User Defined Join) 来实现灵活的跨表、多表自定义操作,同时减少不得不通过MR等方式对分布式系统底层细节的操作。

【新功能】MaxCompute支持使用UDT在SQL中直接引用第三方语言的类或者对象,获取其数据
参考文档

适用客户

适用于数据开发人员在进行数据开发过程中,为了实现一些简单的功能而用到第三方语言的类或对象时,之前只能使用UDF这个过程繁杂的方式,通过UDT则可以直接在SQL中直接调用,提升了SQL语言编译过程的易用性与语言的表达能力,进而提升数据开发人员的工作效率。

发布功能

MaxCompute的UDT提供了调用第三方库的功能,不需要用特殊的DDL语法来定义类型的映射,直接在SQL中使用。

【新功能】国际站开启FullScan限制功能
参考文档

适用客户

追求成本控制的MaxCompu用户。

发布功能

通过限制全表扫描,可以控制SQL/MR计算量,避免用户因暴力扫描导致的贵账单。

【体验优化】MaxCompute优化器(Optimizer)性能提升

MaxCompute优化器(Optimizer)基于MaxCompute-bench测试集合整体性能在生产环境可以提高约7%。

优化功能

1、Advanced Shuffle Remove:可以支持Sorted Merge Join和Sorted Aggregate的排序和分布属性被后续操作利用,从而减少Shffle操作。
2、Dynamic Parallelism: 对运行时的数据量动态估计reduce数量。
3、Auto Map Parallelism:Map split size支持列裁剪和压缩比估计。
4、Map Join小表汇集: Map Join小表将首先汇集到单节点,提升broadcast的效率。
5、多处优化性能调优:分区裁剪、代价估计算法的性能有多处调优,优化做得更快。
6、更完整的Join Grouping。

【新地域/可用区】大数据计算服务 MaxCompute 英国(伦敦)节点正式开服售卖
现在开通

大数据计算服务 MaxCompute 英国(伦敦)节点开服售卖。 可在国际站、中文站、日本站购买迪拜节点资源,在控制台按需求开通project。



好文推荐>>>

【技术干货】十三次大数据技术实践的直播回看与资料下载,你值得拥有

【技术干货】开箱即用的安全方案:MaxCompute数据安全方案介绍

【最佳实践】华北1 ECS 数据如何免费且高速同步到华北2MaxCompute

【云栖头条】阿里关涛谈大规模计算—从数字化阿里到数字化城市的进化

【产品动态】MaxCompute存储力持续升级,每年节省不止一个亿

【程序人生】专访20年技术老兵云郎:16年峰回路,每一步都是更好的沉淀

更多交流咨询欢迎加入“MaxCompute开发者交流”钉钉群,群号: 11782920,或扫描二维码入群。

image

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
404 2
|
2月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
149 2
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
700 0
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
33 2
|
1月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
334 1
|
2月前
|
人工智能 运维 数据管理
阿里云数据库走向Serverless与AI驱动的一站式数据平台
阿里云数据库走向Serverless与AI驱动的一站式数据平台
271 2
|
2月前
|
人工智能 Cloud Native 数据管理
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
众所周知,在人工智能迅猛发展的现在,在AI驱动下的数据平台,正在向一站式、智能化的方向演进,还有就是云原生+Serverless的不断深入,一站式数据平台将让数据管理开发像“搭积木”一样简单实用,以性价比更高、体验更优的云数据库服务,助推用户业务提效增速。据悉阿里云数据库正在朝着Serverless与AI驱动的方向发展,构建一站式、智能化的数据平台,这一发展趋势将为用户提供更简单、实用的数据管理开发体验,以提高业务效率和降低成本。那么本文就来分享一下如何看待阿里云数据库的这一转变,并展望云原生和Serverless对数据管理与开发的未来带来的更多可能性。
65 1
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
46 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
34 0

相关产品

  • 云原生大数据计算服务 MaxCompute