操作系统顶级会议SOSP 阿里云MaxCompute开启NewSQL时代

简介:   近日,第26届操作系统原理大会(SOSP)在上海举行,来自亚洲、欧洲、北美等地区的高校、学术机构和众多科技企业研究人员齐聚一堂。阿里巴巴受邀参加此次会议,除在展区展示系统软件技术的同时,阿里集团副总裁周靖人在BOF环节向参会人员介绍了阿里在数据库、计算、机器学习、网络等领域的多项重点技术。

  近日,第26届操作系统原理大会(SOSP)在上海举行,来自亚洲、欧洲、北美等地区的高校、学术机构和众多科技企业研究人员齐聚一堂。阿里巴巴受邀参加此次会议,除在展区展示系统软件技术的同时,阿里集团副总裁周靖人在BOF环节向参会人员介绍了阿里在数据库、计算、机器学习、网络等领域的多项重点技术。

  SOSP和另一个计算机系统领域会议OSDI同被誉为操作系统原理领域的奥斯卡,拥有极高的学术地位,参会人员在学术界、工业界取得的成绩是衡量能否参加SOSP的重要指标之一。

136731842_15099560789371n.jpg

阿里巴巴BOF现场

  在主题为“Big Data Infrastructure at Alibaba:Challenges and Opportunities”的BOF环节,周靖人表示:“阿里经济体横跨电商、金融、物流、云计算、大数据、全球化等方方面面。2016年GMV(交易总额)突破5000亿美元、在零售平台上的年度活跃消费者达到4亿多,差不多相当于中国总人口的1/3;移动月度活跃用户更高达5亿多。如此大规模的用户数、交易数,让阿里拥有世界上最复杂、最丰富的计算场景、网络场景、机器学习场景,也让阿里巴巴成为世界上最大的技术练兵场。”

136731842_15099560789411n.jpg

阿里集团副总裁周靖人(右四)和参会学者合影

  周靖人认为正是基于这样的背景,使得阿里在分布式计算、大数据处理、机器学习、图计算、网络系统等方面,取得了世界级的成果。希望通过SOSP,和操作系统领域的研究人员架起一座与学术界沟通的桥梁。

  融合SQL和NoSQL优势 阿里在NewSQL上的实践

  阿里巴巴计算平台研究员林伟在主题为“NewSQL for BigData Analyzing In Alibaba”的演讲上,介绍了阿里大数据计算服务MaxCompute在NewSQL上所做的优化和实践工作。

  “阿里推出NewSQL的目的就是要将SQL和NoSQL的优势结合起来”,林伟表示,从行业看,实现SQL和NewSQL两者间平衡,有多个关键技术要做好,包括需要有强大的DAG执行图以突破MapReduce的束缚;需要强大的优化器,实现存储过程的支持,从单一语句到成千上万的存储过程,从RuleBased Opt慢慢演变成CostBased Opt;以及通过分布式实现众多用户自定义函数(UDF)扩展,进而帮助用户生成好的Plan。

136731842_15099560789451n.jpg

优化器与UDF的结合效果

  林伟表示,强大的优化器,能够处理好NoSQL引入的模糊的数据特性,并且能够优化更大规模的任务从而发挥全局优化的能力,需要cost-based的优化器能够很好感知数据和环境的变化,从而自适应产生最优的执行计划,并通过完整且丰富的UDF集合,做到逻辑计划和物理计划完美的融合,提高整个计算引擎的表达能力和系统智能优化的能力。

  据了解,阿里巴巴MaxCompute采用抽象的作业处理框架,将不同场景的各种计算任务统一在同一个平台之上,共享安全、存储、数据管理和资源调度,为来自不同用户需求的各种数据处理任务提供统一的编程接口和界面。提供了数据上传下载通道,NewSQL、机器学习算法、图编程模型、流式计算模型多种计算分析服务,并且提供了完善的安全解决方案。MaxCompute正在通过阿里云平台,为百万级企业级用户提供服务。

  首秀阿里新一代图计算引擎FLASH

  作为人工智能技术的有效工具之一,图模型能够整合多样化的数据,帮助挖掘大数据隐含的深层信息和商业价值。

  阿里巴巴计算平台资深专家钱正平现场分享了阿里在图分析方面的应用案例,总结了图存储与查询、迭代计算、模式匹配和可视化等方面的进展,同时也提到了当前面临的挑战。

136731842_15099560789491n.jpg

分布式系统发展趋势与多样化场景的挑战

  “图计算”正变得越来越重要,阿里巴巴包含搜索推荐、个性化,以及智能风控等越来越多的应用场景,使用图模型为异构数据的分析提供了统一视图。结合算法与可视化技术,在线服务能够有效地捕捉数据之间的关联、理解用户行为和意图。

  钱正平表示,阿里巴巴已经通过真实场景积累了很多解决方案,并正在研发新一代的图计算引擎FLASH。相比业界和大部分开源图计算系统关注相对简单的图遍历查询和计算全图属性(如PageRank),FLASH旨在帮助用户更好的探索、发现、匹配,甚至在线检测复杂的“图模式”。另一方面,面对海量的图数据与多样化的场景(如上图所示),我们仍然需要更多易用、高效的大(图)数据分析工具。“阿里巴巴期待与学术界同行和领域专家紧密合作,通过解决真实问题,共同探索关键的系统抽象和做出更多有影响力的创新”。

  同时支持TCP和RDMA的软硬件一体化网络

  阿里的人工智能,大数据和云业务的快速发展给网络基础设施提出了更高的要求,8年“双十一”业务规模增长上百倍,系统的规模和复杂性以指数级上升,上层业务比以往任何时候都更需要高带宽和低延迟的网络。

  例如在数据包的处理能力上,随着摩尔定律趋于终结,CPU性能的提升开始落后于网络端口速率和带宽增长,越来越多的CPU资源被用于网络数据包的处理上,极大影响了上层业务提升性能的成本。与此同时,除了高带宽、低延迟需求,上层业务仍然依赖网络在提供复杂的安全、负载均衡和可视化等网络功能的同时满足高稳定和高可用需求。

  为应对这些挑战,阿里巴巴AIS(Alibaba Infrastructure Service)网络团队开始了软硬件一体化的高性能网络建设,在支持RDMA物理网络、基于智能网卡硬件加速的虚拟网络等领域沉淀了诸多技术。

136731842_15099560789531n.jpg

阿里巴巴软硬件一体化的高性能网络

  阿里巴巴基础设施高级专家刘永锋介绍,阿里是国内首家大规模支持RDMA的互联网公司,网络架构同时支持TCP和RDMA,端到端的保证基于TCP和RDMA不同业务的高带宽和低延迟。在保证性能的同时,阿里RDMA网络架构能够做到兼容多家厂商的硬件,自动化的监控和隔离线上网络故障。在网络虚拟化方面,阿里经过了两代智能网卡的演进,从基于可编程NPU的vSwitch full offload到基于ASIC硬加速的快慢分离架构,在满足高性能、低成本的同时,通过软件定义的方式给大数据业务提供了满足业务灵活调度的虚拟网络方案。

  此次的SOSP会议上,阿里除了在BOF环节向参会者介绍阿里的部分重点技术外,来自系统软件事业部的高级专家秦承刚在展区为更多参会者介绍了阿里的系统软件内容。

136731842_15099560789571n.jpg

清华大学陈渝(左一)、陆游游(右一)老师与阿里工程师合影

  据秦承刚介绍,系统软件是运行在阿里集团所有机器上的基础软件,对阿里巴巴业务的运行效率起到了非常关键的作用。此次重点展示的技术包括基于阿里场景的定制版Linux内核--AliKernel,它实现了进程间的资源隔离,面向容器场景的优化等技术。Alikernel的代码会回馈到社区,拥抱开源;基于OpenJDK定制的增强版JDK--AJDK,有效提升了阿里巴巴Java应用的性能、吞吐能力和问题解决的速度;以及资源调度系统Sigma、阿里自研的开源容器Pouch等。

  在阿里展区不断有知名高校学者前来交流,清华大学陈渝和陆游游老师与阿里工程师交流时表示:“我们更多的是看到阿里在商业上取得的成绩,没想到阿里在众多工程技术领域也取得了好成绩,这些创新工作在工程实践上很有价值”。

  一直以来,阿里巴巴都注重与学术界的合作,不仅推出首个全球性科研项目“AIR计划”,更与全球知名高校和科研机构成立研究中心,包括中国科学院-阿里巴巴量子计算实验室、UC Berkeley RISE 实验室、阿里巴巴-浙江大学前沿技术联合研究中心,以及与浙江省政府、浙江大学共建的之江实验室,强烈地向外界传递出阿里巴巴搭建“取自全球、用至全球”的全球化技术创新生态体系理念。



MaxCompute招聘信息:DT时代,与坚持梦想者同行!


阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
404 2
|
2月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
147 2
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
698 0
|
2月前
|
弹性计算 运维 安全
阿里云服务器Windows和Linux操作系统区别对比
阿里云服务器Windows和Linux操作系统区别对比,性能有差异吗?有,同配置下Linux性能要优于Windows,但这与阿里云无关,仅仅是linux和windows之间的区别。另外,阿里云提供的windows和linux操作系统均为正版授权,用户不需要额外支付许可费用,如何选择?看用户自己的应用程序情况。
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
33 2
|
16天前
|
存储 缓存 PHP
阿里云服务器实例、CPU内存、带宽、操作系统选择参考
对于使用阿里云服务器的用户来说,云服务器的选择和使用非常重要,如果实例、内存、CPU、带宽等配置选择错误,可能会影响到自己业务在云服务器上的计算性能及后期运营状况,本文为大家介绍一下阿里云服务器实例、CPU内存、带宽、操作系统的选择注意事项,以供参考。
阿里云服务器实例、CPU内存、带宽、操作系统选择参考
|
1月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
332 1
|
2月前
|
人工智能 运维 数据管理
阿里云数据库走向Serverless与AI驱动的一站式数据平台
阿里云数据库走向Serverless与AI驱动的一站式数据平台
271 2
|
2月前
|
运维 安全 Linux
使用阿里云搭建幻兽帕鲁服务器操作系统类型Windows和Linux有区别吗?
使用阿里云搭建幻兽帕鲁服务器操作系统类型Windows和Linux有区别吗?性能有差异?同配置的游戏服务器,如4核16G或8核32G配置等,选择Windows和Linux操作系统差异不太大,如果非要对比的话,Linux系统相对Windows更少占用计算资源,当然如果对Linux不熟悉的话,可以选择Windows。另外,即便是幻兽帕鲁服务器创建成功后,也是可以免费修改操作系统的
105 1
|
2月前
|
人工智能 Cloud Native 数据管理
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
众所周知,在人工智能迅猛发展的现在,在AI驱动下的数据平台,正在向一站式、智能化的方向演进,还有就是云原生+Serverless的不断深入,一站式数据平台将让数据管理开发像“搭积木”一样简单实用,以性价比更高、体验更优的云数据库服务,助推用户业务提效增速。据悉阿里云数据库正在朝着Serverless与AI驱动的方向发展,构建一站式、智能化的数据平台,这一发展趋势将为用户提供更简单、实用的数据管理开发体验,以提高业务效率和降低成本。那么本文就来分享一下如何看待阿里云数据库的这一转变,并展望云原生和Serverless对数据管理与开发的未来带来的更多可能性。
64 1
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进

相关产品

  • 云原生大数据计算服务 MaxCompute