阿里、Databricks、Intel的十位专家和你细聊Hadoop技术实践及生态-阿里云开发者社区

阿里、Databricks、Intel的十位专家和你细聊Hadoop技术实践及生态

2016-09-21 9553

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2016杭州云栖大会开源大数据专场不仅聚集阿里Hadoop、Spark、Hbase、JStorm各领域的技术专家，还邀请到了Databricks、Intel等公司的技术专家来讲述阿里在Hadoop大生态领域的实践与探索、Hadoop生态的技术细节以及一些应用实践。

中国云计算产业最具影响力的盛会之一——2016杭州云栖大会（https://yunqi.aliyun.com/）将在云栖小镇召开。连续举办七届的云栖大会一直是业界了解阿里云计算生态发展和应用趋势、体验前沿技术和产品的最佳平台，来自海内外的上万名开发者、创业者聚集于此，分享着他们对云计算的思考与实践经验。7年来，从产品发布到行业解决方案展示，从关注技术到技术与服务并重，从单一的客户到生态全景的展现，大会的核心内容一直在“进化”，而2016年杭州云栖大会，则以“飞天･进化”为主题。飞天是整个阿里云的核心技术部分，是阿里云产品服务的基石，从2009年写下飞天第一行代码，到成为阿里巴巴所有核心业务数据处理的平台，从为国内中小创新企业、政府机构提供计算和数据处理能力，到触角加速延伸覆盖服务于全球200多个国家和地区……历经7载，飞天已进化成为世界级计算服务平台。本次大会，内容规模将比去年翻倍，从原本2天的议程增加至4天，从10月13日持续到16日，届时将有超过400场主题演讲、数万平米创新展览体验区和国内外顶尖科技亮相，而阿里巴巴集团董事局主席马云也将参加大会并发言。

为了让大家更为深入地了解云栖大会的日程设置，云栖社区对20+位分论坛出品人进行了系列采访。

本期采访嘉宾—— 阿里云高级技术专家夏俊鸾 (亦龙)、阿里云技术专家曹龙(封神) ，开源大数据专场出品人

夏俊鸾 (亦龙)，阿里云高级技术专家，专注在大数据、分布式系统领域，有多年的性能调优及开源大数据技术研发经验，Apache Spark Committer，目前为E-MapReduce产品技术负责人。

曹龙(封神)，阿里云技术专家，专注在大数据、分布式系统领域，7年分布式引擎研发经验；先后研发上万台Hadoop、ODPS集群；先后负责阿里YARN、Spark及自主研发内存计算引擎；目前为广大公共云用户提供专业的Hadoop服务。

技术实践及Hadoop生态技术探究

谈到对于出品开源大数据专场的内容策划初衷，在两位出品人看来：阿里在09年就开始尝试使用Hadoop技术，先后包括Hadoop、Spark、Hbase及Jtorm。这些技术在不同的业务线广泛使用，推动阿里业务的发展。本次专场不仅聚集阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家，共同为大家讲述Hadoop生态的过去现在未来及阿里在Hadoop大生态领域的实践与探索，希望能给开源大数据的从业者和爱好者带来帮助。同时，本次专场还邀请到了Databricks、Intel等公司的技术专家来讲述Hadoop生态的技术细节以及一些应用实践，包括Spark Catalyst 拆解、HDFS重要特性分析、流式计算领域引擎测评等，让与会者们真正地学习到先进企业中的先进技术。

此外，在本次专场中，还将举办开源大数据技术组成立仪式，欢迎大家关注。

重磅：演讲嘉宾与策划的演讲话题

开源大数据专场的日程和讲师围绕“技术实践及Hadoop生态技术探究”这一主题来设计和规划，从议程看来，该专场上午场主要是来自阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家讲述Hadoop生态的过去、现在、未来及阿里在Hadoop大生态领域的实践与探索；下午场主要由来自Databricks、Intel、逸晗网络等企业的专家讲述Hadoop生态的技术细节及一些应用实践，所涉及内容包括Spark Catalyst拆解、详解HDFS最近一两年的重要特性和存储的发展趋势、Hadoop计算与存储分离的原理及细节介绍、围绕阿里云E-MapReduce平台的最佳实践以及流式计算领域引擎Spark Streaming Storm、Flink、Gearpump等各引擎的评测。

此次开源大数据专场，邀请到的重量级演讲嘉宾与策划的演讲话题分别是：

讲师：无谓/阿里云高级技术专家

个人简介：主要研究领域包括大数据、分布式系统和搜索引擎等，是国内较早接触Hadoop的开发人员，曾经参加过Hadoop社区官方中文文档翻译工作，对Hadoop MapReduce、HDFS、Hive、Spark等都有深入的研究。2008年加入阿里集团，先后在中国雅虎、B2B、阿里云工作，一直从事分布式计算相关研发的工作。参与过阿里内部自主研发的分布式平台的开发，带领过分布式编程模型、稳定性、数据分析和性能调优等团队。在开源大数据领域，作为主要开发和运维人员经历了阿里内部共享Hadoop集群的上线和发展壮大，作为Hadoop对内服务平台的主要负责人完成对Hadoop调度、权限和跨机房集群部署等系统的改造工作。

议题：Hadoop过去现在未来：从阿里云梯到E-MapReduce

内容简介：

云计算和大数据时代背景介绍，云和数据的融合是趋势；
Hadoop生态圈10年发展历程（2006-2016），从MapReduce+HDFS到HBase、Hive、Spark、Yarn、Flink全生态，HDFS和Yarn成为基础设施，各种计算模型和存储模型百花齐放;离线平台到实时和在线平台，Spark和Flink成为业界的热点，机器学习算法也是另外的热点；
Hadoop应用范围的扩展，从搜索业务和BI报表类业务，扩展到金融、医疗领域;阿里云梯集群的发展历程（2008-2015），内部专有服务。集群管理、分布式调度、超过1万台扩展性、跨机房部署；
云上E-MapReduce发展现状（2015-现在），集群管理、监控报警、作业调度等。近期工作方向有Hadoop性能分析、Hadoop BI工具整合、专家服务；
未来云上Hadoop发展展望（Hadoop-as-a-Service）。

讲师：郑锴/ HDFS Committer Intel 研发经理

个人简介：Intel亚太研发中心工作，担任大数据部门研发经理。作为Apache开源社区积极贡献者和爱好者，是Apache Hadoop committer, Apache Directory PMC member and Apache Kerby 发起者。毕业于四川大学，近十年互联网和分布式系统开发经验，最近几年从事大数据研发和优化，专注在大数据安全、分布式存储和实时流处理等领域。

议题:HDFS下一步新思考：在支持了纠删码（Erasure Coding）之后

内容简介：首先回顾最近一两年Hadoop社区对HDFS 纠删码的支持，介绍EC对用户的价值，适用场景和部署建议。然后重点思考Hadoop社区在HDFS上面接下来会怎么走，介绍当前在做的几个重要特性，探讨大数据存储的发展趋势，同时也希望跟用户有效互动得到更多反馈。

讲师：范文臣 / Apache Spark Committer
个人简介：Apache Spark Committer, Spark SQL 开发团队的一员。2013年从浙江大学毕业后，一直在进行分布式系统相关的工作。2014年开始接触 Spark，并成为最活跃的代码贡献者之一。2015年正式加入 Databricks，目前在杭州以远程协作的模式参与 Spark，主要是 SQL 模块的开发。
议题:Deep dive into catalyst
内容简介：Catalyst 是Apache Spark 最重要的模块之一。Spark中的核心API，从 DataFrame、 Dataset到Structural Streaming，大部分都以Catalyst作为基石。Catalyst实质上是一个遍历和操作树的通用库，在此基础上，我们为 Spark 构建了一个组合式的编译器前端，包括查询分析器、优化器和执行规划器。本次演讲会从Catalyst的基本概念开始，深入讲解Catalyst 提供了哪些主要特性来支持Spark的API抽象。

干货满满的开源大数据专场日程如下，快速报名！

85a78dc14ec1303dd8f47e8e7b1086490fc81cc7