2017年,大数据工程师应该如何充实自己的专业工具箱

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介:

随着互联网应用的普及、智能硬件的发展,数据产生的速度呈现了持续爆炸式的增长,数据产生的价值也已不仅取决于空间维度,同时开始在时间维度进行延展,因此提高计算的时效性,更快的从数据中挖掘出信息和知识就意味着能够获取更大的价值。这在阿里双十一大促这样的场景中表现的尤为明显,用户行为和商品变化信息带来的价值都是短暂有效的,因此大数据后台系统需要在线收集用户行为和商品变化等信息,实时调整搜索和推荐策略,为用户和商家提供更精准的服务。

在实时计算领域,Apache Storm、Samza、Spark Streaming、Kafka Stream、Flink 等开源流式计算引擎层出不穷,呈现百家争鸣之势,Google 也顺势推出了开源的 Beam 计算框架标准。

在即将于 4 月 16~18 日举行的 QCon 北京 2017 上,我们专门邀请了两位资深的大数据专家和我们一起策划了两个大数据方面的专题,希望帮助大数据工程师充实他们的专业工具箱,提升他们的架构思维和编程技能。

王峰(莫问),阿里巴巴搜索事业部资深技术专家,数据基础设施团队负责人。2006 年毕业后即加入阿里巴巴集团,长期从事搜索和大数据基础技术研发工作,目前在阿里搜索事业部担任资深技术专家,负责数据基础设施团队。他将作为出品人带来《大数据实时计算与流处理》专题。

Apache Beam 是一款新的 Apache 项目,由 Google 捐献给开源社区,凝聚着 Google 研发大数据基础设施的多年经验。Beam 来源于 Batch(批处理)和 strEAM (流处理)这两个词,意在提供一个统一的编程模型,同时支持批处理和流处理。本次演讲中,Amit 将介绍 Beam 处理大规模乱序流数据的基础,以及 Beam 提供的强大工具。PayPal 架构师,Apache Beam 贡献者,PMC 成员 Amit Sela 将带领我们深入理解 Apache Beam。

阿里巴巴搜索技术团队从去年开始改进 Apache Flink,并创建了阿里的 Flink 分支,线上服务了阿里集团内部搜索、推荐、广告和蚂蚁等核心实时业务,内部称之为 Blink 计算引擎。目前阿里巴巴也已经在和 Flink 母公司 DataArtiscans 一起合作,将 Blink 的改进全部贡献回 Flink 社区,共同推进 Flink 社区的发展,阿里巴巴高级技术专家马国维将全面介绍阿里新一代实时计算引擎 Blink 对 Flink 的各项改进,并向大家分享 Blink 计算引擎在阿里内部的典型应用场景。

滴滴出行近年来飞速发展,系统日均消息量超过万亿规模,消息日均存储处理量达到 PB 级别。由于交通数据的特殊性,滴滴内部需要实时计算的场景日益丰富,面临着低延迟、高吞吐、高稳定性等一系列的挑战。来自滴滴出行的刘建辉将从数据实时采集、实时传输、实时计算、实时消费等整个流程来介绍实时平台在滴滴的实践情况,同时针对日志检索、监控、etl、olap 等具体场景展开介绍。会重点介绍 Spark Streaming 实践和海量日志的实时检索实践。

本次 QCon,我们也和硅谷的湾区同学技术沙龙 (TechM)(tech-meetup.com)合作,推出了硅谷大数据技术专题。出品人是 LinkedIn 高级工程师、湾区同学技术沙龙 Board Member 夏磊博士。

在该专题中,你将听到 Apache Kafka 在事实处理方面的最新进展,Airbnb 的通用数据产品平台,分布式海量二进制文件存储系统 Ambry 以及深度学习在电子商务中的应用等精彩内容。

  更多精彩内容,可以访问 QCon 官网:

http://2017.qconbeijing.com/

识别下图二维码或戳 「 阅读原文 」,了解更多详情!  


 


  

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
大数据 Linux 网络安全
大数据开发工程师基本功修炼之史上最全Linux学习笔记(建议)
大数据开发工程师基本功修炼之史上最全Linux学习笔记(建议)
123 0
|
4月前
|
Java 数据库连接 数据库
Java大数据开发工程师__Spring学习笔记(待更新)
Java大数据开发工程师__Spring学习笔记(待更新)
27 1
|
4月前
|
关系型数据库 MySQL 大数据
大数据开发工程师基本功修炼之Linux学习笔记(四)
大数据开发工程师基本功修炼之Linux学习笔记(四)
110 1
|
4月前
|
大数据 Linux 开发工具
大数据开发工程师基本功修炼之Linux学习笔记(三)
大数据开发工程师基本功修炼之Linux学习笔记(三)
84 0
|
4月前
|
大数据 Java Linux
大数据开发工程师基本功修炼之Linux学习笔记(二)
大数据开发工程师基本功修炼之Linux学习笔记(二)
93 0
|
4月前
|
算法 Java 大数据
大数据Java工程师必备____2021年数据结构思维导图!
大数据Java工程师必备____2021年数据结构思维导图!
102 0
|
5月前
|
大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
|
8月前
|
运维 大数据 数据挖掘
大数据工程师体系职业路径全解
大数据工程师体系职业路径全解
|
大数据
《大数据工程师必读手册》电子版地址
不容错过的大数据手册——《大数据工程师必读手册》现在可以免费下载阅读啦,赶紧先睹为快吧。
102 0
《大数据工程师必读手册》电子版地址
|
数据采集 大数据
面试心经03--大数据开发工程师
面试心经03--大数据开发工程师

热门文章

最新文章