开源大数据周刊-第78期-阿里云开发者社区

开源大数据周刊-第78期

2018-01-05 3202

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 新功能预告：EMR Hadoop集群将增加Flink组件，版本1.4.0；EMR Kafka集群将增加Schema Registry和Rest Proxy组件

阿里云E-MapReduce资讯

新功能预告：
- EMR Hadoop集群将增加Flink组件，版本1.4.0
- EMR Kafka集群将增加Schema Registry和Rest Proxy组件

资讯

盘点2017年晋升为Apache TLP的大数据相关项目
本文主要盘点了 2017 年晋升为 Apache Top-Level Project (TLP) 的大数据相关项目，包括Apache Beam（下一代的大数据处理标准），Apache Eagle（分布式实时Hadoop数据安全方案），Apache Ranger（统一授权管理框架），Apache Metron（实时网络安全检测框架），Apache SystemML（为大数据优化的声明式机器学习平台），Apache CarbonData（列式存储文件格式），Apache Fluo（大规模增量处理系统），Apache DistributedLog（高性能分布式复制日志系统），Apache MADlib（基于SQL可扩展的机器学习库），Apache RocketMQ（分布式消息传递和流数据平台），Apache Impala（新一代开源大数据分析引擎），Apache Trafodion（基于 Hadoop 平台的事务数据库引擎）。
政府大数据应用经典案例 | 江西省教师质量监测、评估与服务大数据平台健全教育质量保障体系
江西省教师质量监测、评价与服务大数据平台，围绕江西省中小学课堂教学行为测评，为教师质量动态监测提供技术支撑，构建教师质量评估与诊断的科学体系，为政府和学校优化教师队伍建设提供科学的决策依据。
依托大数据平台实现税收优惠政策精准落地
在重庆，像数字城市科技公司这样享受到税收优惠红利的企业还有很多。重庆市地税局充分发挥税收优惠政策的扶持作用，依托大数据平台，重点推进高新技术企业研发费用加计扣除等税收优惠政策精准落地，以税收“减法”赢得了企业发展和经济结构转型的“加法”。

技术

使用EMR来进行mysqlbinlog日志准实时传输
如何利用阿里云的sls插件功能和emr来进行mysql binlog的准实时传输。
基于可视化配置的日志结构化转换实现
随着互联网、IT、大数据等技术的爆发式发展，企业系统产生的大量爆发数据。对于保存在数据库中的业务数据，可以通过DBus数据总线+Wormhole流式处理平台的日志方式实时地无侵入同步和落地到任意sink端，提供下游系统分析使用；对于业务系统产生的日志数据，这些包含了业务高低峰、用户轨迹、系统异常/错误信息、调用链等诸多信息，也蕴含着无价的宝藏。一些公司通过埋点等方式和手段，往日志数据里输出他们想要监控和跟踪的信息，以便提供客观的数据支撑，做出更高效、更准确的决策。
SparkRDMA：使用RDMA技术提升Spark的Shuffle性能
由Mellanox Technologies公司开发并开源的SparkRDMA ShuffleManager采用RDMA技术，使得Spark作业在Shuffle数据的时候使用RDMA方式，而非标准的TCP方式。在测试的结果显示，采用RDMA进行Shuffle 数据比标准的方式快2.18倍！
流计算框架 Flink 与 Storm 的性能对比
本文对这两个框架进行性能对比，为实时计算平台资源规划、框架选择、性能调优等决策及Flink平台的建设提出建议并提供数据支持，为后续的SLA建设提供一定参考。

欢迎入群技术交流！

EMR_dingding

出品方：阿里云E-MapReduce团队出品

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

开源大数据周刊-第78期

阿里云E-MapReduce资讯

资讯

技术

欢迎入群技术交流！

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景