开源大数据周刊-第38期

简介: 本期关注:梨视频基于阿里云E-MapReduce搭建视频推荐系统的实践,Apache Eagle成为新的顶级项目,英特尔开源的分布式深度学习库BigDL,Hadoop 3.0新功能测评

阿里云E-Mapreduce动态

  • E-MapReduce 2.3.1镜像版本(已发布)

    • 基础镜像CentOS 6.5内核版本升级到2.6.32-642
    • 支持Hadoop YARN Job failover

资讯

本文就近期百分点和亚信数据内部人事调整的新闻出发,提出了“大数据寒冬已至”的观点,而过度竞争是大数据寒冬的主要因素。对于未来大数据公司如何生存,文章中提出了产品聚焦、成本控制等方向,为度过寒冬做准备。

微博赢得了“脉脉非法抓取使用微博用户信息”案件的胜利,作者认为脉脉主要输在以下几点:1、非法获取用户信息,并用于商业化;2、行为构成了不正当竞争;3、脉脉没有起到保护用户信息的作用。此案对行业也有警示作用:各平台方都有责任推动数据生态的繁荣,积极建立数据使用规则,对那些滥用数据,过度使用数据额行为进行制止。

Apache软件基金会正式宣布Eagle从Apache孵化器项目毕业,正式升级成为顶级项目。Eagle是由eBay开源的大数据分布式实时监控和预警解决方案,已被应用于eBay,Paypal,1号店等公司。以Hadoop为代表的开源大数据解决方案正在朝着安全、稳定、可观测等企业级需求方案演进。

技术

梨视频是一款脱胎于传统媒体的创业型短视频软件,在视频领域异军突起,本文介绍了如何通过阿里云快速构建核心的数据平台和推荐系统,实现业务落地,整套系统利用ECS,OSS,SLS,EMR,Redis,RDS全套产品搭建完成,数据流全打通。

文章介绍了京东公司内部使用Storm平台时遇到的问题,比如用户资源需求多样复杂、大集群维护、成本节省等,以及如何使用docker技术对storm进行改造,达到了用户申请即可用、配置个性化、大规模集群的要求,操作高效且自动化。

近日,英特尔开源了一个运行在 Apache Spark 上的分布式深度学习库 BigDL,其可以利用已有的 Spark 集群来运行深度学习计算,并且还能简化从 Hadoop 的大数据集的数据加载。在 Xeon 服务器上的测试表明BigDL相比于Caffe、Torch 或 TensorFlow 等开源框架实现了显著的速度提升。其速度可与主流的 GPU 相媲美

Hadoop 3.0.0-alpha1 新版本中增加的主要功能之一是纠删码技术,本文先简单介绍纠删码技术,然后主要评测纠删码技术的性能,以及纠删码技术和 HDFS 默认3备份技术的性能比较。

欢迎加入阿里云开源大数据交流钉钉群

screenshot

版权声明

信息都是来自互联网,都给出了原文的链接,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队 出品

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
68 0
|
4月前
|
SQL 大数据 关系型数据库
开源大数据比对平台(dataCompare)新版本发布
开源大数据比对平台(dataCompare)新版本发布
69 0
|
4月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
115 0
|
5月前
|
机器学习/深度学习 分布式计算 大数据
开源大数据平台的发展
开源大数据平台的发展
64 0
|
5月前
|
人工智能 分布式计算 大数据
开源大数据平台 3.0 技术解读
阿里云研究员,阿里云计算平台事业部开源大数据平台负责人王峰围绕新一代的流式湖仓、全面 Serverless 化、更智能的开源大数据等多维度解读开源大数据平台 3.0~
1020 1
开源大数据平台 3.0 技术解读
|
1月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
53 4
|
4月前
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
108 1
|
4月前
|
大数据 Linux KVM
【云计算与大数据技术】虚拟化技术、开源技术Xen、KVM、OpenVZ的讲解(图文解释 超详细)
【云计算与大数据技术】虚拟化技术、开源技术Xen、KVM、OpenVZ的讲解(图文解释 超详细)
98 0
|
4月前
|
存储 人工智能 大数据
2023云栖陈守元,阿里云开源大数据产品年度发布
阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。
262 2
|
6月前
|
存储 分布式计算 数据可视化
开源在大数据和分析中的角色
开源在大数据和分析中的角色
49 0