开源大数据周刊-第87期

2018-05-18 1554

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

资讯

SIGIR2018高分录用——阿里妈妈公开全新CVR预估模型

近期，阿里妈妈算法团队发表了一篇题为《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》，公开了全新的CVR预估模型。该模型解决了传统CVR预估模型难以克服的样本选择偏差和训练数据过于稀疏的问题，同时开放了业界首个包含用户序贯行为的大规模数据集。

Apache Pulsar：实时数据处理中消息、计算和存储的统一

实时数据处理在各个行业和领域中已经变得越来越关键。但是在实时数据栈中，Messaging，Computing和Storage三个部分的分离，给方案的实现带来了高复杂性，低可维护性，低效率等问题。

谷歌推出Learn2Compress，可在移动端定制机器学习模型

在谷歌 I/O 大会上，谷歌公布了 ML Kit，旨在帮助移动开发者们获取机器学习能力。谷歌将于近期推出的一大 ML Kit 核心功能，正是由其研究团队开发出的 Learn2Compress 技术支持并实现的自动模型压缩服务。Learn2Compress 支持 TensorFlow Lite 中的在线深度学习模型定制功能，其可在移动设备上高效运行，帮助开发人员摆脱内存与速度优化等难题。。

技术

从Netflix的推荐系统架构中我们可以学习到什么

你是否常常被乱花渐欲迷人眼的推荐算法绕得如坠云中，觉得好像算法就是推荐系统的全部，哪怕就算不是全部，也肯定至少是个嫡生的长子。
然而，实际上工程实现才是推荐系统的骨架，如果没有很好的软件实现，算法不能落地产生效果，产品不能顺畅地服务用户，不能顺利地收集到用户的反馈，更不能让推荐系统往更好的方向进化。

图解JanusGraph内部数据存储结构

JanusGraph/Titan有如下关键设计：支持大规模图数据存储，Titan图数据库是建立在分布式集群上，数据存储容量和集群节点数量成正比；支持弹性和线性扩展，高可用，高容错；支持Gremlin图查询语言；支持利用Hadoop计算框架对图数据进行分析；支持外部索引：ElasticSearch、Solr、Lucene；支持多储存引擎：Cassandra、HBase、Berkeley DB和InMemory模式；基于Apache License 2.0

ZooKeeper真不是最终一致性的，而是顺序一致性

一种说法是ZooKeeper是最终一致性，因为由于多副本、以及保证大多数成功的Zab协议，当一个客户端进程写入一个新值，另外一个客户端进程不能保证马上就能读到这个值，但是能保证最终能读取到这个值。另外一种说法是ZooKeeper的Zab协议类似于Paxos协议，并且提供了强一致性。每当我听到这2种说法，我都想上去纠正一下，“不对，ZooKeeper是顺序一致性(Sequential consistency)”。

负载均衡的原理

本文所描述的，其实就是著名开源软件LVS的原理，上面讲的两种负载均衡的方式，就是LVS的NAT和DR。LVS是章文嵩博士在1998年5月成立的自由软件项目，现在已经是Linux内核的一部分。想想那时候我还在不亦乐乎地折腾个人网页，学会安装和使用Linux 没多久 , 服务器端开发也仅限于ASP，像LVS这种负载均衡的概念压根就没有听说过。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

开源大数据周刊-第87期

资讯

技术

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景