技术创业难？看汇合营销如何玩转大数据与机器学习-阿里云开发者社区

技术创业难？看汇合营销如何玩转大数据与机器学习

2017-02-19 5085

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 峰值期间，汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹；同时，还需要根据用户需求在亿级日志表中做秒级查询。

11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ，同时这里还有流计算、机器学习、性能调优等技术实践。此外，通过 Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问 https://www.aliyun.com/product/odps ；更多精彩内容参见云栖社区大数据频道： https://yq.aliyun.com/big-data 。

自开始大数据创新案例探索之后，汇合营销（杭州汇江容海网络有限公司）是笔者走进的第二家公司，在拜访过程中，通过CEO周鹏与CTO欧阳明对笔者了解到，在这个技术普惠的时代，汇合营销的发展之路铺设与架构。

汇合营销大数据规模与挑战

对于任何一家创业公司来说，成本与-效率都是一个不得不考虑的问题——周鹏。

汇合营销主要提供汇合DSP和汇合DMP两个平台，为电商为主的广告主提供推广服务。此外，在接受商家的精准化需求之后，根据具体的业务场景，为电商广告主提供精准化的营销广告。在整个过程中，周鹏表示，构建一个完善且能够持续服务的大数据平台成为关键，这需要大量的人力与物力；此外，这个平台还需要有足够的“弹性”来满足业务：既要撑得住双11期间的流量峰值，又要能够在平时做好运维成本控制。

峰值期间，汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹；同时，还需要根据用户需求在亿级日志表中做秒级查询——欧阳明。

纵览汇合营销整个大数据系统，在技术挑战上，欧阳明主要归结于以下三条：

大量的数据统计。汇合营销每天收集到的数据，多的时候一天有20多亿访客浏览轨迹，在DMP业务系统中，需要对每个访客的浏览内容进行分析，打上相应标签并进行统计；同时，数据分析师每天也需要产生各种报表，帮助客户进行广告优化。大量的数据存储、统计和大量的业务需求，这使得开发过程中，既要保证高效率，同时也要降低成本。
实时大数据查询。广告商在后台的推广组选择标签时，系统需要在毫秒级的时间内显示标签的用户量并预估展现量信息，由于用户选择的标签一般都会比较多、条件比较复杂，并且每个标签的用户也可能重复，从而无法在用户选择标签前做预计算，必须每次在亿级日志表中查询，而且要保证平均延迟不超过1秒。
CTR预估。CTR预估能够决定广告的精准程度和带来的收益，是广告竞价系统中一个比较核心的部分。在汇合营销，我们使用业内优秀的大数据框架和机器学习算法，例如场感知分解机模型（FFM）、逻辑回归算法等，来训练收集到的TB级数据，将训练好的模型应用于CTR预估，提升了广告投放的精准度，从而有效提升广告效果。

因此在考量了技术与资源之后，汇合营销选择了阿里云数加，通过云服务来取得技术与-效率优势，周鹏总结道。

汇合营销大数据系统架构

开发效率与使用门槛促促成了这个基于云的架构，最大程度减少了运维，即开即用，避免资源浪费——欧阳明。

欧阳明表示，数加有完善的大数据解决方案，能够与阿里云其他产品无缝对接。汇合营销使用了数加的大数据套件、ODPS、DataV和分析型数据库，也尝试了机器学习平台。具体参照下方架构图，通过阿里云数加产品确定的边界，整个系统架构非常清晰：

14db570b368c3992b01f0346af58c9eb7f2fe89b

现在汇合营销大部分离线统计需求都在大数据套件中开发，将数据使用做到非常简单，只要能够写SQL，就可以导出自己需要的报表，满足了大部分的业务需求。此外，分析型数据库能够满足在亿级数据中做毫秒级查询，在数据分析方面，是一个非常不错的工具。在使用数加之前，汇合营销曾搭建了Spark和Hadoop，但每次数据报表都需要开发人员来导出，而且在维护、资源使用上都需要很好地平衡，使用和维护成本相对比较高。

而数加大大降低了数据使用门槛、提高开发效率，现在汇合营销的数据分析团队（非开发人员）都能够独立完成大部分的数据报表需求。此外，数加的按需计费避免了资源空闲，从年初的对比来看，数加在满足同等业务需求基础上能够减少一半的支出，有效地节约了成本开支，帮助创业型企业快速成长。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

技术创业难？看汇合营销如何玩转大数据与机器学习

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

技术创业难？看汇合营销如何玩转大数据与机器学习

大数据计算 MaxCompute

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景