技术创业难?看汇合营销如何玩转大数据与机器学习

简介: 峰值期间,汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹;同时,还需要根据用户需求在亿级日志表中做秒级查询。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

自开始大数据创新案例探索之后,汇合营销(杭州汇江容海网络有限公司)是笔者走进的第二家公司,在拜访过程中, 通过CEO周鹏与CTO欧阳明对笔者了解到,在这个技术普惠的时代,汇合营销的发展之路铺设与架构。

汇合营销大数据规模与挑战

对于任何一家创业公司来说,成本与-效率都是一个不得不考虑的问题——周鹏。

汇合营销主要提供汇合DSP和汇合DMP两个平台,为电商为主的广告主提供推广服务。此外,在接受商家的精准化需求之后,根据具体的业务场景,为电商广告主提供精准化的营销广告。在整个过程中,周鹏表示,构建一个完善且能够持续服务的大数据平台成为关键,这需要大量的人力与物力;此外,这个平台还需要有足够的“弹性”来满足业务:既要撑得住双11期间的流量峰值,又要能够在平时做好运维成本控制。

峰值期间,汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹;同时,还需要根据用户需求在亿级日志表中做秒级查询——欧阳明。

纵览汇合营销整个大数据系统,在技术挑战上,欧阳明主要归结于以下三条:

  • 大量的数据统计。汇合营销每天收集到的数据,多的时候一天有20多亿访客浏览轨迹,在DMP业务系统中,需要对每个访客的浏览内容进行分析,打上相应标签并进行统计;同时,数据分析师每天也需要产生各种报表,帮助客户进行广告优化。大量的数据存储、统计和大量的业务需求,这使得开发过程中,既要保证高效率,同时也要降低成本。
  • 实时大数据查询。广告商在后台的推广组选择标签时,系统需要在毫秒级的时间内显示标签的用户量并预估展现量信息,由于用户选择的标签一般都会比较多、条件比较复杂,并且每个标签的用户也可能重复,从而无法在用户选择标签前做预计算,必须每次在亿级日志表中查询,而且要保证平均延迟不超过1秒。
  • CTR预估。CTR预估能够决定广告的精准程度和带来的收益,是广告竞价系统中一个比较核心的部分。在汇合营销,我们使用业内优秀的大数据框架和机器学习算法,例如场感知分解机模型(FFM)、逻辑回归算法等,来训练收集到的TB级数据,将训练好的模型应用于CTR预估,提升了广告投放的精准度,从而有效提升广告效果。 

因此在考量了技术与资源之后,汇合营销选择了阿里云数加,通过云服务来取得技术与-效率优势,周鹏总结道。

汇合营销大数据系统架构

开发效率与使用门槛促促成了这个基于云的架构,最大程度减少了运维,即开即用,避免资源浪费——欧阳明。

欧阳明表示,数加有完善的大数据解决方案,能够与阿里云其他产品无缝对接。汇合营销使用了数加的大数据套件、ODPS、DataV和分析型数据库,也尝试了机器学习平台。具体参照下方架构图,通过阿里云数加产品确定的边界,整个系统架构非常清晰:

14db570b368c3992b01f0346af58c9eb7f2fe89b


现在汇合营销大部分离线统计需求都在大数据套件中开发,将数据使用做到非常简单,只要能够写SQL,就可以导出自己需要的报表,满足了大部分的业务需求。此外,分析型数据库能够满足在亿级数据中做毫秒级查询,在数据分析方面,是一个非常不错的工具。在使用数加之前,汇合营销曾搭建了Spark和Hadoop,但每次数据报表都需要开发人员来导出,而且在维护、资源使用上都需要很好地平衡,使用和维护成本相对比较高。

而数加大大降低了数据使用门槛、提高开发效率,现在汇合营销的数据分析团队(非开发人员)都能够独立完成大部分的数据报表需求。此外,数加的按需计费避免了资源空闲,从年初的对比来看,数加在满足同等业务需求基础上能够减少一半的支出,有效地节约了成本开支,帮助创业型企业快速成长。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
27天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
16天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
|
27天前
|
存储 数据采集 数据可视化
大数据处理技术
【4月更文挑战第10天】大数据处理涵盖采集、预处理、存储、分析挖掘、展现和应用等关键步骤。采集涉及多种类型数据,预处理确保数据质量,存储管理关注规模、速度和安全,分析挖掘利用机器学习发现价值,展现和应用则通过可视化和检索实现数据价值。云计算和AI强化了大数据处理能力,整体目标是提取数据中的价值,驱动企业和社会进步。
32 4
大数据处理技术
|
2天前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
6天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
10天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI 操作报错合集之机器学习PAI缺失值补充报错,从odps读取数据正常 进行下一步时,补充缺失值报错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
15天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
|
19天前
|
存储 数据可视化 大数据
大数据技术框架
【4月更文挑战第20天】大数据一般需要经过6个主要环节,包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化。
|
1月前
|
存储 大数据 数据管理
大数据技术是如何发展的?
大数据虽已发展多年,但仍面临将恰当信息在正确时间传递给合适人员的挑战。尽管技术进步,大部分企业员工仍难以获取所需信息。数据仓库、数据湖和数据结构等存储系统涌现,但集中数据并不实际,数据去中心化趋势明显。数据结构允许异构数据并促进治理,同时,云计算影响大数据战略,提供灵活实验空间。数据治理和隐私规则的遵守至关重要,流程成熟度聚焦于数据质量和共享。目前大数据正处于“幻灭低谷”,成功的关键在于数据治理和处理流程的改进。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute