阿里云数加案例-美柚

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战

阿里云数加案例-美柚


美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战:

  1. 平台成本高:我们粗略的算过这笔账,数加比我们自建的成本要节省30%左右
  2. 扩展性不好:不仅需求提前预见新业务也需要预估资源的消耗量,从而提前申请足够的资源,而数加则可以随时购买所需的资源,甚至可以按量付费,完全不需要担心资源不足的问题
  3. 运维成本高:自建平台需要自己去做很多的配套,例如权限控制、调度、监控、报警,当任务量和数据量到达一定程度时,复杂度成倍增加,不能很好的集中精力解决业务需求。
  4. 易用性:数加提供了数据血缘、任务依赖等实用功能,可以让非数据开发人员(例如数据分析师)快速的找到自己想要的数据
  5. 数据应用:提供机器学习算法平台和推荐引擎大大降低了机器学习的门槛,不必关心代码实现,只需要配置相关的参数即可。

关于美柚

厦门美柚信息科技有限公司,创始于2013年4月,是一家专注为女性服务的互联网公司。秉承“让女人更美更健康”的理念,美柚以经期管理为切入点,为女性提供备孕、怀孕、育儿、社区交流等功能服务。目前,美柚用户超过1.5亿,日活跃用户近千万,拥有约160个高活跃的女性话题圈,社区内用户日均互动量超500万帖,日均浏览量超过1.8亿次。
在艾瑞、易观、TalkingData、QuestMobile等第三方机构发布的研究报告均显示,美柚在总用户数、活跃用户数、日均使用时间等关键指标方面远远领先于同类产品,是国内最大的女性健康管理应用,也是移动端最大的女性社区。
美柚大数据团队在对内服务好美柚女性用户的同时,积极举办和参与大数据技术沙龙, 同时参加各种国内重量级大数据峰会例如在阿里云栖大会上分享美柚的大数据架构和应用,影响和带动厦门大数据圈。

挑战

美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人,读懂女人,服务女人的最重要利器。这就要求我们大数据团队需要做好数据治理这块,将零散的日志和业务数据通过科学的方法,将其规整起来,形成合理易用的数据仓库;只有做好数据仓库,才能方便的提供各种数据服务。

为什么使用数加

美柚创始于2013年4月,而在2014年初就组建了大数据团队。当时也是自建了一套大数据平台,当时面临最大的几个问题:

  1. 人手不足,经验不足:当时大数据开发团队就3个人,而且还没什么大数据开发经验,对于hadoop及大数据生态等只是停留在理论阶段,并没有什么实操的经验;
  2. 时间紧任务重:由于当时美柚处在高速发展的阶段,对大数据的渴望异常强烈,然而大数据平台处在建设的初期,各方面还不太完善,需要同时应付:数据平台的建设,数据仓库的建设,业务数据需求;
  3. 平台不稳定:开源的hadoop系统并没有完善的周边配套,例如代码版本控制,资源权限,任务调度,任务监控,失败报警等功能,往往需要等早上发现数据没出来,或数据有问题的时候再一步一步的排查问题,用户体验非常不好,经常遭到业务部门的投诉。

2014年底,美柚从阿里那边请来了一个产品总监,了解到我们的大数据团队的痛点之后,给我们推荐了数加。经过我们调研试用后感觉能够解决我们的痛点,因此决定转向数加平台。

解决方案及架构

image
这是我们DMP的架构,目前数加主要是数据ETL以及数据的导入导出这块。具体ETL的架构如下
image
上图的datax就是数加的数据集成部分
数据仓库MaxCompute内部分层如下
image

收益

  1. 几乎零运维,极大的降低大数据的使用门槛。所有的代码管理,调度,监控,报警数加都已经帮我们做好了,我们要做的就是使用它。这样我们可以更专注于数据开发,专业的事要交给专业的人做。
  2. 数加的数据集成工具能够很方便将不同的数据源的数据,进行导入导出,基本实现常用数据源的全覆盖,从而实现大数据的全链路打通。
  3. 方法论的支持。我们遇到的一些问题,其实阿里云之前也遇到过,他们沉淀了一些解决问题的方法能够让我们有效快速的解决遇到的问题。
  4. 云栖大会和云栖社区上有不少解决实际问题的案例,也有不少新技术,新理念的介绍,能够拓宽我们的视野。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
78898
分享
相关文章
2023 云栖大会 | 「动手实践」基于阿里云构建博学谷平台实时湖仓
2023 云栖大会来啦,众多主题活动与你同聚,门票免费领取中,数量有限,先到先得!
612 0
2023 云栖大会 | 「动手实践」基于阿里云构建博学谷平台实时湖仓
实时计算案例:新华智云
面对多个数据上游、多个数据下游,数据处理过程复杂,既有清洗、结构化的工作,又有多维度统计工作的挑战,新华智云的数芯平台选择放弃开源 Spark 技术方案,而整体迁移到一站式、高性能实时大数据处理平台阿里云实时计算。
实时计算案例:新华智云
【云栖号案例 | 制造】明源云通过数加平台降低大数据的应用门槛
明源云存在数据的缺散乱现象同时需要将纸质数据搬到云端数据库上。上云后从存储、计算、上层应用,提供一整套的解决方案,与阿里云生态共同成长。
【云栖号案例 | 制造】明源云通过数加平台降低大数据的应用门槛
解决世界级大数据难题,阿里云自研MaxCompute再获科技大奖
5月14日,浙江省科学技术奖励大会正式召开,阿里云自研大数据计算平台MaxCompute荣获浙江省科技进步一等奖。
1968 0
探寻独角兽背后的大数据力量— 阿里巴巴大数据计算线下Meetup(杭州站)干货集锦
什么是大数据?什么是计算?什么是超大规模的大数据计算? 答案是MaxCompute,具备单日600PB计算力的企业级大数据计算平台。MaxCompute一天的信息处理量相当于全球最大图书馆-美国国会图书馆藏书储存信息量的2250倍,可以为全球70亿人每人存储30张高清照片。
3489 0
【云栖计算之旅】线下沙龙第4期报名中,听阿里专家讲述企业研发管理的最佳实践
在瞬息万变的互联网时代,企业只有通过不断的创新,才能在巨头的夹缝中求生存,而高效敏捷的研发能力是快速创新的关键。这就要求企业有一套规范、高效、适用的研发管理体系,才能适应多样化和差异化的市场需求变化以及技术的不断更新,有效缩短产品开发周期、提高研发资源的利用率、降低研发成本、提升产品质量,从
4386 0
【云栖号案例 | 互联网】启信宝通过数加平台快速迭代,驾驭8000万企业征信
启信宝面临数据融合工作的复杂性、对数据变化的实时性要求高等挑战。通过数加平台产品快速迭代、成本降低、打破数据融合瓶颈,提升了产品开发效率。
【视频回顾+资料下载】DataWorks云上战疫直播周—2020飞天大数据平台实战应用第一季
战疫期间,飞天大数据平台DataWorks云上战疫直播周开启,每个直播都有实操,让大家在家期间也能通过通过线上的形式了解飞天大数据平台实战应用
2343 0
2019云栖大会 | 技术为王趋势下,不懂云数据分析怎么行?
云上解决方案强在哪儿?解读快数据时代的分析秘笈
6618 0