2017易观OLAP算法大赛

简介: 大赛简介 目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。

点击查看易观OLAP算法大赛详情



大赛简介


目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。 在这个研发过程中,有个比较核心的需求,叫做“有序漏斗”。“有序漏斗”问题定义比较简单,但计算过程比较复杂。市面上现有的解决方案在数据量较大的情况下,计算效率较低。 为了更好的提升产品体验,易观决定将此需求作为比赛题目,广招各路大牛,共同解决。大赛分为2组,开源组和商业组。开源组设置奖金池和排行榜,商业组最后设置排行榜。

根据提供的应用转化和OLAP场景,给出具体的方案,先利用测试数据集在指定测试集群上运行给出测试结果, 最终易观会用实际测试数据在测试集群上跑整体数据并给出用时排名。

开源排行榜,第1名现金人民币10万(税前)奖励, 前3名易观证书
商业排行榜,前3名易观证书


问题定义


点击查看易观OLAP算法大赛详情
漏斗分析是帮助运营人员分析一个多步骤过程中每一步的转化与流失情况。
假设我们在购买商品的过程中,需要触发的事件包括 “启动”,“登陆”,“搜索商品”,“查看商品”,“生成订单”等。 运营人员需要分析某段时间内(比如2017年1月5号到2017年2月5号),在全部用户中依次有序触发 “登陆”→“搜索商品”→“查看商品”→“生成订单“ 事件的人群的转化流失情况,即计算全部用户中触发了“登陆”事件的总人数A,A中触发“搜索商品”事件的总人数B,B中触发“查看商品”事件的总人数C,以及C中触发“生成订单”事件的总人数D。展现形式如下:
同时,漏斗分析中包含“时间窗口”的概念,即需要保证所有事件在同一个窗口期内发生。比如时间窗口为1天,用户001触发“搜索商品”事件的时间和触发“登陆”事件的时间间隔在一天内,“搜索商品”事件才有效,否则视为无效。同理,用户001触发“查看商品”事件的时间和触发“登陆”事件的时间间隔也必须在一天内。时间窗口可以为1天、3天、7天或者1小时、6小时等任意长时间段。 最后,在漏斗分析中,可以设置事件属性。比如“搜索商品”事件,可以设置只计算“搜索商品”事件的属性中“content”字段为“computer”的用户。具体见详细数据。



测试数据


链接: http://pan.baidu.com/s/1dEHodih 密码: z3m8

数据为文本文件格式,具体包含字段有:
(1)用户ID,字符串类型
(2)时间戳,毫秒级别,Long类型
(3)事件ID,Int类型,包含10001到10010十个事件
(4)事件名称,字符串类型,包含启动、登陆、搜索商品等十个事件
(5)事件属性,Json串格式
(6)日期,字符串类型
数据总条数6亿左右,日期范围:2017/01/01到2017/02/28。


比赛评判说明


所有提交的方案都必须可行,开源组须公开思路及源代码,商业组只须公开思路,具体使用哪些软件可自行设定。 评委会随机设定漏斗需求,所有参赛方案根据具体需求计算结果,在结果准确的基础上,耗时最少者获胜。漏斗需求举例如下:
(1)计算2017年1月份中,依次有序触发“搜索商品”、“查看商品”、“生成订单”的用户转化情况,且时间窗口为1天。
(2)计算2017年1月和2月份中,依次有序触发“登陆”、“搜索商品”、“查看商品”、“生成订单”、“订单付款”的用户转化情况,且时间窗口为7天,“搜索商品”事件的content属性为Apple,“浏览商品”事件的price属性大于5000。


目前通用算法与实例



点击查看易观OLAP算法大赛详情
目前通用60分的算法如下,给各位参赛者做参考,同时源代码稍后公布,大家可以基于这个算法或者自建更好的算法优化。
(1)底层存储用HDFS
(2)建立Hive表,并以应用标识、日期、事件名称为分区
(3)查询用presto,并自定义UDAF,或者利用Spark core自定义相同逻辑



硬件系统配置

centos7、16核|16G内存、SSD数据盘300G的ucloud云主机4台

目前易观在以上配置的4台机器上测试漏斗耗时统计如下:
1、查询2017年1月份,时间窗口为7天,事件顺序为10001、10004、10008的漏斗,结果为[3999974, 3995900, 3608934],24秒
2、查询2017年1月份,时间窗口为3天,事件顺序为10004、10008、10010的漏斗,结果为[3999422,3573367,697506],13秒
3、查询2017年1月份,时间窗口为3天,事件顺序为10004、10007、10009、10010,并且10004事件的brand属性为’Apple’的漏斗,结果为[3639301, 2449480, 559517, 35795],13秒


合作媒体


相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2月前
|
人工智能 自然语言处理 算法
CodeFuse成功支持通义千问算法大赛,评测方案已开源
首届通义千问AI挑战赛成功举办,CodeFuse 为大赛提供技术支持,模型微调框架 MFTCoder 和 CodeFuseEval 评测框架为大赛保驾护航,助力大赛圆满完成。我们基于leetcode 阿里和蚂蚁最新面试题库建设了“模型赛马”在线打榜的评测方案,目前验证集已作为 CodefuseEval 的一项任务在 Github 上开放,欢迎大家下载使用。
67 1
|
10月前
|
算法 安全 网络安全
【Sword系列】第七届全国残疾人职业技能大赛样题-网络安全-九宫格算法加密
手机九宫格键盘加密算法是一种在移动设备上使用的密码加密技术。它的基本原理是使用手机键盘上的九宫格来生成一组密钥,以保护用户数据的安全。
88 0
 【Sword系列】第七届全国残疾人职业技能大赛样题-网络安全-九宫格算法加密
|
11月前
|
算法
等你来战!WebShell文本检测算法大赛火热报名中
等你来战!WebShell文本检测算法大赛火热报名中
|
算法
粤港澳大湾区(黄埔)国际算法算例大赛-古籍文档图像识别与分析(下)
粤港澳大湾区(黄埔)国际算法算例大赛-古籍文档图像识别与分析(下)
187 0
|
人工智能 JSON 文字识别
粤港澳大湾区(黄埔)国际算法算例大赛-古籍文档图像识别与分析(上)
粤港澳大湾区(黄埔)国际算法算例大赛-古籍文档图像识别与分析(上)
381 0
粤港澳大湾区(黄埔)国际算法算例大赛-古籍文档图像识别与分析(上)
|
机器学习/深度学习 数据采集 算法
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(三)
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(三)
83 0
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(三)
|
数据采集 机器学习/深度学习 存储
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(二)
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(二)
136 0
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(二)
|
数据采集 机器学习/深度学习 算法
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(一)
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(一)
292 0
通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理(一)
|
机器学习/深度学习 人工智能 自然语言处理
“阿里灵杰”问天引擎电商搜索算法大赛 | 学习笔记
快速学习“阿里灵杰”问天引擎电商搜索算法大赛
348 0
“阿里灵杰”问天引擎电商搜索算法大赛 | 学习笔记