从上千篇投稿脱颖而出,这5篇大数据论文凭什么征服KDD评委?

简介: 5月23日消息,在2017国际知识发现与数据挖掘大会(KDD)全球论文投稿中,阿里集团和蚂蚁金服共有5篇论文被大会收录,这是继年初阿里云获得KDD Cup 2017举办权之后,阿里巴巴在国际数据挖掘顶会KDD学术成果上的又一次突破。

5月23日消息,在2017国际知识发现与数据挖掘大会(KDD)全球论文投稿中,阿里集团和蚂蚁金服共有5篇论文被大会收录,这是继年初阿里云获得KDD Cup 2017举办权之后,阿里巴巴在国际数据挖掘顶会KDD学术成果上的又一次突破。

image
图 KDD 2017 官网图片

KDD的英文全称是Knowledge Discovery and Data Mining,即知识发现与数据挖掘,由美国计算机协会ACM下的数据挖掘分会举办,是国际数据挖掘领域的顶级会议,每年有大量来自世界各地的学术界和工业界人士参与此盛会。KDD 2017共吸引全世界1144篇论文投递,收录216篇,包括清华、中科院、阿里在内的中国大陆学术界和工业界共被收录25篇。今年8月,KDD 2017大会将在加拿大港口城市哈利法克斯召开,被称为大数据领域奥运会的KDD Cup也会同期举办。

据了解,阿里巴巴本次被收录论文涵盖深度学习、大规模图计算、商品智能排序等多个研究领域,基于真实的业务场景或数据样本,文中部分方法结论已经在业务中运用。如深度学习语义建模研究中提出了一种新的文本语义编码算法conv-RNN,该模型在参考了较为常用的文本语义编码模型循环神经网络与卷积神经网络的同时,进行了进一步的文本语义编码优化,实现更为精准的文本分类和问答匹配并已应用于阿里智能问答系统中。

5篇论文概述如下:

《淘宝展示广告中的OCPC智能调价算法》

“针对传统广告系统中广告主对粗粒度流量进行固定价格竞价的模式,该论文创新性提出了一种新的OCPC(Optimized Cost per Click)智能调价算法。

该方法智能调整每个流量上的广告主出价,实现更优的流量价值匹配,明显提升了广告主收益和广告系统的分配效率。同时立足于健康的经济生态和可持续的长远收益,该方法亮点在于不单优化了客户价值,还实现了用户体验、平台收益的整体优化和经济福利的权衡分配。”

《基于大规模图计算的本地算法对展示广告的行为预测》

“用户行为建模在计算广告中是至关重要的,它通过跟踪用户的在线行为建立用户的产品,然后根据用户的兴趣和需求提供相关的广告。准确的模型将导致更高的定位精度,从而提高广告效果。直观上,类似的用户往往对展示的广告具有类似的行为(例如,展示,点击,转换)。

然而,据我们所知,以前的工作没有太多明确地调查各种类型的用户行为的相似之处,并且将它们纳入广告响应目标和预测中,主要是由于问题规模过大。为弥合这一差距,本文中,我们使用二分图来表示历史用户行为,其中包括用户节点和广告客户活动节点,以及过去反映各种类型的用户- 广告营销活动交互的边。

基于这种表示,我们研究了用户行为建模和动作预测的随机步行本地算法,其计算复杂度仅取决于输出群集的大小,而不是整个图形。我们的目标是通过利用历史用户-用户 (user-user),广告系列活动 (campaign- campaign) 和用户-活动 (user-campaign) 交互来改善行为预测。

特别地,我们提出了伴随ADNI算法的二分图AdvUserGraph。 ADNI将NIBBLE算法扩展到AdvUserGraph,并且能够将由感兴趣的用户组成的本地群集发现到特定的广告客户活动。我们还提出了ADNI的两个扩展,提高了效率。所提出的算法的性能表现在合成数据和世界领先的需求侧平台(Demand Side Platform),表明它们在预测极少数事件的有效性。”

《一种新的语义编码模型及其在智能问答及分类中的应用》

“在本文中,我们研发了卷积迭代神经网络(conv-RN N)的通用推理混合框架,用于文本的语义建模,无缝集成了从卷积和复现神经网络结构中提取语言信息的不同方面的优点从而加强新框架的理解力。

此外,基于转换RNN,我们还提出了一种新颖的句子分类模型和一个基于句子的答案选择模型,分别具有加强力的句子匹配和分类。我们在各种各样的数据集中验证了所提出的模型,包括两个具有挑战性的答案选择任务(AS)和用于句子分类(SC)的基准数据集。

据我们所知,AS和SC目前是最为完整的比较结果。我们在这些不同的挑战性任务和基准数据集中经验性地展示了转换RNN的优越性能,并总结了对其他最先进技术方法的表现的见解。”

《多层级联学习在大型电商排序系统的应用》

“在大数据时代,大量应用都会涉及到对海量项目进行排序的工作。我们一方面需要得到尽量准确的排序结果,另一方面希望保证系统的性能以及用户的体验。过往大量的工作都集中在算法准确性方面(如各种learning to rank的方法);只有不多的工作会考虑计算的性能,而且基本停留在小数据集和研究阶段。而在电商场景,商品总量很多的同时(十亿级),query的相关商品也可能很多(千万级)。

在在线请求非常高的情况下,计算性能是必须考虑的,尤其是在双十一等场景下请求量会数倍的增长。为了同时保证排序的效果和效率以及用户体验,本文设计并实现了一种级联式搜索CLOES:它的主要思想是将以此排序分成多个阶段,各阶段使用逐渐复杂的特征去得到逐渐准确的结果;在靠前阶段使用简单特征过滤显然不合要求的结果,在靠后阶段使用复杂特征辨别难以区分的结果。

除此以外,算法结合电商场景的特殊性,严格限制了返回结果的延迟以及返回商品的数量,以保证用户的搜索体验。离线实验验证了算法的正确性以及有效性,对比传统的方法能提升准确率的同时大幅提升了计算性能;在去年双11,在新增了大量准确又耗时的计算特征(包括强化学习和深度学习特征)的情况下,算法极大保证了引擎的效率,使排序对引擎的压力下降40%,同时排序效果有一定提升。”

《基于参数服务器的分布式学习系统及其在阿里和蚂蚁的应用》

近年来,由于大数据(TB甚至PB量级)和大模型(数千亿甚至上万亿参数)的出现,无论是学术圈还是工业界,都亟需并行机器学习的能力。虽然有一些现有的分布式计算系统,如Hadoop和Spark,它们为了支持机器学习算法并行化,提供了一些同步和粗粒度运算符(例如,Map,Reduce和Join等),能够在一定程度上解决一些中小规模的问题,但这些系统很难让开发人员设计出更有效率且支持更大规模的机器学习算法。

这促使我们设计一个通用的分布式平台,称为鲲鹏。它结合了分布式系统和分布式优化算法的特性,来处理复杂的大规模机器学习问题。具体来说,鲲鹏不仅封装了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性,而且还提供了易于使用的接口,以使用户能够聚焦在机器学习核心逻辑上,降低使用成本并提升效率。在上千亿样本/特征的数据集上,测试结果表明,这样的设计在机器学习上带来了引人注目的性能改进,大幅提升了LR、FTRL、GBDT、FM和深度学习等算法的规模跟效率。

作为全球顶尖的互联网科技企业,过去一年阿里电商整体规模超过3.7万亿人民币,记录数亿的活跃用户购买行为数据、数十亿的商品多维特征的刻画数据,有EB级别的数据沉淀。拥有海量数据的阿里在年初就发布NASA计划,目的为“为了解决10年、20年后的困难”。

另外还正在与国内外顶级学术机构中科院、SIGIR、ASPLOS等拓展合作,不久前,阿里iDST负责人金榕就受邀担任国际计算机学会中国理事会常务理事。在部分领域阿里已经实现突破,如联合中科院研制出中国首台光量子计算机,单位体积内的计算能力提升10倍的液冷服务器也计划2018年大规模商用。

原文链接

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
弹性计算 分布式计算 大数据
阿里云计算平台大数据基础工程技术论文入选 VLDB 2023
近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track
|
1月前
|
安全 Java 大数据
基于大数据的旅游系统的设计与实现(论文+源码)_kaic
基于大数据的旅游系统的设计与实现(论文+源码)_kaic
|
1月前
|
传感器 供应链 数据可视化
智慧物流大数据的设计与实现(论文+源码)_kaic
智慧物流大数据的设计与实现(论文+源码)_kaic
|
4月前
|
存储 分布式计算 搜索推荐
【大数据毕设】基于Hadoop的音乐管理系统论文(三)
【大数据毕设】基于Hadoop的音乐管理系统论文(三)
103 0
|
5月前
|
数据采集 机器学习/深度学习 监控
大数据导论考察论文
大数据导论考察论文
65 0
|
10月前
|
人工智能 搜索推荐 大数据
2023中国高校计算机大赛 — 大数据挑战赛:论文学科分类(清华大学主办)
2023中国高校计算机大赛 — 大数据挑战赛:论文学科分类(清华大学主办)
|
机器学习/深度学习 存储 算法
基于工业大数据的生产设备部件故障诊断 附完代码+论文(下)
基于工业大数据的生产设备部件故障诊断 附完代码+论文(下)
100 0
基于工业大数据的生产设备部件故障诊断 附完代码+论文(下)
|
存储 机器学习/深度学习 算法
基于工业大数据的生产设备部件故障诊断 附完代码+论文(中)
基于工业大数据的生产设备部件故障诊断 附完代码+论文
150 0
基于工业大数据的生产设备部件故障诊断 附完代码+论文(中)
|
机器学习/深度学习 传感器 存储
基于工业大数据的生产设备部件故障诊断 附完代码+论文(上)
基于工业大数据的生产设备部件故障诊断 附完代码+论文
577 0
基于工业大数据的生产设备部件故障诊断 附完代码+论文(上)
|
算法 NoSQL 大数据
清华崔鹏团队KDD论文一作解读:在大数据背景下进行因果效应评估
上述图表只汇报了小部分结果,更多结果详见我们论文。从上述结果中,我们发现,基于 Directly Estimator 在所有 setting 下都失败了,这是因为该方法忽略了数据中存在的 confounding bias;基于 propensity score 的方法
2213 0