无标注数据是鸡肋还是宝藏?阿里工程师这样用它​

  1. 云栖社区>
  2. 博客>
  3. 正文

无标注数据是鸡肋还是宝藏?阿里工程师这样用它​

子夜初商南 2019-08-16 00:58:18 浏览323
展开阅读全文

小叽导读:针对业务场景中标注数据不足、大量的无标注数据又难以有效利用的问题,我们提出了一种面向行为序列数据的深度学习风控算法 Auto Risk,提出通过代理任务从无标注数据中学习通用的特征表示。这种思想与目前 NLP 领域前沿的 Bert 等预训练模型不谋而合,但是由于行为序列数据和业务的特点显著区别于 NLP,模型的设计和实现又有很大区别。最终,模型在真实场景中落地并取得了显著的增益;实验验证具有较好的多场景泛化能力;相比纯粹的监督学习,在小样本情况下提升明显。

一、背景

行为序列数据,如淘宝购物,支付宝风控事件等,在内部场景十分常见,也是推荐、风控等问题的源头级输入之一。给定一个用户的交易序列,要求预测他接下来会买什么;给定风控事件序列,要求预测是好人还是黑产,都依赖于将行为序列表示成特征向量,进而实现序列分类的基础能力。

image.png

行为序

网友评论

登录后评论
0/500
评论
子夜初商南
+ 关注