无标注数据是鸡肋还是宝藏?看阿里工程师这样用它 | 开发者必读(043期)

  1. 云栖社区>
  2. 博客>
  3. 正文

无标注数据是鸡肋还是宝藏?看阿里工程师这样用它 | 开发者必读(043期)

社区助手 2019-08-15 16:54:25 浏览431
展开阅读全文

最炫的技术新知、最热门的大咖公开课、最有趣的开发者活动、最实用的工具干货,就在《开发者必读》!

每日集成开发者社区精品内容,你身边的技术资讯管家。


每日头条

无标注数据是鸡肋还是宝藏?阿里工程师这样用它

针对业务场景中标注数据不足、大量的无标注数据又难以有效利用的问题,我们提出了一种面向行为序列数据的深度学习风控算法 Auto Risk,提出通过代理任务从无标注数据中学习通用的特征表示。

image.png

这种思想与目前 NLP 领域前沿的 Bert 等预训练模型不谋而合,但是由于行为序列数据和业务的特点显著区别于 NLP,模型的设计和实现又有很大区别。最终,模型在真实场景中落地并取得了显著的增益;实验验证具有较好的多场景泛化能力;相比纯粹的监督学习,在小样本情况下提升明显。


最强干货

支付宝:你长大了,该学会认识新朋友了!

在今年的拉动手淘用户增长战略中,支付宝




网友评论

登录后评论
0/500
评论
社区助手
+ 关注