谷歌做了45万次不同类型的文本分类后,总结出一个通用的“模型选择算法”

  1. 云栖社区>
  2. 新智元>
  3. 博客>
  4. 正文

谷歌做了45万次不同类型的文本分类后,总结出一个通用的“模型选择算法”

技术小能手 2018-07-26 13:18:30 浏览1907
展开阅读全文

【新智元导读】谷歌官方推出“文本分类”指南教程。为了最大限度地简化选择文本分类模型的过程,谷歌在进行大约450K的文本分类实验后,总结出一个通用的“模型选择算法”,并附上一个完整的流程图,非常实用。

文本分类(Text classification)算法是大规模处理文本数据的各种软件系统的核心。比如,电子邮件软件使用文本分类来确定受到的邮件是发送到收件箱还是过滤到垃圾邮件文件夹;讨论论坛使用文本分类来确定用户评论是否应该标记为不当。

下面是两个主题分类( topic classification)的例子,任务是将文本文档归类为预定义的一组主题。多数主题分类问题要基于文本中的关键字。

image


主题分类被用于标记收到的垃圾邮件,这些邮件被过滤到垃圾邮件文件夹中

另一种常见的文本分类是情感分析(sentiment analysis),其目的是识别文本内

网友评论

登录后评论
0/500
评论
技术小能手
+ 关注
所属云栖号: 新智元