只有100个标记数据,如何精确分类400万用户评论?

  1. 云栖社区>
  2. 新智元>
  3. 博客>
  4. 正文

只有100个标记数据,如何精确分类400万用户评论?

技术小能手 2018-08-22 11:32:03 浏览8748
展开阅读全文

在本文中,我们将介绍自然语言处理(NLP)在迁移学习上的最新应用趋势,并尝试执行一个分类任务:使用一个数据集,其内容是亚马逊网站上的购物评价,已按正面或负面评价分类。然后在你可以按照这里的说明,用你自己的数据重新进行实验。

383f2c0bc478c830fe8e9fbe9abdc5bc88b5bd18

迁移学习模型的思路是这样的:既然中间层可以用来学习图像的一般知识,我们可以将其作为一个大的特征化工具使用。下载一个预先训练好的模型(模型已针对ImageNet任务训练了数周时间),删除网络的最后一层(完全连接层),添加我们选择的分类器,执行适合我们的任务(如果任务是对猫和狗进行分类,就选择二元分类器),最后仅对我们的分类层进行训练。

由于我们使用的数据可能与之前训练过的模型数据不同,我们也可以对上面的步骤进行微调,以在相当短的时间内对所有的层进行训练。

除了能够更快地进行训练之外,迁移学习也是特别有趣的,仅在最后一层

网友评论

登录后评论
0/500
评论
技术小能手
+ 关注
所属团队号: 新智元