手把手教你数据不足时如何做深度学习NLP

  1. 云栖社区>
  2. 翻译小组>
  3. 博客>
  4. 正文

手把手教你数据不足时如何做深度学习NLP

【方向】 2018-10-28 19:52:29 浏览1755
展开阅读全文

fb3264fdaf35908868eabac266b58ffd46c55cb3

作为数据科学家,你最重要的技能之一应该是为你的问题选择正确的建模技术和算法。几个月前,我试图解决文本分类问题,即分类哪些新闻文章与我的客户相关。

我只有几千个标记的例子,所以我开始使用简单的经典机器学习建模方法,如TF-IDF上的Logistic回归,但这个模型通常适用于长文档的文本分类。

在发现了我的模型错误之后,我发现仅仅是理解词对于这个任务是不够的,我需要一个模型,它将使用对文档的更深层次的语义理解。

深度学习模型在复杂任务上有非常好的表现,这些任务通常需要深入理解翻译、问答、摘要、自然语言推理等文本。所以这似乎是一种很好的方法,但深度学习通常需要数十万甚至数百万的训练标记的数据点,几千的数据量显然是不够的。

通常,大数据集进行深度学习以避免过度拟合。深度神经网络具有许多参数,因此通常如果它们没有足够的数据,它们往往会记住训练集并且

网友评论

登录后评论
0/500
评论
【方向】
+ 关注
所属云栖号: 翻译小组