深度学习与中文短文本分析总结与梳理

  1. 云栖社区>
  2. 数据派THU>
  3. 博客>
  4. 正文

深度学习与中文短文本分析总结与梳理

行者武松 2017-05-01 15:32:00 浏览1216
展开阅读全文


1.绪论


过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。而中文文本处理,以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,但没有开源)本文暂且梳理一下,尝试围绕深度学习和短文本处理的方方面面就最简单的概念进行一次梳理,并且试图思考一个问题:


深度学习处理中文短文本的最终效果是什么?


我思考后的答案是:是一种模型,可以无需任何语言学知识或手工特征设计,就可被用于中文分词、词性标注以及命名实体识别等多种中文自然语言处理任务,甚至直接改造为分布式大数据可以使用的框架。


2.短文本


姑且认为200字以内的都叫短文本。


2.1 短文本的研究范围


  • 搜索引擎的搜索结果

  • 锚文本

  • 互联网聊天信息

  • 电子邮件

网友评论

登录后评论
0/500
评论
行者武松
+ 关注
所属云栖号: 数据派THU