自然语言处理扫盲·第一天——自然语言处理的背景、应用、推荐资料

  1. 云栖社区>
  2. 博客>
  3. 正文

自然语言处理扫盲·第一天——自然语言处理的背景、应用、推荐资料

青夜之衫 2017-12-04 22:55:00 浏览636
展开阅读全文

自然语言处理在很多APP中都有实际应用的场景,比如在电商软件中,客服问答系统、评论情感分析、带有语义识别的搜索、商品自动分类、用户画像等等。那么本篇作为自然语言处理浅学的第一篇,就着重来讲一下背景知识。

背景知识

自然语言处理,英文是natural language process, NLP,说白了就是利用计算机去对文本进行分析的加工。

由于自然语言处理是一门交叉的学科,因此学习它的话,需要了解很多其他学科的知识。比如:

  • 概率论:需要了解概率、条件概率、贝叶斯法则;二项分布、期望、方差;最大似然估计、梯度下降等等
  • 统计学:建模、数据稀疏问题、回退方法等
  • 机器学习:分类、感知器、支持向量机
  • 语言学:构词、词类、句法、语义;语料库和知识库等等

因此可以看到,想要了解自然语言处理,还是需要浓厚的背景基础的。

应用场景

机器翻译

这个是自然语言处理最为人知的场景,也是现在没有什么明确商业化的场景。一般都是拿这种机器翻译来作为某个应用的组成部分,比入跨语言的搜索引流等等。

国内外对于机器翻译都有比较成熟的产品,比如百度翻译、有道翻译、Google 翻译等等。

机器翻译由于涉及到语义分析、上下文环境等面临很多挑战。

体验频道:

情感分析

情感分析在一些评论机制的app中比较有用,比如某酒店网站,下面会有居住过的客人的评价,如果评论有几千条,满满的都是脏乱差,那谁还想住呢!

所以可以通过情感分析,分析用户评论是积极的还是消极的,根据一定的排序规则和显示比例,在评论区显示。

同样这个场景也适用于电商网站的商品评价。

智能问答

问答系统在一些电商网站也很有实际价值,比如充当客服角色。有很多基本的问题,其实并不需要真的联系人工客服来解决。通过这种智能的问答系统,就可以排除掉大量的用户问题,比如商品的质量投诉啊、商品的基本信息查询啊之类的。

这样可以省去大量的人工成本。

体验频道:

信息提取

在很多搜索引擎的公司,都会采集各种数据,然后进行信息的提取分析。比如新闻的自动分类,就需要针对文本提取关键信息,然后应用一些tf-idf的算法,进行主要的主题分析,从而进行自动的分类。

语音输入

说到这个就不得不提科大讯飞了,前一阵新闻推广了讯飞的翻译器——他能根据的中文同声传译翻译成英文,也就是说习大大以后再也不需要带着一名翻译官出访其他国家了(话说,这跟我们有什么关系),以后可以去国外爽歪歪的旅游了(再也不用点餐的时候this this this ok了,咱们直接点宫保鸡丁、麻婆豆腐)。

体验频道:

舆论分析

说到这个舆论分析,最著名的就是奥巴马的总统竞选了。比如通过数据分析筹集资金,改变广告的投放策略,制作有效的拉票推荐等等。

参考:http://tech.qq.com/a/20121108/000182.htm

这个如果是那些明星的公关工作室,应该会很有用吧。比如最近《那年花开月正圆》挺火,孙俪成了舆论焦点,这个时候相关的明星发一些贴边的新闻,就能炒作一下!

语言生成(新闻、篮球解说、文本摘要)

再语言生成方面目前也有很多的应用场景,比如体育类节目的ai解说:

http://www.techweb.com.cn/it/2016-08-17/2376291_4.shtml

由于这个在电商领域应用的方向比较少,因此就不太关注了。

知识图谱(略)

知识图谱不知道啥时候突然就火了,也许是因为它能够描述复杂的关联关系。看到知识图谱的兴起,我还是有一些兴奋的,因为再读研期间搞的就是偏复杂网络的方向。复杂网络是一种复杂的图结构,图的点与线都有复杂的描述关系。在知识图谱中也是如此,不过知识图谱是面向业务领域的,比如百度描述明星关系的案例。

http://tupu.baidu.com/xiaoyuan/

有了这种知识图谱的基础,随便搜索黄晓明的老婆是谁? 就很容易回答出来了。

那么再电商领域,也许可以根据商品的关系或者产地、供应商等建立知识图谱,然后进行捆绑销售、促销活动、精准营销等活动,带动商品的曝光和销量。

推荐书籍

《数学之美》

449064-20170905222704101-916631527.png

《自然语言处理综论》

449064-20170905222716819-1958255645.png

《统计自然语言处理》

449064-20170905222727569-1791967440.png

《统计学习方法》

449064-20170905222739710-2096365109.png

《机器学习实战》

449064-20170905222749382-1434277045.png

《集体智慧编程》

449064-20170905223018710-1601310140.png

参考

1 百度在NLP领域都做了什么?https://www.leiphone.com/news/201702/LDdGVnuiyP9HiPXa.html
2 机器翻译原理:https://www.zhihu.com/question/24588198

本文转自博客园xingoo的博客,原文链接:自然语言处理扫盲·第一天——自然语言处理的背景、应用、推荐资料,如需转载请自行联系原博主。

网友评论

登录后评论
0/500
评论
青夜之衫
+ 关注