专访路彦雄:理解语言其实还是很难的

  1. 云栖社区>
  2. 博客>
  3. 正文

专访路彦雄:理解语言其实还是很难的

异步社区 2018-03-08 16:29:52 浏览6251
展开阅读全文

点击关注 异步图书,置顶公众号

每天与你分享 IT好书 技术干货 职场知识

异步社区招募书评人,【异步图书微信公众号】后台回复“书评”免费读新书


路彦雄,西安电子科技大学硕士毕业,从事自然语言处理和机器学习相关工作多年,具有丰富经验。曾任微信小微机器人技术负责人,现任微信整合搜索算法组组长。

路彦雄老师多年学习和从事自然语言处理相关工作,他在创作《文本上的算法——深入浅出自然语言处理》一书时说:“现在还记得我当年刚毕业踏入工作的情景——专业知识几乎一张白纸的我,学习欲望非常强烈,工作之余就是看各种书籍,翻阅各种论文,一开始还是在博客上记笔记,后来转到了印象笔记来记录。这些笔记都是我成长的见证,也是我个人的一些总结和思考,但却总是零零散散的,所以我想整理成正式一点的文档,方便查阅。这些知识在大家平常的学习和工作中都会用到,整理成文档也可以作为别人的一种参考资料;而且我也希望除了必不可少的公式外,尽量以更口语化的方式表达出来,抛弃繁琐的证明,触及算法的核心,尽可能达到深入浅出。当我把文档整理完成后,就放到了网上,竟然收到了网友的一致好评,算是意外的收获,也令我非常高兴。于是,我就丰富完善了一些内容,写成了这本书。站在更高层面来说,自然语言处理还处在初级阶段,离人理解语言还是相差好远,所以我也希望本书能唤起更多人的兴趣,来共同提高自然语言处理技术的水平。”

在异步图书微信公众号活动文末留言你想了解的算法问题,路老师将会选择3个问题回复哦,同时赠送路老师的新书一本,欢迎大家积极提问。下面我们听听路老师的所思所想。

1.异步社区:请您向异步社区的读者做一个简单的介绍吧。最近在忙什么?做哪些项目?

    我叫路彦雄,西安电子科技大学硕士毕业以后一直从事自然语言处理和机器学习相关的工作,在微信北京从事过对话系统的项目,目前在微信搜索应用部做搜一搜的项目。


2.异步社区:是什么初衷让您开始创作《文本上的算法——深入浅出自然语言处理》?这本书有哪些特色?听说这本书的电子版就迭代了好几个版本,机缘巧合,才出版了纸版图书,这中间有什么有趣的故事吗?

这些内容大多是我以前写的笔记,后来整理完善成了一个稍微正式一点的文档,然后放到了网上,尽然收到了很不错的反响,而且听说有些人专门把电子版打印出来看,所以我就决定把内容再完善下出成书。至于书的特色,我个人觉得就是可读性强、内容接地气、知识点全面,我希望能对大家有所帮助和启发。


3.异步社区:作为微信整合搜索算法组组长,对微信搜索算法有哪些思考?面临哪些挑战?可以详细说说吗?

       做好搜索其实还是很难的,一方面与生态有很大关系,一方面涉及到的技术点比较多,尤其是自然语言处理相关技术。微信搜一搜也算是刚起步,还有很大发展空间,前期的生态更多的是公众号和公众号文章、朋友圈、表情等,现在还有一个很重要的载体就是:小程序,它们可以提供丰富的服务和内容,我们就可以通过搜索的形式让用户方便的使用,随着小程序的规模变大,我们的服务能力和内容数据就会越来越丰富,搜一搜会越来越完善,也能更好的满足用户需求。在微信中我们的数据有很强的社交属性(隐私的数据我们不会触碰),因此就可以设计不同的算法模型来处理,比如我们设计了PeopleRank和TrustRank模型来做文档质量和排序模型等,有很多可以值得挖掘和探索的技术点,也欢迎优秀的人才加入我们共同打造微信搜索。


4. 异步社区:2017年最热的关键词之一就是人工智能,自然语言处理作为人工智能领域的一共重要分支,有着非常广泛的应用空间。可以详细说说您对自然语言处理和算法的见解吗?

   我在书里也讲解了不少关于这方面的内容,自然语言处理中的有些单一任务其实已经达到了不错的效果,比如分词、实体识别、文档分类等等,但是如果和人类理解语言相比,还差的太远,语言量化、歧义解决、场景融合、知识融合等等太多难点需要攻破,所以真正理解语言还有很长的路,需要大家共同的努力。


5. 异步社区:这本书读起来非常流畅,而且通俗易懂。您可以总结一下您的写作和工作哲学,以及您最想与别人分享的写作和工作经验吗?

    其实就是一句话:己所不欲勿施于人。我自己就喜欢看一些接地气并且通俗一点的文章,所以我写出来的文档也尽可能向这个目标靠拢。就像生活中,你喜欢什么样的人,那就尽可能去做这样的人,相反,你不喜欢什么样的人,也就不要去做那样的人了,要懂得克制。


6.异步社区:您最早是从什么时候开始接触机器学习?从什么时候开始写博客会分享自己的学习心得,写一本书和写技术博客相比,有哪些不一样的地方呢?

     在我上大学的时候就开始接触机器学习了,但是那时候懂得还很浅显,更多的来自书本,并没有太多的思考和实践,工作之后就有更深入的学习和实践了,也会把学习总结下来发到博客上(不过现在已经遗弃了),写博客是可以随时更改的,有不对的地方或者新的思考都可以随时更新上去;但是出书之后就不那么方便更改了,这是最大的不同。


7.异步社区:职场小白想进入这个领域,您认为必备的职业素养是什么?入门有哪些工具推荐?

很多基础知识是必不可少的,概率论、矩阵论、数值分析等学校学的知识可不能还给老师,然后就是根据自己的工作项目,有意识的培养自己对机器学习、自然语言处理等理论的理解,最后就要逐步培养自己的抽象建模能力以及总结能力。至于一些工具,其实现在网上有很多开源工具和一些文章,只能根据个人当前的水平有意识的去查找翻阅,一定要多学习、多思考,发现问题和解决问题的能力更重要了。


8.异步社区:从人工编辑推荐到机器学习算法推荐智能分发时代,有一些人持有不同意见,认为新闻类算法推荐让人们获取知识的途径变窄了,您是怎么看待这个问题的?   

    这个算是一个仁者见仁智者见智的问题了。以前的新闻软件的形态,决定了用户看到的更多的是人工编辑的热门资讯文章;而现在的一些资讯阅读软件,通过一定的推荐算法,可以把更多的长尾文章推荐给用户,这是一个较大的不同点。至于推荐算法让人们获取知识的途径变窄,这其实是推荐系统中精准性和多样性如何平衡的问题了,在这个世界上,只要是做平衡的事情,都会比较困难,在合适的情况下做出合适的选择是最好的了,但这个对于机器来说是很难的,比如,从技术上就很难捕捉和表示用户当前的兴趣想法。


9.异步社区:2018年自然语言处理领域将有哪些大的发展和挑战,可以预测一下吗? 

   预测是很难的,就像书中说的,自然语言处理其实还处在初级阶段,很多东西值得探索和突破,需要大家共同的努力,我们能做的更多的是:1、针对某个具体问题,提出有创新性且有用的解决方法;2、结合场景需求,利用现有技术做出能提升人们某方面效率的产品。    


10.异步社区:您后续还有什么写作计划吗?有什么新作品提前给读者“剧透”一下?

   由于工作原因,短期内不会有太多时间来写一些东西啦,但我会关注读者对本书的反馈,以后有时间了,没准在本书基础上会完善更多的内容,推出《文本上的算法》第二版,但是时间就不确定了。   

路老师全新作品《文本上的算法——深入浅出自然》    

《文本上的算法:深入浅出自然语言处理

路彦雄 箸  

点击封面购买纸书

       本书主要分两大部分。第一部分是理论篇,包含前3章内容,主要介绍一些基础的数学知识、最优化理论知识和一些机器学习的相关知识。第二部分是应用篇,包含第4章到第8章,分别针对计算性能、文本处理的术语、相似度计算、搜索引擎、推荐系统、自然语言处理和对话系统等主题展开介绍和讨论。本书适合从事自然语言处理相关研究和工作的读者参考,尤其适合想要了解和掌握机器学习或者自然语言处理技术的读者阅读。

延伸推荐

2018年1月重磅新书

小学生开始学Python,最接近AI的编程语言:安利一波Python书单

政策升温:大家都在学大数据,一大波好书推荐

一本基于Python语言的Selenium自动化测试书

8本新书,送出一本你喜欢的

AI经典书单| 入门人工智能该读哪些书?

点击关键词阅读更多新书:

Python|机器学习|Kotlin|Java|移动开发|机器人|有奖活动|Web前端|书单


长按二维码,可以关注我们哟

每天与你分享IT好文。


异步图书”后台回复“关注”,即可免费获得2000门在线视频课程;推荐朋友关注根据提示获取赠书链接,免费得异步图书一本。赶紧来参加哦!

扫一扫上方二维码,回复“关注”参与活动!











点击下方阅读原文购买《文本上的算法——深入浅出自然语言处理》

网友评论

作者关闭了评论
异步社区
+ 关注