通用句子向量漫谈

  1. 云栖社区>
  2. 博客>
  3. 正文

通用句子向量漫谈

zhangningyu1690 2019-04-25 22:41:53 浏览800
展开阅读全文

背景

​ 近期业务需要使用文本上下文语义特征,而将文本进行编码和表征是NLP最核心的技术之一,于是调研了表征文本的相关技术,总结如下, 以飨后人。

混沌未开

​ 在word2vec诞生之前,NLP中并没有一个统一的方法去表示一段文本。从one-hot表示一个词到用bag-of-words来表示一段文本,从k-shingles把一段文本切分成一些文字片段到汉语中用各种序列标注方法将文本按语义进行分割,从tf-idf中用频率的手段来表征词语的重要性到text-rank中借鉴了page-rank的方法来表征词语的权重,从基于SVD纯数学分解词文档矩阵的LSA,到pLSA中用概率手段来表征文档形成过程并将词文档矩阵的求解结果赋予概率含义,再到LDA中引入两个共轭分布从而完美引入先验,句子表征走过了漫长的黑暗时期。

一丝

网友评论

登录后评论
0/500
评论
zhangningyu1690
+ 关注