中国人工智能学会通讯——互联网搜索技术的前沿探索 2 文本内容建模

简介:

2 文本内容建模

对网络文本内容的建模,重点需要解决文本数据内在复杂关联的语义特征,以及网络文本特征稀疏和语义稀疏并存的难题。针对这些挑战,我们研究了单词、话题和篇章的语义表达方法,提出了一系列多关系约束的文本语义表征模型[6-8],通过引入稀疏性、显著性等多种约束目标,提升不同层次文本语义表达的质量。代表性成果如下所述。

2.1 联合关系建模的单词表示学习

单词表示是文本建模的基础问题。分布式表达将单词表示为低维连续实数向量,可以很好地捕捉单词间的语义规则性。单词表达学习算法大体都基于同一个假设——分布式假设,即单词的语义由其周围的上下文决定。实际上,单词之间存在着横向(syntagmatic)和纵向(paradigmatic)两种关系(如图2所示)。其中,横向关系主要关注的是词与词之间的共现关系;而纵向关系则关注的是词与词之间的替代关系。现有模型通常只考虑一种关系,如隐式语义索引(latent semantic indexing,LSI)建模了横向关系,而Word2Vec建模了纵向关系。我们提出了两种新的单词表达学习模型[6],以并列(PDC模型)或层次(HDC模型)的方式同时建模两种共现关系,以得到更好的单词表达。我们发现,这两个模型在单词类比、单词相似度等任务中都取得了最好的(state-of-the-art)结果。

image

2.2 建模稀疏特性的话题模型

对网络文本的话题建模,有助于提取其中重要的语义信息用于信息检索和内容分析。但是,传统的话题模型(如Latent Dirichlet Allocation)在面对网络文本,特别是大量的短文本数据(如微博、微信等)时,面临着特征稀疏和语义稀疏的双重挑战。特征稀疏是指文本数据非常简短,导致用于建模话题的词共现信息非常少;而语义稀疏是指虽然整个文本数据集包含的话题数量庞大,但是单个文本包含的话题数量极少。传统模型在这两种情况下难以学得有效的话题表达。针对特征稀疏的问题,我们提出了双词话题模型[7](如图3所示),它通过直接建模词语共现模式,以及利用文档集全局信息来解决单个短文本特征稀疏的难题,该模型在主题内聚性、分类准确率和内存开销上均显著优于传统话题模型;针对语义稀疏的问题,我们提出了基于成组约束的编码模型[8](如图4所示),它通过直接对词进行稀疏编码,利用成组lasso约束有效控制学习得到的主题模型的稀疏性,在获得具有显著语义话题的同时,大幅提高了模型的学习效率和存储效率。

image

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与文本生成:基于Transformer的文本生成模型
人工智能与文本生成:基于Transformer的文本生成模型
115 0
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
43 0
|
26天前
|
机器学习/深度学习 人工智能 运维
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(二)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
59 1
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(一)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
66 1
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)(一)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)
49 0
|
30天前
|
机器学习/深度学习 人工智能 资源调度
未来人工智能技术的发展趋势与应用前景
随着人工智能技术的快速发展,未来在各个领域都将有更广泛的应用。本文探讨了人工智能技术的发展趋势以及在前端、后端开发等领域的应用前景,展望了未来人工智能将如何改变我们的生活和工作方式。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
未来智能时代:人工智能技术的新趋势与挑战
在当今数字化快速发展的时代,人工智能技术正逐渐渗透到我们生活的方方面面。本文将探讨人工智能技术的新趋势和挑战,分析其对未来社会和产业的影响。
23 0
|
12天前
|
人工智能 自然语言处理 机器人
|
12天前
|
机器学习/深度学习 数据采集 人工智能
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能技术与创新发展
在当今快速发展的科技时代,人工智能技术已成为推动创新发展的关键驱动力之一。本文将探讨人工智能技术在创新领域的应用,并就其对社会、经济和人类生活的影响展开讨论。

热门文章

最新文章