《中国人工智能学会通讯》——7.17 篇章语义分析方法概述-阿里云开发者社区

7.17 篇章语义分析方法概述

篇章语义分析主要有以下三个主流的研究方向。

以篇章结构为核心此类研究工作的目标是识别不同文本块之间的语义关系，例如条件关系、对比关系等，亦称为修辞关系识别。根据是否需要将文本分割为一系列彼此不相交的覆盖序列，可以将本类方法进一步分成两大类：第一类以修辞结构理论（RhetoricalStructure Theory）和篇章图树库（DiscourseGraphBank）为代表，要求先将文本切分为彼此不相交的语义单元，并随后分析各部分之间的语义关系及结构组成；第二类方法以宾州篇章树库理论（Penn Discourse TreeBank）为代表，不需要预先切分文本，而是直接识别篇章关系及其元素所在位置，并随后识别具体的语义关系类型。修辞结构理论 (RST，Rhetorical StructureTheory,) 最早由 Mann 和 Thompson 在 1988 年发表的论文[1]中提出。除 Mann 和 Thompson 在该方向持续发表相关工作论文之外，Marcu 在其论文中对 RST 理论进行了分析，并持续探索该方向，提出两种基于 RST 理论分析的文本处理方法[2] ：① 识别提示短语（CP，Cue Phrases），然后将整句打散成若干个子句；② 为无结构的文本建立一个有效的修辞结构树。RST 理论以文本结构为分析对象，从小单元之间的连接关系开始，逐步延伸到自然语言段落和完整的语篇。RST 在汉语中的跨语言可转移性有特殊的背景。可惜，虽然有不少对RST 的中文介绍和初步应用计划等，但实质性的发展应用很少。

目前，山西大学李茹教授的团队正在尝试进行中文 RST 树库的构建工作，所产出的资源已经具有一定规模，非常值得期待，只是尚未有公开的成果发表。因此，RST 理论现在在中文尚没有一套完整可用的系统或理论，应用难度较高。篇章图树库（Discourse GraphBank）最初由 Wolf et al [3] 提出。该理论认为，相比于树结构，篇章更适合于表示为图。在最初的文章中，他们详细讨论了图表示与树表示的差别，并构建了一个由 135 篇文档构成的篇章树库资源。他们提出，图表示允许将文章中的不同内容以更自由的形式表示出来，从而可以尽可能地获取丰富信息。

关于 Discourse GraphBank 与 RST DiscourseTreeBank 的区别可详见文献 [3]。宾州篇章树库理论（Penn DiscourseTreebank）是宾州大学的研究人员采用的一种以词汇为中心的方法[4] ，在句子级的 Penn TreeBank树库的基础上，以篇章关联词语为核心，从语义角度出发构建了篇章关系树库[5] 。该研究检测同一篇章内两个文本单元（片段、分句、复句、句群、段落等）之间的逻辑语义关联（因果关系、转折关系等），将句内的语义分析结果扩展为篇章级别的语义信息，从而成为语义分析的重要解决途径之一。根据文本单元间是否存在篇章连接词，可将篇章句间的关系分为包含关联词的显式篇章句间关系（Explicit Discourse Relation，简称显式关系） [6-7] 与不含关联词的隐式篇章句间关系（Implicit DiscourseRelation，简称隐式关系） [8-11] 。

由于隐式篇章关系缺少关联词，无法直接推测语义关系类型，需要根据上下文进行推测，因此也更加难以识别。目前采用 PDTB 标准构建的篇章语料主要面向英语[5] ，除此以外印度语 [12] 、土耳其语 [13]和阿拉伯语[14]上也有相应的研究和资源出现。在中文上，布兰迪斯大学的 Xue 教授最早尝试了中文关联词标注于分析工作[15] ，并尝试按照 PDTB 体系标注中文树库。除此以外，Huang et al [16] 也在相关工作上做了一定尝试。值得一提的是，哈尔滨工业大学社会计算与信息检索研究中心秦兵教授课题组，采用 PDTB 框架，历时数月，标注超过 20 000 个实例，构建了一份大规模的中文篇章语料库[17] ，并于2014 年对学术界免费共享。整体来说，以篇章结构为核心的篇章语义分析研究中，文本的语义信息首先被转换为文本块间的修辞结构，随后具体化为相应的语义关系类型（例如因果关系、转折关系等）。对于以修辞结构理论（RST）为代表的一类研究而言，文本块间的修辞结构应该满足一种树形结构；而对于以宾州树库理论（PDTB）和篇章图理论（DiscourseGraphBank）而言，文本块间的修辞结构则倾向于线形结构，同时允许一定的交叉和跨越关系存在。

这些研究兼有表现力和实用性，通过定义修辞结构和语义关系，这些方法可以获取一定程度的语义信息，并且采用超越了词汇级别的基本处理单元，表现力较强。缺点主要在于结构分析难度较大，无论RST 还是 PDTB 都对篇章结构做了部分假设从而降低难度，提升操作性，但也损失了语义结构的完整性。更重要的是，在语义类型识别方面，由于语义问题本身的复杂性和歧义性，导致识别难度较大；而已有的相关研究主要关注篇章内部特征的挖掘和使用，对外部语义知识的使用不足，这也在一定程度上限制了最终的识别效果。以词汇语义为核心最典型的代表为词汇链理论（Lexical ChainTheory），其由 Morris et al [18] 于 1991 提出的。“词汇链”是指一个主题下的一系列相关的词共同组成的词序列。该算法的基本假设非常直观：用于描述特定主体的多个词语，在语义层面上应该是相关的，并且围绕特定主体展开构成一条相关词汇的链条。这样聚集起来的相关词汇的链条即称为“词汇链”，作为特定语言片段内部各个主题的指示。如果能够分析获知多个词汇链在文中的分布，那么对应的文章结构也就确定了，属于一种静态的语篇连贯研究方法。

与链状的词汇链不同，中心理论（CenteringTheory）主要针对篇章结构中的焦点、指代表达式选择、话语一致性等进行研究。最初由 Grosz etal [19] 在 1995 年提出，通过跟踪句子的“中心”变化来描述篇章。“中心”指的是将当前句子与其他句子关联在一起的实体，如果一句话有了这种“中心”实体，那么它将不再是独立的句子，而是与上下文相关的语句。

如此，他们将“句子 (Sentence)”与“ 语句 (Utterance)” 区分开来，用“ 句子(Sentence)”指代一个普通的词的序列；用“语句（Utterance）”代指这种具有中心的、与上下文相关的句子。所以其认为，这些“中心”才是组成语篇结构的基础成分。篇章连贯性理论（Discourse CoherenceEvaluation）是篇章语义分析研究的另一典型代表。该研究最初始于 Grosz et al [19] 1995 年提出的“中心定理”，通过对“中心”的刻画直接反映了篇章连贯信息。近年来，篇章连贯性分析研究获得了比较快的发展，出现了一些操作性较强的方法和研究。2005 年，Barzilay et al [20] 提出了经典的基于实体的连贯性评估方法，该方法分析各个实体在多个句子中是否出现及相应句法角色，将待评估的文章转化为 Entity-grid，并利用该 Entity-grid 抽取特征训练有指导模型来进行连贯性评估。

2008 年，Elsneret al [21] 在经典的 Entity-grid 模型的基础上，对篇章实体进行了进一步细分，引入新实体的概念和实体间的共指信息，显著提升了系统性能。随后，他们进一步丰富了 Entity-grid 方法，向表格的项中添加了关于实体显著性的信息，以更加提升系统性能[22] 。在上文介绍的以词汇语义为核心的篇章语义分析研究中，文本的语义信息通过词汇间的语义关联体现。具体来说，语义相关的词汇、实体在文档中的分布情况，也可以体现篇章的行文结构以及各部分之间的语义关联，此类研究中的不同理论与方法从不同的角度对篇章信息进行了刻画。具体来说，语义词汇链理论（Lexical Cohesion）通过分析普通词汇（包括名词、形容词等）的语义信息构建主题词汇链，利用词汇之间的分布和转移方式分析篇章语义。

中心理论（Centering Theory）和连贯性分析则主要以实体为分析对象，利用实体（包括共指实体、相关实体等）的分布和重现刻画篇章信息。这一类的研究理论完善，操作性也比较强；但以词汇为分析对象，表现力比较有限，而且语义关系以关联为主，对具体的语义类型（例如因果关系、转折关系）没有进行更细致的区分。另外，此类方法通过词汇的衔接来反映篇章结构，不利于刻画复杂的篇章结构信息。以背景知识为核心此类研究工作需要借助语义词典作为背景知识，帮助分析篇章语义关系。

经过国内外专家的努力，目前已经产生一些初具规模，并具有一定实用程度的语义词典资源。在国外有以描写词汇上下位、同义、反义等聚合关系为主的WordNet [23] ，以描写语言成分之间的各种组配关系为主的 FrameNet [24] 。而国内比较知名的有知网（HowNet） [25] 、清华大学开发的以语义组合关系为主的《现代汉语动词分类词典》 [26] 、北京大学基于 WordNet 框架开发的中文概念词典（CCD，Chinese Concept Dictionary） [27] 、台湾中研院集成多资源的 SinicaBow（the Academia SinicaBilingual Ontology WordNet） [28] 、哈尔滨工业大学在同义词词林（Cilin）基础上开发的同义词词林（扩展版）等。随着 Web 2.0 的发展，用户产生内容使得互联网上的信息量爆增。以 Wikipedia（维基百科）为代表的，使用群体智慧构建的在线百科就是其中的典型代表。Wikipedia 是一种在线协作式编辑的多语言百科知识库，它以概念（concept）为单位维护一个独立的页面，其中包含对该概念的全面丰富的内容介绍（content）。

Wikipedia 具有开放式的分类，不局限于特定的层次分类。每个概念根据不同角度可以归入不同的类别，即每个概念可以属于一个或多个分类（category）。Strube et al [29] 最早提出基于 Wikipedia 的语义相关度计算方案——WikiRelate。他们使用 Wikipedia 的分类节点为代表词，计算节点之间的最短路径衡量词的相关程度，达到了与 WordNet 相当的效果。Gabrilovichet al [30] 提出了显式语义分析（ESA，ExplicitSemantic Analysis) 模型，他们首先将文本表示成高维 Wikipedia 概念向量，通过计算向量余弦相似度等得到文本之间的相关程度。这种将文本表示成概念集合的方式易于理解，且语义表示能力较强。

Witten et al [31] 在前人工作基础上，提出了WLM（theWikipedia Link-based Measure）度量方法，主要使用 Wikipedia 概念中包含的大量超链接，而非分类和概念文章内容，反映文本的语义信息。类似的方法还有文献 [32-33]。由于 Wikipedia 蕴含着丰富的语义知识，已有工作大都采用词匹配或检索方法将文本映射到Wikipedia 的概念网络，并以此作为对文本的补充。然而，由于 Wikipedia 页面中的信息过多，引入整个页面较易导致噪音问题。此外，中文维基百科的质量远不及英文，也会限制中文相关的研究工作。哈尔滨工业大学的张牧宇博士根据认知心理学中的联想主义理论将背景知识 ( 例如 Wikipedia) 表示为统一的三元组结构后，将其引入到篇章语义分析中，并将分析结果用于检测篇章语义的连贯性，以衡量联想背景知识的效果[34] 。

框架语义学（Frame Semantic）是由 Fillmoreet al [35] 在格语法基础上，进一步提出的研究词语意义和句法结构意义的语义学理论。该理论认为，词汇的语义必须跟具体的认知结构相联系，同一个词语在不同的结构中可能具有不同的语义，而这里所说的认知结构即为“框架”。框架语义学认为，词语的意义通常与人脑中预先存在的概念结构相互联系，而这些概念结构又与个体所处的具体情境有关，涉及到实体属性、社会制度、行为模式等语义框架的约束。因此，人们可以根据自己的经验刻画不同的背景框架，并进而对同一个框架下的各个词语定义具体的框架元素。该项目最早起源于美国加州大学伯克利分校于 1997 年开始的一个以框架语义学为理论基础，以真实语料为事实依据的计算机词典编撰工程，且至今仍在进行。

目前为止，FrameNetV1.5 已构建了 960 个语义框架，覆盖 11 600 个词汇，其中超过 6 800 个词汇被完全标注，已标注 15万多个例句，并仍然在不断扩充。从整体上来说，以背景知识为核心的篇章语义分析研究中，文本语义信息通过人工构建的背景知识资源体现，分析过程也围绕相应资源来展开。根据知识源的特点，分析过程和侧重点也各不相同。具体而言，语义词典（Dictionary）和在线百科（Online Encyclopedia）相对宽泛，适用于多种语义信息需求以及丰富的应用场景；框架语义学（FrameNet）以动词为核心，通过构建“语义框架”将语义知识转化为计算机词典，用词义间的关联反映语义，此方法信息丰富，对语义的刻画相对完整，便于计算机使用，所提供的语义信息可以用于各种应用，价值很高。缺点在于严重依赖于背景知识资源的覆盖率，对资源质量要求很高；而此类资源又大都专业性较强，构建过程耗时耗力，很难形成规模，难以穷尽现实场景，从而限制了实用性。基于在线百科的资源又存在噪音较大，信息不够精确等问题。

《中国人工智能学会通讯》——7.17 篇章语义分析方法概述

7.17 篇章语义分析方法概述

热门文章

最新文章

相关课程

相关电子书

相关实验场景