中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.3 KS-Studio 知识计算引擎

  1. 云栖社区>
  2. CCAI>
  3. 博客>
  4. 正文

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.3 KS-Studio 知识计算引擎

行者武松 2017-09-01 12:35:00 浏览2935
展开阅读全文

1.3 KS-Studio 知识计算引擎

2012年,中国工程院启动建设“中国工程科技知识中心(CKCEST)”项目1。该项目是我国工程科技领域重要的大数据项目,旨在打通和汇聚各类工程科技数据资源,通过技术分析处理形成知识库,并开发各种应用提供知识服务,推动国家工程科技战略思想库的建设,服务于国家的战略决策。

从数据的性质看,建设知识中心所需的知识是高度结构化的,而分散在各工程科技领域的数据资源绝大部分属于非结构化数据。如何将无序繁杂的文本、图像、视频等原始的非结构化数据加工转化为有序、可用、标准的结构化知识,是知识中心建设的核心问题。这个问题的解决,需要数据汇聚、知识加工、图谱构建、数据可视化等诸多关键技术的支撑。

2015年4月,作为中国工程科技知识中心的关键技术研发中心,浙江大学提出了KS-Studio2(Knowledge Service-Studio)知识计算引擎的研发计划,旨在综合上述关键技术,探索有效解决这一问题的途径。通过技术手段,让计算机高效地完成从非结构化数据到知识这一过程。

image

如图1所示,KS-Studio作为一种知识计算引擎,是将非结构化数据转换为结构化知识及提供创新服务的一系列API和工具的集合。KS-Studio将涵盖从大数据到知识全过程中的核心功能,在知识深度计算基础上提供知识创新服务。目前KS-Studio支持从非结构化数据中的汇聚管理,以及从中识别概念、发现新实例与新关系,以构建完善知识图谱,其中用于知识图谱构建的核心包括实体检测、实体链接、属性填充、事件抽取、图像识别、图像文本描述生成,以及跨媒体分析等一系列API与工具。在这里,我们把人类社会中所描述的具体对象或概念称为实体。KS-Studio在对人类社会常识性实体的内涵和外延分析理解基础上,构建知识图谱,从而具备知识深度计算能力,以提供知识创新服务。

具体而言,KS-Studio的核心API分为自然语言API、视觉API、跨媒体API三部分。

1. 自然语言 API

自然语言API帮助用户对文档进行分析、对知识进行加工,更加方便地理解到文档中的所涉及的实体(专有名词)、实体类别(如人名、地名、机构名、疾病名称),以及关系定位等。对于一份非结构文档,自然语言API可以通过自动标引的方式将其转化为结构化知识。自动标引服务主要由以下三个功能级联的API构成。

●提及检测API:系统可以自动检测与识别出文本中与知识库所关心实体相关的专有名词短语,并给出该短语在上下文中的类别信息。比如说,系统可以从一份医学文档中检测并识别出相关的疾病名和药物名等。

●实体链接API:通过将一段文档中识别到的实体提及链接到知识库中所对应的条目,来消除歧义,以及发现知识库中未涉及的新实体,并从文档中挖掘出实体新的描述。比如说,我们的算法从文档中检测得到"猴免疫缺陷病毒"这一关键词,并将其链接到MeSH[17]知识库中,便可在MeSH知识库中对"猴免疫缺陷病毒"这一概念实体增加下述新的描述,如"猴免疫缺陷病毒"是一种逆转录病毒,以及易感染45种非洲非人灵长类动物等。这样就可实现知识图谱的不断学习和扩充。

●关系发现API:结合“自然语言理解”和“监督式深度学习”特征提取技术,可挖掘出两个实体之间的关系。如识别出“苯巴比妥造成运动障碍”这一由药物引起病因的关系。

此外,系统还提供了人机协同知识加工与服务,可以将数据驱动的自动标引方法与专家众包机制有效结合起来,让专家对算法发现的知识进行补充、纠错,提升机器学习的效能。

自然语言API可以很好地扩展已有知识库,打通不同知识库之间联系。目前KS-Studio的实体链接API,已可将检测出来的实体链接到MeSH[17](医学主题词表)、ChEBI[18](生物化学实体本体)和Wikipedia(维基百科)三个知识库中,以丰富对所检测实体的深度理解。

2. 视觉 API

视觉对象识别是图像语义理解的基础。KS-Studio的视觉API目前支持对图像语义内容的概念识别,如输入一张图片,自动识别图像中出现的主要实体对象,给出相应的文本标签与确信度。

KS-Studio目前的视觉API可完成部分工程科技领域图像内容的识别,帮助用户进行更有效的资源管理与基于内容的图像分类。除此之外还可用于某些特定的应用领域,例如在海关等检验检疫部门,可对现场拍摄的动植物照片进行分析,快速准确地判断出生物的种类并获取相关知识,帮助相关部门合理处置这类生物,从而避免外来生物入侵事件的发生。

3. 跨媒体 API

KS-Studio整合跨媒体计算的技术,目前已提供了图文描述生成API服务,即在给定一图像后,算法自动生成对该图像的文本描述。跨媒体处理工具能够识别给定图像中的物体及其相互关联,其输出为能够描述图像的一些语句,进而实现从视觉图像到自然语言的跨媒体无缝转换。

在2016年由美国国家标准技术研究所(NIST)主办的国际知识库构建大赛3(TAC Knowledge Base Population)中,浙江大学的KS-Studio从来自CMU、UIUC、IBM等国内外知名高校与研究机构的15支参赛队伍中脱颖而出,获得了英文实体识别与链接比赛综合排名第一(8个指标,6个第一,2个第二)的成绩。

目前KS-Studio已经实现了基于通用的Wikipedia与Freebase的知识自动标引工具,支持通用知识图谱6大类实体的识别,以及30多类属性自动填充,可对新闻文本进行8类事件的检测发现与关联识别。针对医学领域,实现了针对医学主题词表MESH与生物化学知识库ChEBI的实体链接与知识标引工具,支持疾病名称、症状、药物分子式等多种类型的实体识别与链接,以及药物导致的副作用、疾病与症状这两类关系的自动发现。

网友评论

登录后评论
0/500
评论
行者武松
+ 关注
所属团队号: CCAI