中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.3 KS-Studio 知识计算引擎

简介:

1.3 KS-Studio 知识计算引擎

2012年,中国工程院启动建设“中国工程科技知识中心(CKCEST)”项目1。该项目是我国工程科技领域重要的大数据项目,旨在打通和汇聚各类工程科技数据资源,通过技术分析处理形成知识库,并开发各种应用提供知识服务,推动国家工程科技战略思想库的建设,服务于国家的战略决策。

从数据的性质看,建设知识中心所需的知识是高度结构化的,而分散在各工程科技领域的数据资源绝大部分属于非结构化数据。如何将无序繁杂的文本、图像、视频等原始的非结构化数据加工转化为有序、可用、标准的结构化知识,是知识中心建设的核心问题。这个问题的解决,需要数据汇聚、知识加工、图谱构建、数据可视化等诸多关键技术的支撑。

2015年4月,作为中国工程科技知识中心的关键技术研发中心,浙江大学提出了KS-Studio2(Knowledge Service-Studio)知识计算引擎的研发计划,旨在综合上述关键技术,探索有效解决这一问题的途径。通过技术手段,让计算机高效地完成从非结构化数据到知识这一过程。

image

如图1所示,KS-Studio作为一种知识计算引擎,是将非结构化数据转换为结构化知识及提供创新服务的一系列API和工具的集合。KS-Studio将涵盖从大数据到知识全过程中的核心功能,在知识深度计算基础上提供知识创新服务。目前KS-Studio支持从非结构化数据中的汇聚管理,以及从中识别概念、发现新实例与新关系,以构建完善知识图谱,其中用于知识图谱构建的核心包括实体检测、实体链接、属性填充、事件抽取、图像识别、图像文本描述生成,以及跨媒体分析等一系列API与工具。在这里,我们把人类社会中所描述的具体对象或概念称为实体。KS-Studio在对人类社会常识性实体的内涵和外延分析理解基础上,构建知识图谱,从而具备知识深度计算能力,以提供知识创新服务。

具体而言,KS-Studio的核心API分为自然语言API、视觉API、跨媒体API三部分。

1. 自然语言 API

自然语言API帮助用户对文档进行分析、对知识进行加工,更加方便地理解到文档中的所涉及的实体(专有名词)、实体类别(如人名、地名、机构名、疾病名称),以及关系定位等。对于一份非结构文档,自然语言API可以通过自动标引的方式将其转化为结构化知识。自动标引服务主要由以下三个功能级联的API构成。

●提及检测API:系统可以自动检测与识别出文本中与知识库所关心实体相关的专有名词短语,并给出该短语在上下文中的类别信息。比如说,系统可以从一份医学文档中检测并识别出相关的疾病名和药物名等。

●实体链接API:通过将一段文档中识别到的实体提及链接到知识库中所对应的条目,来消除歧义,以及发现知识库中未涉及的新实体,并从文档中挖掘出实体新的描述。比如说,我们的算法从文档中检测得到"猴免疫缺陷病毒"这一关键词,并将其链接到MeSH[17]知识库中,便可在MeSH知识库中对"猴免疫缺陷病毒"这一概念实体增加下述新的描述,如"猴免疫缺陷病毒"是一种逆转录病毒,以及易感染45种非洲非人灵长类动物等。这样就可实现知识图谱的不断学习和扩充。

●关系发现API:结合“自然语言理解”和“监督式深度学习”特征提取技术,可挖掘出两个实体之间的关系。如识别出“苯巴比妥造成运动障碍”这一由药物引起病因的关系。

此外,系统还提供了人机协同知识加工与服务,可以将数据驱动的自动标引方法与专家众包机制有效结合起来,让专家对算法发现的知识进行补充、纠错,提升机器学习的效能。

自然语言API可以很好地扩展已有知识库,打通不同知识库之间联系。目前KS-Studio的实体链接API,已可将检测出来的实体链接到MeSH[17](医学主题词表)、ChEBI[18](生物化学实体本体)和Wikipedia(维基百科)三个知识库中,以丰富对所检测实体的深度理解。

2. 视觉 API

视觉对象识别是图像语义理解的基础。KS-Studio的视觉API目前支持对图像语义内容的概念识别,如输入一张图片,自动识别图像中出现的主要实体对象,给出相应的文本标签与确信度。

KS-Studio目前的视觉API可完成部分工程科技领域图像内容的识别,帮助用户进行更有效的资源管理与基于内容的图像分类。除此之外还可用于某些特定的应用领域,例如在海关等检验检疫部门,可对现场拍摄的动植物照片进行分析,快速准确地判断出生物的种类并获取相关知识,帮助相关部门合理处置这类生物,从而避免外来生物入侵事件的发生。

3. 跨媒体 API

KS-Studio整合跨媒体计算的技术,目前已提供了图文描述生成API服务,即在给定一图像后,算法自动生成对该图像的文本描述。跨媒体处理工具能够识别给定图像中的物体及其相互关联,其输出为能够描述图像的一些语句,进而实现从视觉图像到自然语言的跨媒体无缝转换。

在2016年由美国国家标准技术研究所(NIST)主办的国际知识库构建大赛3(TAC Knowledge Base Population)中,浙江大学的KS-Studio从来自CMU、UIUC、IBM等国内外知名高校与研究机构的15支参赛队伍中脱颖而出,获得了英文实体识别与链接比赛综合排名第一(8个指标,6个第一,2个第二)的成绩。

目前KS-Studio已经实现了基于通用的Wikipedia与Freebase的知识自动标引工具,支持通用知识图谱6大类实体的识别,以及30多类属性自动填充,可对新闻文本进行8类事件的检测发现与关联识别。针对医学领域,实现了针对医学主题词表MESH与生物化学知识库ChEBI的实体链接与知识标引工具,支持疾病名称、症状、药物分子式等多种类型的实体识别与链接,以及药物导致的副作用、疾病与症状这两类关系的自动发现。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
462 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1539 0
与世界同行 2017中国人工智能大会有感
|
人工智能 自动驾驶
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
|
人工智能 芯片
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句
|
机器学习/深度学习 人工智能 自然语言处理
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
1563 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
|
数据采集 人工智能 智能设计
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
630 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
|
机器学习/深度学习 人工智能 监控
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
506 0
中国95后流行色是什么?人工智能给出的答案是它
|
机器学习/深度学习 人工智能 自然语言处理
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
430 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
|
机器学习/深度学习 人工智能 自然语言处理
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国