《中国人工智能学会通讯》——6.9 从语义网到知识图谱

  1. 云栖社区>
  2. CCAI>
  3. 博客>
  4. 正文

《中国人工智能学会通讯》——6.9 从语义网到知识图谱

知与谁同 2017-09-04 17:29:00 浏览1062
展开阅读全文

6.9 从语义网到知识图谱

计算机的研究者一直梦想构建一个高度互联的信息库,来记录和承载人类的思想、记忆与知识[1-2] 。早在 1945 年,美国人 Vannevar Bush 提出了一个称为 Memex 的“记忆机器”(CollectiveMemory Machine) [3] ,目的是让人们更加容易记录和访问知识。Bush 认为人脑记忆偏重“关联”和“连接”,而不是基于“索引”或“层次化”。Memex 模拟了人脑记忆的这种特点,并启发了超 文 本(Hypertext) [4] 和 万 维 网(World WideWeb)的发明。

超文本通过建立文本之间的电子链接,增强文本数据之间的互联[5] 。1989 年,万维网之父Tim Berners-Lee 提出构建一个分布式超文本系统,并把它命名为 Web [6] 。在这份建议书里,他提出要构建一个基于“链接”的信息系统(LinkedInformation System)。这个系统以“链接”为中心,并能在开放的互联网环境里面逐步演化、生长和扩大链接的范围。他认为这种基于图和链接的组织方式,比起基于树的层次化组织方式,更加适合于互联网这种复杂开放的系统。这一思想逐步被人们实现,并演化发展成为今天的万维网。

1994 年,Tim Berners-Lee 又提出,Web 不应该仅仅只是网页之间的互相链接。实际上,网页上所描述的是现实世界中的个体对象和人脑中的概念,网页之间的链接实际包含有语义,即这些个体对象或概念之间的关系,然而机器却无法有效地从网页中识别出其中蕴含的语义。如果人们在发布这些信息时,就建立对这些个体对象和关系的语义描述,再加上互联网的开放网络扩张效应(NetworkEffect),就能涌现出一个全球互联的“数据互联网”。

他于 1998 年提出了语义网(Semantic Web)的概念[7-8] 。语义网仍然基于图和链接的组织方式,只是图中(见图 1)的节点代表的不是网页,而是个体对象(如人、机构、地点等);而超链接也被增加了类型描述,具体标明对象之间的语义关系(如出生地是、创办人是等)。相对于传统的网页互联网,语义网的本质是(结构化)数据的互联网。Tim Berners-Lee 希望人们都能用尽可能标准和规范的方式发布自己的数据,并像建立超文本链接一样建立数据之间的链接,从而构建一个庞大、分布互联的全球数据库。这种结构化的链接数据将使得Web 上的信息更加易于被机器所理解和处理,而不仅仅像网页那样只是供人浏览。
image

但 语 义 网 的 实 现 并 不 容 易 和 顺 利。TimBerners-Lee 领导的 W3C 用了近十年时间建立语义网的技术标准,这包括基础数据模型 (RDF)、语义查询语言 (SPARQL)、本体描述语言 (OWL)、规则语言 (RIF)、数据发布语言 (RDFa) 等。尽管这些技术标准在生物、医疗、数字出版等很多领域都得到应用[9-10] ,但离语义网最初的理想仍然相差较远。

Freebase 是早期的语义网公司 MetaWeb 于2007 年推出的结构化数据集。Freebase 的数据一部分来源于维基百科等公开数据源,另外一部分来源于社区个人的汇交。谷歌于 2010 年收购了Freebase,并以之为数据基础之一,推出了其基于知识图谱的搜索服务[11] 。

谷歌主要利用知识图谱来优化其搜索体验和支持智能问答。谷歌知识图谱的基本理念与语义网一致,本质是由类型化实体(Typed Entities)互联构成的结构化数据库。谷歌支持各网站定制知识图谱内容[12] ,允许各网站以 RDFa [13] 、JSON-LD [14] 、HTML Microdata [15] 等方式在网页中嵌入语义化数据。谷歌自动搜集这些语义数据,并归并到后端的知识图谱中。

这种方式把搜索内容结构化和语义化,从而实现面向事物和对象的搜索,即语义搜索[16] 。本文概要介绍了利用语义技术构建数据链接的主要实践、关键技术及典型应用;尝试从语义与链接数据的视角,阐述知识图谱的内涵和未来发展趋势。

网友评论

登录后评论
0/500
评论
知与谁同
+ 关注
所属团队号: CCAI