《中国人工智能学会通讯》——6.10 链接数据实践-阿里云开发者社区

《中国人工智能学会通讯》——6.10 链接数据实践

2017-09-04 1398

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章，第6.10节，更多章节内容可以访问云栖社区“CCAI”公众号查看。

6.10 链接数据实践

从语义网的理想被提出起，人们就不断尝试各种建立数据之间链接的技术和方法。比较典型的如LOD（Linked Open Data Project） [17] 、Schema.org [18] 、WikiData [19] 等。

LOD
LOD 的初衷是为了实现 Tim Berners-Lee 在2006 年发表的有关链接数据（Linked Data）作为语义网的一种实现的设想[20] 。LOD 遵循了 Tim 提出的进行数据链接的四个规则，即：
（1）使用 URI 标识万物；
（2）使用 HTTP URI，以便用户可以（像访问网页一样）查看事物的描述；
（3）使用 RDF 和 SPARQL 标准；
（4）为事物添加与其他事物的 URI 链接，建立数据关联。

截止 2014 年的统计数据，LOD 已经包含了1 014 个数据集[17] 。其中社交媒体、政府、出版和生命科学四个领域的数据占比超过 90%。56% 的数据集对外至少与一个数据集建立了链接。被链接最多的是 dbpedia 的数据。比较常用的链接类型包括 foaf:knows、sioc:follows、owl:sameAs、rdfs:seeAlso、dct:spatial、skos:exactMatch 等。LOD 鼓励各个数据集使用公共的开放词汇和术语，但也允许使用各自的私有词汇和术语。在使用的术语中，有 41% 是公共的开放术语。

Schema.org
Schema.org 有更为清晰的商业模式。Schema.org 是 2011 年由 Bing、Google、Yahoo和 Yandex 等搜索引擎公司共同创建。与 LOD 不同，Schema.org 要求使用一组简单但统一的词汇集。链接数据以语义标签（Semantic Markup）的形式被嵌入到网页或电子邮件中。语义标签能帮助搜索引擎更加自动地抽取和归集语义化数据，帮助搜索引擎理解网页内容，并优化搜索结果。

Schema.org 由一套类集合和一套关系集合组成。目前，类集合已包含 642 个类型，并有类似于本体概念那样的继承结构。关系集合包含 992 个关系属性。词汇表覆盖范围包括个人、组织机构、地点、时间、医疗、商品等。

谷歌于 2015 年推出的定制化知识图谱[12]采用了 Schema.org 的做法，允许个人和企业在其网页中增加包括 Logo、企业联系方法和个人社交信息等在内的语义标签。截止 2016 年，谷歌的一份统计数据显示，超过 31% 的网页和 1 200 万的网站已经使用了 Schema.org 的语义标签发布语义化的链接数据[19] 。其他采用了部分 Schema.org 功能的还包括微软Cortana、Yandex、Pinterest、苹果的Siri等[18] 。

Wikidata
WikiData 由维基百科于 2012 年启动。早期得到微软联合创始人 Paul Allen、Gordon BettyMoore 基金会以及 Google 的资助。WikiData 的目标是构建一个免费开放、任何人或机器都可以编辑修改的链接数据库[19] 。与 LOD 和 Schema.org 都不相同，WikiData 采用集中存储、众包协作的方式构建链接数据。

WikiData 由条目组成，仍然以三元组为最基本的数据模型。任何人或机器可以为条目增加属性描述。截止目前，WikiData 已经包含超过 1 750 多万个条目。谷歌于 2016 年 5 月正式关闭了 Freebase的服务，并将 Freebase 原有的数据和服务迁移至WikiData。

《中国人工智能学会通讯》——6.10 链接数据实践

6.10 链接数据实践

热门文章

最新文章

相关课程

相关电子书

相关实验场景