《中国人工智能学会通讯》——6.10 链接数据实践

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.10节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

6.10 链接数据实践

从语义网的理想被提出起,人们就不断尝试各种建立数据之间链接的技术和方法。比较典型的如LOD(Linked Open Data Project) [17] 、Schema.org [18] 、WikiData [19] 等。

LOD
LOD 的初衷是为了实现 Tim Berners-Lee 在2006 年发表的有关链接数据(Linked Data)作为语义网的一种实现的设想[20] 。LOD 遵循了 Tim 提出的进行数据链接的四个规则,即:
(1)使用 URI 标识万物;
(2)使用 HTTP URI,以便用户可以(像访问网页一样)查看事物的描述;
(3)使用 RDF 和 SPARQL 标准;
(4)为事物添加与其他事物的 URI 链接,建立数据关联。

截止 2014 年的统计数据,LOD 已经包含了1 014 个数据集[17] 。其中社交媒体、政府、出版和生命科学四个领域的数据占比超过 90%。56% 的数据集对外至少与一个数据集建立了链接。被链接最多的是 dbpedia 的数据。比较常用的链接类型 包 括 foaf:knows、sioc:follows、owl:sameAs、rdfs:seeAlso、dct:spatial、skos:exactMatch 等。LOD 鼓励各个数据集使用公共的开放词汇和术语,但也允许使用各自的私有词汇和术语。在使用的术语中,有 41% 是公共的开放术语。

Schema.org
Schema.org 有 更 为 清 晰 的 商 业 模 式。Schema.org 是 2011 年 由 Bing、Google、Yahoo和 Yandex 等搜索引擎公司共同创建。与 LOD 不同,Schema.org 要求使用一组简单但统一的词汇集。链接数据以语义标签(Semantic Markup)的形式被嵌入到网页或电子邮件中。语义标签能帮助搜索引擎更加自动地抽取和归集语义化数据,帮助搜索引擎理解网页内容,并优化搜索结果。

Schema.org 由一套类集合和一套关系集合组成。目前,类集合已包含 642 个类型,并有类似于本体概念那样的继承结构。关系集合包含 992 个关系属性。词汇表覆盖范围包括个人、组织机构、地点、时间、医疗、商品等。

谷歌于 2015 年推出的定制化知识图谱[12]采用了 Schema.org 的做法,允许个人和企业在其网页中增加包括 Logo、企业联系方法和个人社交信息等在内的语义标签。 截止 2016 年,谷歌的一份统计数据显示,超过 31% 的网页和 1 200 万的网站已经使用了 Schema.org 的语义标签发布语义化的链接数据[19] 。其他采用了部分 Schema.org 功能的还包括微软Cortana、Yandex、Pinterest、苹果的Siri等[18] 。

Wikidata
WikiData 由维基百科于 2012 年启动。早期得到微软联合创始人 Paul Allen、Gordon BettyMoore 基金会以及 Google 的资助。WikiData 的目标是构建一个免费开放、任何人或机器都可以编辑修改的链接数据库[19] 。与 LOD 和 Schema.org 都不相同,WikiData 采用集中存储、众包协作的方式构建链接数据。

WikiData 由条目组成,仍然以三元组为最基本的数据模型。任何人或机器可以为条目增加属性描述。截止目前,WikiData 已经包含超过 1 750 多万个条目。谷歌于 2016 年 5 月正式关闭了 Freebase的服务,并将 Freebase 原有的数据和服务迁移至WikiData。

相关文章
|
3月前
|
人工智能 自然语言处理 语音技术
人工智能语音数据的多样性
人工智能语音数据的多样性
25 2
|
3月前
|
人工智能 算法 语音技术
人工智能语音数据
人工智能语音数据
57 5
|
3月前
|
机器学习/深度学习 传感器 人工智能
人工智能图像数据
人工智能图像数据
39 3
|
4月前
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
62 0
|
3月前
|
传感器 人工智能 自然语言处理
人工智能数据
人工智能数据
37 1
|
14天前
|
机器学习/深度学习 数据采集 人工智能
|
19天前
|
人工智能 分布式计算 Kubernetes
人工智能,应该如何测试?(三)数据构造与性能测试篇
本文探讨了人工智能场景中的性能测试,区别于传统互联网测试,其复杂性更高。主要关注点包括两类AI产品——业务类和平台类,后者涉及AI全生命周期,测试难度更大。测试重点是模型训练的性能,特别是数据模拟。需要构造大量结构化数据,如不同规模、分布、分片和特征规模的数据,以评估算法效率。此外,还涉及模拟设备规模(如视频流)和节点规模(边缘计算),以测试在大规模负载下的系统性能。文中提到了使用工具如Spark、ffmpeg、流媒体服务器和Kubernetes(K8S)的扩展项目,如Kubemark,来模拟大规模环境。最后,文章介绍了使用Golang进行异步IO操作以构建海量小文件,优化IO性能。
42 0
|
1月前
|
数据采集 机器学习/深度学习 人工智能
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
65 1
|
1月前
|
人工智能 算法 开发工具
预测五大数据和人工智能趋势
预测五大数据和人工智能趋势
|
3月前
|
机器学习/深度学习 人工智能 计算机视觉