《中国人工智能学会通讯》——12.51 现有知识图谱资源

  1. 云栖社区>
  2. CCAI>
  3. 博客>
  4. 正文

《中国人工智能学会通讯》——12.51 现有知识图谱资源

知与谁同 2017-09-04 10:40:00 浏览1433
展开阅读全文

12.51 现有知识图谱资源

知识图谱经历了由人工和群体智慧构建,到面向互联网利用机器学习和信息抽取技术自动获取的过程。根据信息来源和获取方式的不同,目前的知识图谱分为以下几类。

依靠人工构建的知识资源
早期知识资源建立是通过人工添加和群体智能合作编辑得到,如英文 Wordnet [1] 和 Cyc 项目[2] ,以及中文的Hownet。Cyc 是一个通用的世界知识库,始建于 1984 年,其目的是将上百万条知识编码为机器可处理形式,并在此基础上实现知识推理等人工智能相关任务。Cyc 包含了 50 万实体,接近 3 万个关系以及 5 百万事实。

基于群体智能的知识图谱
维基百科是至今利用群体智能建立的互联网上最大的知识资源,因此出现了很多使用维基百科构建知识库的项目,如 DBpedia [3-4] 、YAGO [5-6] 和Freebase [7] 等。DBpedia 以构建本体的形式对知识条目进行组织。YAGO 融合 WordNet 良好的概念层次结构和维基百科中的大量实体数据。Freebase 是基于维基百科,使用群体智能方法建立的包含 6800万实体的结构化数据的知识图谱。清华大学和上海交通大学通过利用互动百科、百度百科,建立大规模知识图谱 XLORE [8] 和 Zhishi.me [9] 。XLORE 以英文维基百科为桥梁,通过跨语言链接技术,建立融合了四大中英文百科数据的跨语言知识库。

基于互联网上链接数据构建的知识资源
国际万维网组织 W3C 于 2007 年发起的开放互联数据项目(Linked Open Data, LOD),为实现网络环境下的知识发布、互联、共享和服务提供了创新技术,为智能搜索、知识问答和语义集成提供了创新源动力。Sean Bechhofer [10] 等人在科学领域自建了一个近似于 Linked Data 的语义数据资源,该资源包含更准确的学术用语,并能很好地反映研究者的影响力。基于机器学习和信息抽取构建的知识图谱从互联网数据自动获取知识是建立可持续发展知识图谱的发展趋势。这类知识图谱构建的特点是面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取 Web 上的信息构建知识库。如华盛顿大学图灵中心的 KnowItAll [11] 和TextRunner [12] 项目、卡内基梅隆大学的“永不停歇的语言学习者”(Never-Ending Language Learner,NELL) 项目[13]都是这种类型的知识库。

网友评论

登录后评论
0/500
评论
知与谁同
+ 关注
所属团队号: CCAI