《大数据管理概论》一2.5 知识融合技术

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.5 知识融合技术

知识融合是将数据融合阶段获得的笼统的知识转化为可领悟知识,面向需求提供知识服务。它需要挖掘隐含知识,寻找潜在知识关联,进而实现知识的深层次理解,以便更好地解释数据。为此,我们给出知识融合的实现步骤:①对知识进行抽象和建模,为后续知识融合提供方便;②通过对表层知识的推理、理解,得出显式深度知识,如通过多路径关系推理得到间接知识;③通过推理、归纳等方法发现隐式深度知识,如类比关系等;④对知识资源、深度知识等剖析、解释、归纳出普适机理。

2.5.1 知识抽象与建模

知识抽象与建模是指根据数据的分布规律归纳出数据的结构规则进而抽象出数据之间的关联模式来表示知识的过程。知识可以以非结构化的XML、JSON、CSV形式表示,也可以直接用关系数据库形式表示。但是目前主流表示方式是RDF——<主语,谓语,宾语>——三元组,其中主语是实体,谓语是关系,宾语既可以是实体也可以是实体的属性值。知识图谱通常建模为RDF图或者嵌入表示为低维向量空间。它的难点在于数据关系多粒度并存、相互嵌套、复杂关联,面对大数据需要精简表达。
RDF图是指由RDF三元组按照关联关系链接成的图,在RDF知识图谱中,相似的实体很可能相关,相邻的节点或者有路径相连的节点很可能相似,一般采用局部相似、全局相似和准局部相似方法。局部相似性计算只依赖于直接链接的实体,不能模拟大范围的依赖关系。全局相似性考虑了所有路径上的实体,预测性能比局部性相似方法好,但计算更昂贵。准局部相似方法通过路径实体的相似度和有限长度的随机游走平衡了预测精度和计算复杂度。RDF图既不损失语义关联又能很好地表示知识,它的一个难点是需要对RDF图携带的三种信息——描述性属性、语义关系,以及两者兼顾的语义图结构进行概念描述,这一步对后续深度知识发现特别
重要。
嵌入表示将实体和关系都表示为低维向量,并且定义一个评分函数来确定元组的合理性,主要模型有双线性模型(复杂度较高,不适合Web规模的知识图谱)、多层感知模型和潜在距离模型。多层感知模型参数复杂,潜在距离模型将实体和关系表示为高斯分布或映射为超平面中的点。采用嵌入表示的目的主要是为了缓解数据稀疏,建立统一的语义表示空间,实现知识迁移,它的挑战性在于缺乏对各语言单位统一的语义表示与分析手段。嵌入表示和图特征模型互补,前者擅长通过引入新的潜在变量建模全局关系模式,并且当元组可以用少量的隐变量解释时计算效率很高;后者擅长建模局部和准局部图模式,并且当元组可以由邻居实体或与其有较短路径的实体解释时计算效率很高。

2.5.2 关系推演

关系推演可以看作显式深度知识发现,包括二元关系推理、多路径关系推理和演化关系推理。二元关系推理是指根据历史知识预测两个实体之间可能存在的关联关系,或者给定一个实体和一种关系,预测与之对应的实体。这种预测的关键在于实体和关系的表示。多路径关系推理的难点在于组合语义模型的设计和推理关系的可用性确定,与知识表示形式密切相关。关系演化建模中的关系可以是属性关系,也可以是语义关系,所以需要对关系变化进行细粒度的分析。此外,发现的深度知识对关系推演具有参考价值,所以还需要考虑深度知识发现反馈的结果。
关系推演方面目前关注的大多是直接关系和多路径关系的推理,缺乏对关系之间复杂模式的考虑,如自动通过元组<人,离不开,空气>推断出元组<鱼,离不开,水>这种类比关系。关系推演还借助于知识表示,目前有嵌入表示和RDF图两种表示。嵌入表示方法存在复杂关系表示与系统可扩展性不能兼顾的问题。采用RDF图表示时,传统的图相似性计算只是考虑到图结构的相似性,典型的如图结构的编辑距离和最小公共子图等,显然这种量度不能很好地反映语义上的相似性。有时实体间图结构的编辑距离比较大,但是它们的语义等价。所以采用RDF图表示时要重点考虑语义关系。无论采用哪种表示形式,都需要考虑推理关系的可信性,自动过滤无意义的推理关系。
此外,大数据融合是跨领域、跨语言、跨数据源的大融合,不同领域、语境和数据源之间的数据也可能是有关联的,所以,关系推理也不应该限定在单一知识库内,跨领域、跨语言、跨数据源的知识推理是大数据融合的一大趋势。并且关系推演的结果对数据融合、深度知识发现和普适机理形成至关重要,应该将推理结果扩充到知识库。这样做是具有挑战性的,首先推理结果准确性低、冗余度高,在将其加入知识库之前,通常需要进行可证明性检测和冲突检测来避免知识库中知识的矛盾和冗余。其次,这样做会导致融合的规模不断增加,所以需要合理控制融合规模,保证融合结果的可用性。

2.5.3 深度知识发现

深度知识包括高阶多元关系和隐含语义关系。深度知识发现对知识融合非常重要,尤其是隐式深度知识发现,它包含以下3种:①关系型深度知识,例如类比关系、上下位关系、因果关系、正/负相关关系、频繁/顺序共现关系和序列关系等,例如,人离不开空气与鱼离不开水这种类比关系;②数据分布型深度知识,即知识服从某些数据分布,如高斯分布、幂律分布和长尾分布等,例如,当关注数少于105时社交网络中节点的度分布服从指数为2.267的幂律分布;③性质型深度知识,即知识具有某种性质,如局部封闭世界、长城记忆和无标度等,常见的如知识图谱建模可假设满足局部封闭世界。
深度知识一般是通过领域理论,运用数学、物理等工具,进行理论建模、解析、逻辑演绎、公式推演和证明获得的,如采用统计分析和深度学习的方法。统计分析用于发现微观规律(待验证的深度知识)的推论,深度学习用于对推论建模和验证。深度学习根源于类神经网络(Artif?icial Neural Network)模型,一般步骤为设定好类神经网络架构(定义函数集),制定出学习目标(定义函数的拟合度),开始学习(选择最佳函数)。深度知识发现的难点在于有记忆力的深度学习模型的构建。此外,在实际应用中,知识库的构建者为保证知识库应用的时效性,通常仅保留部分与业务密切相关的知识,而放弃其发现的深度知识,但是发现的深度知识对关系推演具有参考价值,对数据融合具有启发作用,所以有必要将已经获得的深度知识融入知识库。

2.5.4 普适机理的剖析和归纳

目前知识融合依然缺乏对知识资源中存在关系的普适化。为此,我们首先要从理性或直觉中建立问题的模型,通过对数据呈现的现象进行概括性描述或者归纳学习得到普适模型,然后将模型与数据结合提供适当的泛化能力,如“Google大脑”可以通过深度学习无监督地辨别任何猫。另外,人的智力能透过现象看到本质,只有发现大数据所呈现出的普遍现象背后的普适原理才能对客观世界产生更大的影响。比如,网络在宏观上具有幂律分布现象,它们背后的普适原理是增长和择优机制在复杂网络中的自组织演化。所以可以将其作为知识建模、深度知识发现和关系推演的一个参考因素,从而提高融合效率。
普适机理往往是通过微观规律剖析宏观现象得到的,一般做法是首先采用统计、物理方法从大量个例中收集和组织经验事实、发现规律,剖析内在原理、归纳宏观现象,提出普适性假设;然后利用领域理论,如运用数学、物理等工具进行理论建模形成可测试推论;接着通过仿真模拟的方式验证推论、评估假设和模型,如果假设和机理不能够很好地解释实验中观测到的现象(实验中的现象也要能够与现实观测相吻合),则需要进一步修正假设和模型直到可以很好解释为止;最后提出规律并进一步接受实证数据的检验,直至得到公认为止。这样经过实证验证的普适机理就可以采用迁移学习(详见2.6.2节)的方法将普适机理用于实际中。

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
目录
打赏
0
0
0
0
1408
分享
相关文章
随着云计算和大数据技术的发展,Hyper-V在虚拟化领域的地位日益凸显
随着云计算和大数据技术的发展,Hyper-V在虚拟化领域的地位日益凸显。作为Windows Server的核心组件,Hyper-V具备卓越的技术性能,支持高可用性、动态迁移等功能,确保虚拟机稳定高效运行。它与Windows深度集成,管理便捷,支持远程管理和自动化部署,降低管理成本。内置防火墙、RBAC等安全功能,提供全方位安全保障。作为内置组件,Hyper-V无需额外购买软件,降低成本。其广泛的生态系统支持和持续增长的市场需求,使其成为企业虚拟化解决方案的首选。
实力见证!数据管理服务DMS、云原生多模数据库Lindorm荣获“2024技术卓越奖”
实力见证!数据管理服务DMS、云原生多模数据库Lindorm荣获“2024技术卓越奖”
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
113 7
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
135 2
深入探索人工智能与大数据的融合之路
本文旨在探讨人工智能(AI)与大数据技术如何相互促进,共同推动现代科技的进步。通过分析两者结合的必要性、挑战以及未来趋势,为读者提供一个全面的视角,理解这一领域内的最新发展动态及其对行业的影响。文章不仅回顾了历史背景,还展望了未来可能带来的变革,并提出了几点建议以促进更高效的技术整合。
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
探索人工智能与大数据的融合之路####
本文将深入探讨人工智能(AI)与大数据之间的共生关系,揭示二者如何相互促进,共同推动技术边界的拓展。不同于传统摘要的概述形式,本部分将以一个生动的比喻开篇:如果把大数据比作广阔无垠的数字海洋,那么人工智能就是航行其间的智能航船,两者相辅相成,缺一不可。随后,简述文章将从数据采集、处理、分析到决策应用的全流程中,详细阐述AI如何借助大数据的力量实现自我迭代与优化,以及大数据如何在AI算法的驱动下释放出前所未有的价值。最后,预告文章还将探讨当前面临的挑战与未来趋势,为读者勾勒一幅AI与大数据融合发展的宏伟蓝图。 ####
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
265 4