HIN2Vec:异质信息网络中的表示学习 | PaperDaily #18

简介:

不同于之前很多基于 Skip-gram 语言模型的工作,HIN2Vec 的核心是一个神经网络模型,不仅能够学习网络中节点的表示,同时还学到了关系(元路径)的表示

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:陆元福,北京邮电大学计算机系硕士生,研究方向为异质信息网络的表示学习。

■ 论文 | HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning

■ 链接 | https://www.paperweekly.site/papers/1182

■ 作者 | YFLu

HIN2Vec 是一篇关于异质信息网络中的表示学习的论文,发表在刚刚结束的 2017CIKM 会议上。这篇论文和我最近的工作有一些相似之处,一些想法甚至有些相同,同样有很多地方值得借鉴。

论文提出了一种针对异质信息网络的表示学习框架 HIN2Vec,不同于之前很多基于 Skip-gram 语言模型的工作,HIN2Vec 的核心是一个神经网络模型,不仅能够学习网络中节点的表示,同时还学到了关系(元路径)的表示

同时论文还对异质信息网络中表示学习的一些问题做了研究实验,例如:元路径向量的正则化、负采样过程中节点的选择以及随机游走中的循环序列问题。Introduction

论文首先指出了现有模型存在的一些问题,之前的很多工作仅仅局限于同质信息网络,而且往往只考虑节点之间的整合的信息或者限制类型的关系。虽然 ESim 模型考虑了节点间的不同关系,但是该模型过于依赖人为定义的元路径以及每条元路径人为设置的权重。

基于现有模型存在的问题,论文提出了 HIN2Vec 模型,通过研究节点之间不同类型的关系和网络结构,学习异质信息网络中丰富的信息。由于不同的元路径可能有不同的语义信息,所以作者认为对嵌入在元路径和整个网络结构中的丰富信息进行编码,有助于学习更有意义的表示

和之前的一些模型相比,HIN2Vec 模型保留了更多的上下文信息,不仅假设存在关系的两个节点是相关的,而且还区分节点之间的不同关系,并通过共同学习关系向量区别对待。

论文的主要贡献:

  • 证明了节点间不同类型的关系能够更好的捕获更多嵌入在网络结构中的细节信息,因此通过捕获节点间各种不同类型的关系,有助于网络的表示学习。
  • 提出了 HIN2Vec 模型,包括两部分:首先,基于随机游走和负采样生成训练数据,然后,设计逻辑二元分类器用于预测两个给定的节点是否存在特定的关系。同时,考虑了循环序列、负采样和正则化问题。
  • 实验很充分,包括多标签分类和链路预测,同时实验研究了循环序列、负采样以及正则化对实验分类结果的影响。
HIN2Vec

Framework

HIN2Vec 模型分为两部分:基于随机游走的数据生成部分和表示学习部分。数据生成部分,基于随机游走和负采样生成符合目标关系的数据,以用于表示学习。表示学习部分是一个神经网络模型,通过最大化预测节点之间关系的可能性,同时学习节点和关系的表示向量,模型的整体框架可以见下图。

7f3fd57558192871f59935061792f38f7a5ec8ae

值得注意的是,HIN2Vec 模型同时学习了节点和关系(元路径)的表示向量,这种多任务学习(multi-task learning)方法能够把不同关系的丰富信息和整体网络结构联合嵌入到节点向量中。

Representation Learning

HIN2Vec 模型的基本想法是对于多个预测任务,每个任务对应于一条元路径,联合学习一个模型,学到每个节点的向量表示,所以一个简单的想法就是构建一个神经网络模型,预测任意给定节点对之间的一组目标关系

论文最初的想法是一个多分类模型,即给定两个节点和一个目标关系集合,通过下图 2 的神经网络模型训练预测概率值 P(ri|x,y),(i=1…|R|),但是对于这样的一个模型的训练数据的获取是非常复杂的,因为对于一个复杂网络而言,获取网络中两个节点的所有关系是很困难的

f9a10460c03d9b3cc75dfbfd25a47c3ad5cfbf70

所以论文退而求其次,将问题简化成二分类问题,即给定两个节点 x,y,预测节点间是否存在确定的关系 r,这样就避免了遍历网络中的所有关系,图 3 所示就是 HIN2Vec 的神经网络模型。

a5011a39624463cd462c20609f81e9f56fcb7dec


模型的输入层是三个 one-hot 编码的向量?tp=webp&wxfrom=5&wx_lazy=1,经过隐层层转换到隐含向量?tp=webp&wxfrom=5&wx_lazy=1,值得注意的是,因为关系和节点的语义含义是不同的,所以论文对关系向量 r 做了正则化处理,这种处理方式限制了关系向量的值在 0 到 1 之间。

然后,模型对三个隐含向量运用一个 Hadamard 函数(例如,对应元素相乘),对乘积再运用一个线性激活函数,最后输出层对成绩求和后的值进行一个 sigmoid 非线性转换。

模型的训练数据集是以四元组的形式给出的,形如 $,其中,其中 L(x,y,r) 指示指示 x,y 之间是否存在关系之间是否存在关系 r。具体的:

e305e1a204b5326c072a0f97aeefd943ebd5cd76

Traning Data Preparation

论文采用随机游走的方式生成节点序列,但是需要注意的是,不同于 metapath2vec[1] 按照给定元路径模式游走的方式,HIN2Vec 模型完全随机选择游走节点,只要节点有连接均可游走

例如,随机游走得到序列 P1,P2,A1,P3,A1,那么对于节点 P1,可以产生训练数据 $和$。

在论文中,作者讨论了随机游走过程中可能出现的循环的情况,提出通过检查重复节点的方式消除循环,并在实验部分分析了是否消环对实验结果的影响,但是个人认为这个地方的原理性介绍比较欠缺,对于消除循环的具体做法没有给出很详细的说明解释,循环的检测是根据前面已生成的所有节点还是部分节点,也没有给出说明。

论文还讨论了训练数据集中负样本的选择,论文也是采用 word2vec 中的负采样的方法产生负样本。对于一个正样本 $,通过随机替换,通过随机替换 x,y,r 中的任意一个,生成负样本中的任意一个,生成负样本,其中,其中 x’’ 和 y’’ 之间不一定有确定的关系之间不一定有确定的关系 r’’$。

但是,由于网络中的关系数量是很少的,节点的数量远远大于关系的数量,这样就很容易产生错误的负样本(其实是可能正样本),所以论文采用只随机替换 x 或 y 中的一个,而保持 r 是不变的,同时保持 x 或 y 的类型不变

Summary

总体来说,论文的想法还是很新颖的,把节点和节点间的关系作为一种二分类问题考虑,给定两个节点 x,y,通过预测节点之间是否存在确定的关系 r,同时学习到了节点和关系的向量表示。

此外,论文考虑到了节点和关系的语义是不同的,因此它们的表示空间也应该不通,所以论文对关系向量运用了一个正则函数。对于随机游走过程中可能会出现循环节点的问题,论文也给出了实验分析,同时阐述了负采样时候节点及节点类型的选择。

个人认为,论文的不足之处在于随机游走过程中如何消除循环,没有给出较为详细的说明。此外,对于学习到的关系的表示如何应用到实际的数据挖掘任务中,论文也没有给出实验分析。

Reference

[1] Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.


原文发布时间为:2017-11-24

本文作者:陆元福

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
10天前
|
SQL 监控 安全
构筑数字堡垒:网络安全与信息保护的深层剖析
【4月更文挑战第9天】在数字化时代,网络安全和信息安全已成为维护个人隐私、企业数据和国家安全不可或缺的一环。本文深入探讨了网络安全漏洞的形成机理、加密技术的进展,以及提升安全意识的重要性。通过对现有安全挑战的分析,提出了一系列创新的防御策略,并强调了构建一个全面的信息保护体系的必要性。
|
18天前
|
存储 安全 网络安全
云端防御战线:云计算环境下的网络安全与信息保护
在信息技术迅猛发展的今天,云计算作为支撑数字转型的重要基石,其安全性牵动着企业生存与发展的命脉。本文深入探讨了云计算环境中面临的安全威胁和挑战,并提出了一系列创新的安全策略和技术解决方案。通过综合分析公有云、私有云以及混合云服务模型中的安全需求,文章构建了一个多层次、全方位的网络安全防护体系。此外,针对数据加密、身份验证、访问控制等关键技术进行了深入剖析,旨在为读者提供一套系统的信息安全保护指南,确保在享受云计算带来的便利时,数据和资源的安全性不被妥协。
33 8
|
29天前
|
存储 监控 安全
云端防御战线:云计算环境中的网络安全与信息防护策略
【2月更文挑战第30天】 随着企业数字化转型的加速,云计算以其弹性、可伸缩性和成本效益成为支撑现代业务架构的关键平台。然而,云服务的广泛采用也引入了新的安全挑战,从数据泄露到服务中断,风险无处不在。本文探讨了在云计算环境下维护网络安全和信息安全的高级策略和技术,分析了云服务模型特有的安全威胁,并提出了综合防御框架以保护云基础设施和数据。通过深入剖析身份认证、加密技术、入侵检测系统以及合规性监控等关键技术手段,文章旨在为读者提供一套全面的参考方案,确保在享受云计算带来的便利时,也能有效地规避潜在的网络风险。
|
29天前
|
安全 网络安全 云计算
云计算与网络安全:技术融合下的信息保障
当今数字化时代,云计算与网络安全已经成为关乎国家和企业未来发展的重要议题。本文将深入探讨云服务、网络安全和信息安全等技术领域的最新发展,以及如何在技术融合的大背景下保障信息安全。
23 3
|
30天前
|
监控 安全 网络安全
云端防御:在云计算时代维护网络安全与信息完整性
【2月更文挑战第29天】 随着企业与个人用户日益依赖云服务,云计算环境的安全性成为信息技术领域的重中之重。本文深入探讨了云计算中的网络安全挑战,分析了信息安全管理的关键策略,并提出了多层次防护措施来保障数据安全和隐私保护。我们着重讨论了云服务模型(IaaS、PaaS、SaaS)的安全特点,网络攻击类型,以及加密技术、身份认证、访问控制和安全监控等核心技术的应用。此外,文章还强调了合规性的重要性,并对如何实施有效的安全治理结构提供了见解。
|
27天前
|
监控 安全 网络安全
云端防御战线:云计算中的网络安全与信息保护策略
在数字化时代,云计算为企业提供了弹性、可扩展的资源解决方案,但同时也带来了复杂的安全挑战。本文深入探讨了在云服务框架下,网络安全和信息保护的重要性,分析了当前云平台面临的主要安全威胁,并提出了一系列创新的防护机制。从数据加密到访问控制,再到持续监控与合规性管理,文章不仅阐述了各项技术的原理与实施策略,还讨论了如何构建一个多层次、动态的安全体系来保障云环境中的数据完整性和服务可靠性。
|
28天前
|
域名解析 网络协议 Linux
【Shell 命令集合 网络通讯 】Linux 设置和管理网络接口配置信息 netconfig命令 使用指南
【Shell 命令集合 网络通讯 】Linux 设置和管理网络接口配置信息 netconfig命令 使用指南
49 1
|
28天前
|
监控 网络协议 Linux
【Shell 命令集合 网络通讯 】Linux 显示网络 连接、路由表和网络接口信息 netstat命令 使用指南
【Shell 命令集合 网络通讯 】Linux 显示网络 连接、路由表和网络接口信息 netstat命令 使用指南
54 1
|
4天前
|
存储 安全 网络安全
云端防御:在云计算时代维护网络安全与信息完整性
【4月更文挑战第15天】 随着企业和个人用户日益依赖云服务,云计算环境的安全性已成为技术发展的一个关键挑战。本文探讨了云计算平台面临的安全威胁、信息安全的关键策略以及实施有效防护措施的必要性。我们将分析数据加密、身份验证和访问控制等核心技术,并讨论如何通过综合方法保护云资源以应对不断演变的网络攻击。
11 2
|
7天前
|
人工智能 安全 网络安全
云端守卫:云计算环境中的网络安全与信息保护策略
【4月更文挑战第12天】 随着企业与个人日益依赖云服务,数据存储、处理和流通的边界愈发模糊。本文探讨了在动态且复杂的云计算环境中,如何通过创新的安全技术和策略来维护网络安全和保障信息完整性。重点分析了包括身份认证、数据加密、访问控制及入侵检测等在内的关键安全措施,并提出了多层次防御模型,以增强云服务用户的信心,同时促进云计算生态系统的健康发展。

热门文章

最新文章