【论文翻译】基于层次结构的动态异构图嵌入

2023-11-18

基于层次结构的动态异构图嵌入

Dynamic Heterogeneous Graph Embedding Using Hierarchical Attentions - 百度学术

摘要:图嵌入已经引起了许多研究兴趣。现有的研究主要集中在静态同质/异构网络或动态同质网络上。然而,动态异构网络在现实中更为普遍,如社会网络、电子商务网络、引文网络等,对动态异构图嵌入的研究还比较缺乏。在本文中,我们提出了一种新的动态异构图嵌入方法利用层次注意(DyHAN)学习节点嵌入,利用结构异构性和时间演化。我们在三个真实的数据集上评估了我们的方法。结果表明,DyHAN在链路预测任务方面优于各种最新的基线。

关键词:图嵌入·异构网络·动态图嵌入

1简介

图形(网络)嵌入引起了人们极大的研究兴趣。它通过编码网络结构或/和节点属性来学习网络中节点到低维空间的投影。该技术已成功应用于多个领域,如推荐[11,18]、节点分类[8]、链路预测[1]和生物学[7]。

在现实世界中,图形往往不仅随着时间的推移而发展,而且还包含多种类型的节点和边。例如,电子商务网络有两种类型的节点,用户和项目,以及多种类型的边缘,点击,购买,添加到首选项和添加到购物车。节点和边可能会随时间变化。在社交网络中,用户可以随着时间的推移与他人建立多种类型的联系(跟帖、回复、转发等)。网络的动态性和结构的异质性为编码节点提供了丰富的信息。

最近的研究主要集中在静态图嵌入上,静态图具有固定的节点和边集。DeepWalk[9]和node2vec[6]利用了随机游走/有偏随机游走和skip-gram模型。第[12]行保留一阶和二阶近似。GCN[8]在节点的邻域上使用卷积运算。GraphSAGE[7]或PinSAGE[18]提出了一种归纳方法,用节点特征聚合结构信息。进一步的工作考虑异质性。metapath2vec[2]在生成随机游动时考虑元路径。GATNE[1]根据边缘类型将网络划分为不同的视图,从而聚合节点嵌入。HAN[16]使用两级注意来学习邻居节点和元路径的重要性。

动态图嵌入是一个新兴领域[17]。DynamicTriad[19]使用三元闭包来改进节点嵌入。DySAT[10]将原来的GAT[15]扩展到了时态图快照。MetaDynaMix[4]提出了一种基于元路径的动态异构信息网络嵌入技术。更多工作可参考[3,5,13]。

尽管如此,仍然缺乏同时考虑时间演化和结构异质性的研究。在[16]和[10]的启发下,我们提出了一种新的动态异构图嵌入方法,该方法利用层次注意层(DyHAN),能够捕捉不同层次聚集的重要性。具体地说,对于任意节点,节点级的注意打算学习其邻居对于特定边缘类型的重要性。边缘级别的注意旨在了解每个边缘类型对该节点的重要性。时间层次的注意能够通过计算每个时间步图快照的重要性来融合最终的嵌入。我们对三个真实世界动态异构网络数据集EComm、Twitter和阿里巴巴网站. 结果表明,在链路预测任务中,DyHAN的性能优于几种最先进的基线。

2问题定义

在本节中,我们将在本文中提供必要的信息。我们将动态异构网络定义为一系列快照,。时间t的快照被定义为,其中是节点类型为的节点集。是边类型为的边集。O和R分别是节点类型集和边类型集,。我们假设每次快照节点和链接都可以更改。

动态异构图嵌入的目的是学习一个映射函数,以保持节点之间的结构相似性和在发展链接关系时的时间趋势。

3拟定方法

在这一节中,我们将介绍我们提出的方法DyHAN,它结合了文献[10,16]中提出的基本思想,利用动态异构图嵌入的分层关注。它主要由节点级注意边缘级注意时间级注意三个部分组成。所有这三个组成部分使用不同的注意层聚合不同的信息层。DyHAN的整体架构如图1所示。

节点级注意。对于每个时间步快照,我们根据边类型将其划分为不同的子图。采用自关注的方法对每个子图进行节点嵌入。对于边类型r和时间步长t,节点对(i,j)的重要性可以表示为:

其中\sigma是一个激活函数,是节点I的输入表示,是一个线性变换矩阵,||表示连接。表示边类型r和时间步长t的节点i的采样邻居节点。与使用所有直接邻居的[15]不同,为了归纳,我们遵循[7]中描述的框架使用采样邻居。是一个权重向量,它参数化了边缘类型r的注意函数,然后得到了边缘类型r的节点i和时间步长t的嵌入,如下所示:

请注意,参数在不同的时间步快照之间共享。

边缘级注意。我们假设特定于边缘的节点嵌入表示异构图中一种语义类型的信息。为了更有效、更稳健地聚集这些信息,我们采用注意层来自动学习不同边缘类型的重要性。每种边类型的重要性由一层MLP计算。

其中σ是一个激活函数,是边缘层次的注意向量。是单层MLP的参数。所有参数在不同的时间步和不同的边类型中共享。节点i的融合嵌入是,

时间层面的注意。一旦获得每个时间步快照的节点嵌入,下一步就是跨一系列时间快照聚合这些节点嵌入。为了计算最终的节点嵌入,我们使用来处理它的所有历史时间表示,标度点积注意力[14]是通过假设它能够捕捉时间演化特征来使用的。我们将节点i在时间上的表示形式包装为,然后将转化为查询,键和值,其中。时间注意力的定义是,

其中是一个掩模矩阵,因此只随时间步长≤T衰减。

我们将使用作为最终的节点嵌入。注意,多头注意可以应用于节点级和时间级注意。

优化。为了训练同时捕获结构和时间信息的模型,我们鼓励在最后一个时间步附近的节点具有相似的表示。采用交叉熵损失,

其中σ是sigmoid函数,<,>表示内积。v是在最后一个时间步中,在固定长度随机行走上,在u附近发生的节点。P_{n}是一个负采样分布,在最后一个时间步中我们使用节点的度。Q定义负样本数。

4实验

数据集。我们使用三个真实世界的数据集进行评估。它们的统计数据汇总在表1中。

EComm数据集取自CIKM 2019 EComm AI竞赛的数据集,来自一个类别。有两种类型的节点,用户和项目。它有四种类型的边缘,包括点击,收集,添加到购物车和购买。

twitter2数据集是从Twitter的用户行为日志中抽取的,关于2012年7月1日至7日期间发现的难以捉摸的希格斯玻色子。有三种类型的边缘:转发,回复和提及。请注意,只有一种类型的节点。

阿里巴巴数据集是从alibaba.com电子商务平台。对2019年7月11日至7月21日期间的客户电子类网络进行了抽样调查。它由用户和项目之间的交互组成。有三种类型的互动,点击,查询和联系。

实验装置。我们学习了基于图快照的节点嵌入,然后在最后一个图快照上进行了链路预测实验

链路预测任务的目的是预测任意两个节点之间是否存在链路。我们遵循[10,19]中所述的链路预测评估框架。我们建立了一个动态链路预测的Logistic回归分类器。我们从上一个时间步快照中抽取20%的边作为超参数优化的保留验证集。最后一个时间步快照的其余边用于链路预测任务。具体来说,我们随机选取25%的链接和剩下的75%的链接分别作为训练集和测试集。对于每个训练集和测试集,分别使用相等数量的随机抽样的无连接节点对作为负样本。我们使用节点对的节点嵌入的内积作为链路的表示特征。然后使用ROC曲线下面积(AUC)[9]得分和准确度来报告表现。

基线。考虑到代码的可用性和重新实现的工作量,我们将我们提出的DyHAN与以下最先进的静态/动态和同构/异构图嵌入算法进行了比较。DeepWalk[9],我们使用[7]提供的实现。Metapath2Vec[2],作者提供的原始实现专用于特定的数据集。因此,直接推广到其它数据集是不方便的。我们用python重新实现了它。GAT[15],作者提供的原始实现是为节点分类而设计的。我们在GraphSAGE框架中重新实现了它。注意,要被关注的节点是从直接邻居中采样的。GraphSAGE[7],我们使用作者提供的实现并使用默认设置。测试了四种不同节点聚合技术的变体,即平均值、平均池、最大池和LSTM。DynamicTriads[19]和DySAT[10],我们使用作者提供的实现。采用忽略结构非均质性的DyGAT方法对非均质性进行了比较。对于基于随机游动的方法,我们将每个节点的游动次数设置为50,每个游动的长度设置为5。所有训练历元设置为1。所有节点嵌入维度都设置为32。

结果。实验结果如表2所示。迪汉在竞争对手中取得了最高的AUC得分和准确率。更具体地说,DyHAN在AUC上获得2.8%-4.9%的收益,在比较最佳基线(不包括DyGAT)的准确性上获得0.7%-7.8%的收益。与GAT相比,DyGAT的增益显示了结合时间信息的有效性。此外,DyHAN对DyGAT的增益表明了考虑异质性的有效性。

5结论

本文提出了一种新的层次注意神经网络DyHAN来学习动态异构图中的节点嵌入。DyHAN能够有效地捕捉结构异质性和时间演化。在三个真实数据集上的实验结果表明,DyHAN优于几种最先进的技术。一个有趣的未来方向是探索更多的时间聚合技术。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文翻译】基于层次结构的动态异构图嵌入 的相关文章

随机推荐

  • Vuforia的各种Target的简单介绍(包括地面识别)

    Vuforia的各种Target的简单介绍 包括地面识别 前言 Vuforia的两种识别分类 1 需要特定目标的识别 2 不需要特定目标的识别 上边两种的优缺点 基于优缺点进行的阿应用场景推荐 需要目标的类型 上传你的目标到服务器 不需要目
  • Android UI-开源框架ImageLoader的完美例子

    android layout gravity left center vertical android layout marginLeft 20dip android textSize 22sp gt GridView异步加载图片显示 20
  • Android APK反编译 最新版 解决Could not decode arsc file

    本人小白 初学Android 这不想着找点成熟的app看看 学习一下 就找到反编译了 拜读各位前辈大神的文章 弄啊弄 总是出现 Could not decode arsc file 的错误 擦擦 愁人啊 百度不行 就Google 捯饬啊捯饬
  • Ubuntu 安装与使用 Visual Studio Code

    1 Visual Studio Code简介 1 1 什么是Visual Studio Code Visual Studio Code是微软推出的一个运行于 Mac OS X Windows和 Linux 之上的 针对于编写现代 Web 和
  • 服务计算:简单的web程序

    CloudGo 框架选择 看了go的一些框架如beego和iris觉得挺好的 本来想用 但是虚拟机出了点问题装不成 windows上装成了没ab指令 所以使用官方的net http库做简单的实验 看完beego和iris的特性我还是比较想用
  • Linux下yum安装dstat,安装配置整理之 dstat

    tech163 usr local download dstat help Usage dstat afv options delay count Versatile tool for generating system resource
  • 菜鸡面试遇到有印象的问题(LINUX下内核如何管理内存)

    目录 写在文章的前面 本人C C 面试岗位 学艺不精 研究生做的与代码无关的工作 仅记录每次面试遇到的问题勉励自己 一 x86下的物理地址空间布局 二 linux虚拟地址内核空间分布 三 linux虚拟地址用户空间分布 1 page 页 2
  • 通过tableExport.js插件导出jqgrid表格数据

    通过tableExport js插件导出jqgrid表格数据 提前说 没有实现导出pdf png和ppt 实现了导出 JSON XML CSV TXT SQL MS Word Ms Excel 代码实例 包含改进的tableExport j
  • MySQL建表设置默认值取值范围

    一 设置默认值 设置默认值采用default 如代码所示 二 设置取值范围 设置取值范围采用check 如代码所示 create table student id int not null primary key auto incremen
  • java项目自动化单元测试

    对于我们开发人员来说 单元测试一定不会陌生 但在各种原因下会被忽视 尤其是在我接触到的项目中 提测阶段发现各种各样的问题 我觉得有必要聊一下单元测试 为了写而写的单元测试没什么价值 但一个好的单元测试带来的收益是非常客观的 问题是怎么去写好
  • CVAT标注工具的部署步骤详解

    简介 CVAT Computer Vision Annotation Tool 此标注工具是用于机器视觉数据标注的在线标注工具 以网页形式标注 能够生成多种数据标注格式基本涵盖了市面上百分之九十以上格式 此工具也有自己的标注格式 此工具的优
  • Canvas 详解

    HTML 5 Canvas 参考手册
  • ES6语法知识点

    目录 let const 常用 暂时性死区 const 建议 箭头函数 常用 建议 iterator迭代器 解构赋值 常用 建议 剩余 扩展运算符 常用 扩展运算符 剩余运算符 在对象中使用扩展运算符 建议 对象属性 方法简写 常用 对象属
  • centos7 搭建Hadoop3.0.3完全分布式

    第一步 服务器规划 IP地址 主机名称 nameNode dataNode 192 168 60 201 master 是 否 192 168 60 200 node1 否 是 第二步 基于依赖环境准备 1 centos7 搭建JDK8 参
  • Java后台面试题

    Java后台面试题 一 Java内存 私有内存区 伴随线程的产生而产生 一旦线程终止 私有内存区也会自动消除 程序计数器 指示当前程序执行到了哪一行 执行Java方法时记录正在执行的虚拟机字节码指令地址 执行本地方法时 计数器值为null
  • Linq语法详细

    1 简单的linq语法 1 var ss from r in db Am recProScheme select r 2 var ss1 db Am recProScheme 3 string sssql select from Am re
  • 不加电透明屏:在场景化应用中,有哪些特点和优点?

    不加电透明屏是一种新型的显示技术 它可以在不需要电源的情况下显示图像和文字 这种屏幕的原理是利用光的折射和反射来实现显示效果 而不需要通过电流来激发像素点 不加电透明屏的最大优点是节能环保 传统的显示屏需要消耗大量的电能来显示图像 而不加电
  • 环境搭建04-Ubuntu16.04更改conda,pip的镜像源

    我常用的pipy国内镜像源 https pypi tuna tsinghua edu cn simple 清华 http mirrors aliyun com pypi simple 阿里云 https pypi mirrors ustc
  • Java-基于SSM的药品销售管理系统

    项目背景 本论文主要论述了如何使用JAVA语言开发一个药品销售系统 本系统将严格按照软件开发流程进行各个阶段的工作 采用B S架构 面向对象编程思想进行项目开发 在引言中 作者将论述药品销售系统的当前背景以及系统开发的目的 后续章节将严格按
  • 【论文翻译】基于层次结构的动态异构图嵌入

    基于层次结构的动态异构图嵌入 Dynamic Heterogeneous Graph Embedding Using Hierarchical Attentions 百度学术 摘要 图嵌入已经引起了许多研究兴趣 现有的研究主要集中在静态同质