图增强与图对比学习

2023-05-16

文章目录

    • 对比学习
      • 数据增强
        • 基于特征的增强
        • 基于结构的增强
        • 基于采样的增强
        • 自适应的增强
      • 代理任务
        • 同尺度对比
        • 跨尺度对比
      • 目标函数
      • 参考

CSDN排版太垃圾了,点此连接去知乎看吧!!!!!

自监督学习(SSL)的最新进展为减少对标签的过度依赖,实现在大量无标注数据上的训练提供了新的见解。自监督学习的主要目标是通过精心设计的代理任务,从丰富的无标签数据中学习可迁移的知识,然后将学到的知识迁移到具有特定监督信号的下游任务中。Graph SSL方法分为三类:对比式的、生成式的和预测式的。
在这里插入图片描述

  1. 比式方法:对不同的增广t1(.)和t2(.)产生的视图进行对比学习,将数据-数据对(inter-data)之间的共性和差异信息作为监督信号。
    生成式方法:关注图数据内部(intra-data)的信息,一般基于特征/结构重构等代理任务,利用图本身的特征和结构作为监督信号。
    预测式方法:通过一些简单的统计分析或专家知识self-generate伪标签,然后根据生成的伪标签设计基于预测的代理任务来处理数据-标签(data-label)关系。

对比学习

在这里插入图片描述
基于互信息最大化的对比学习方法层出不穷,对比式学习的自监督方法最为大家关注。自监督对比式学习的三个主要模块是数据增广、代理任务设计和对比目标,现有工作的贡献基本上可以归纳为在这三个模块上的创新。

对比学习一般通过各种的数据增广方式(甚至是它们的组合)为数据集中的每个实例生成多个视图。从同一实例中生成的两个视图通常被认为是一个正样本对,而从不同实例中生成的两个视图则被认为是一个负样本对。对比学习的目标是通过最大化正样本的一致性,让负样本之间距离远离。其中,样本的一致性信息是通过互信息衡量的。

对于给定的图g=(A,X),K个不同的增强变换得到K个视图(Ai, Xi)
在这里插入图片描述
然后为每个视图生成对应的表示hi(可以是结点表示,子图表示,图级表示)
在这里插入图片描述
对比学习的目标是最大化同一实体在两个视图上的互信息即
在这里插入图片描述

数据增强

在这里插入图片描述
由于图数据的非欧特性,很难将为图像领域的数据增广策略直接应用于图数据领域。在这里,我们把针对图数据的数据增广策略分为以下四类:基于特征的增广、基于结构的增广、基于采样的增广和自适应的增广。

  • 基于特征增强的方法一般随机或者手动的遮盖一小部分结点或者边的属性。
    基于结构增强的方法一般随机或者手动从原图中添加或者删除一小部分边。比如边扰动,结点插入,边扩散等。
    基于采样的增强方法从原图中按照一定规则采样结点和对应的连边。比如均匀采样,ego-net采样,随机游走采样,重要性采样和基于知识的采样。
    基于自适应的采样方法采用注意力机制或者基于梯度的方法根据注意力权重或者梯度规模进行自适应采样。

基于特征的增强

对于给定的输入图G=(A,X),基于特征的增强只对结点的特征矩阵X或者边的特征矩阵Xe进行增强。
在这里插入图片描述
**属性遮掩(Attribute Masking)**通过掩码的方式随机遮盖一部分结点或者边的特征。
在这里插入图片描述
其中,L是掩码位置矩阵,M为掩码值矩阵。Lij取值为0或1,Mij为遮掩后对应位置赋的值。

**属性搅乱(Attribute Shuffling)**对结点特征矩阵进行行级混洗。增强后的图和原图拥有相同的结点集但是结点的上下文环境不再相同。

基于结构的增强

对于给定的输入图G=(A,X),基于结构的增强只对邻接矩阵进行增强。
在这里插入图片描述
**边扰动(Edge Perturbation)**通过随机添加或删除一定比例的边来扰乱结构连接
在这里插入图片描述
同特征增强,L为位置矩阵。
**边扩散(Edge Diffusion)**使用一般的边扩散过程为原始的图结构生成不同的拓扑结构视图。
在这里插入图片描述
其中S为过渡矩阵,θ的和为1。常见的两个实例为personalized pagerank和heat kernel。
personalized pagerank
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
α为随机游走中的传输概率
heat kernel
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
t为扩散时间

**结点插入(Node Insertion)**是在原结点集中添加一些结点并在新加入的结点和原始结点之间添加一些边。

基于采样的增强

给定一个输入图G=(A,X),基于采样的增强同时对邻接矩阵A和特征矩阵X进行增强。
Uniform Sampling均匀地从结点集中采样给定数量的结点,然后移除剩余结点
Ego-net Sampling每次在结点i周围的L跳邻居内采样
Random Walk Sampling从起始节点i开始在图上进行随机游走。游走以与边权重成正比的概率迭代地前往其邻域。此外,在每一步以正概率α返回到起始节点i。最后,被访问的节点被纳入一个节点子集中。
Importance Sampling对于给定结点i,按照其邻居的重要性进行采样一个子图.重要性得分矩阵记作
在这里插入图片描述
Knowledge Sampling引入领域的先验知识进行采样.

自适应的增强

自适应的增强是采用注意力机制或者梯度来引导结点或边的选择的.
Attention-based基于注意力的方法为结点或边定义重要性权重,然后按照权重进行增强.保留重要的结构和特征信息,对不重要的部分进行扰动.例如GCA中根据结点的中心性计算权重,按照重要性扰动边和结点.
Gradient-based不同于GRACE中简单的均匀边添加和删除,GROC按照梯度自适应进行增强.具体而言,首先构建两个随机的视图,然后计算两个视图间的对比损失.对于一个给定的结点vi,定义一个边的删除候选集
在这里插入图片描述
和边的插入候选集
在这里插入图片描述
B为一个batch,反向传播损失计算各个边的梯度值.从待删除边集中删除一部分最小梯度值得边,给插入候选集中插入一部分最大梯度值的边

代理任务

在这里插入图片描述
对比学习的目的是最大化正样本对之间的一致性。视图的尺度可能是局部的,上下文的或者全局的,对应的图中结点级,子图级和图级别的信息。对比学习可以在相同或者不同尺度上进行对比。

同尺度对比

Global-Global
在这里插入图片描述
GraphCL是典型的全局-全局对比模式,采用上述任何一种增强方式生成视图g’,然后判断生成的视图是否与原始图是同一张图。具体来说就是使用同一个编码器在原始图和增强的视图上进行编码得到图级别的表示,最终学习目标是
在这里插入图片描述

Context-Context
**加粗样式**
GCC是在多个图之间捕获一般的图拓扑属性。首先通过随机游走采样多个子图并编码为图级别表示h。如果图q和k采样于同一张图,则为正样本对,否则为负样本对。
在这里插入图片描述
I表示第i个k图和q图是否采样于同一张图

Local-Local
在这里插入图片描述
GRACE关注于结点级别的对比。对于增强的两张视图,采用共享的编码器生成结点的表示。对于每个正样本对儿的目标函数为
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GCA和GROC都采用和GRACE相同的框架学习.

在这里插入图片描述
GMI通过直接对比结点的输入特征和对应的结点表示来学习的。
在这里插入图片描述
在这里插入图片描述
BGRL不需要负采样,在增强的两个视图上使用两个编码器学习结点表示。然后使用一个结点级的映射层g()得到Z1 = g(H1),最终的学习目标为
在这里插入图片描述
编码器2的参数θ2通过指数移动平均EMA得到。

跨尺度对比

Local-Global
在这里插入图片描述
DGI通过生成一个视图后并计算对应的图级别表示,然后最大化与原始图上的结点的表示之间的互信息。
在这里插入图片描述
在这里插入图片描述
MVGRL通过最大化不同视图间结点和图的表示的互信息来学习。
在这里插入图片描述

Local-Context
在这里插入图片描述
在这里插入图片描述
SUBG-CON利用锚点和周围子图之间的强关联性捕获上下文结构信息。SUBG-CON首先采样一组锚点集合,然后采样对应的子图集合。使用一个共享的图编码器和图聚合器得到结点表示和图级别表示。最终目标函数为
在这里插入图片描述
在这里插入图片描述
GIC在DGI的基础上还最大化了结点和对应簇的嵌入之间的互信息。使用无监督聚类算法将结点分为K个簇,使用每个簇中结点表示的平均来表示簇中心的表示。为每个结点vi计算一个簇嵌入zi即使用簇中心嵌入的加权求和计算。其中权重rik表示结点i分到簇k中的概率。最后最大化结点和对应簇嵌入之间的互信息
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Context-Global
MICRO-Graph,子图级的对比难点在于采样语义信息的子图。motif可以很好的辅助采样。首先在得到的两组视图中的结点表示上采样K个motif-like子图,然后使用readout函数得到图级别和子图级别的表示。
在这里插入图片描述

图片: https://uploader.shimo.im/f/CdBBNvYDowtXUKvs.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTgzMDUxMDEsImZpbGVHVUlEIjoidlZxUlZWajFwb3V5RWdxeSIsImlhdCI6MTY1ODMwNDgwMSwidXNlcklkIjo2NjY4ODY1NX0.4-hnp56mF87Jx-r6GnFsxzH5OSSBqWnwA88jtRU0_zY
InfoGraph目的在于在整个图级别上学习嵌入。首先生成一个视图,然后采用一个共享的L层图编码器来计算每一层的结点表示。通过连接每层的结点表示来得到综合的结点表示。然后使用readout函数得到图级别的表示,目标函数如下,其中负样本来自增强的视图中。
在这里插入图片描述

目标函数

对比学习优化的主要方式是把两个视图的表示视作随机变量,然后最大化他们之间的互信息
在这里插入图片描述
为了高效计算互信息,三种互信息的下界形式被推到出来了。最大化互信息通过间接最大化他们的下界得到。
Donsker-Varadhan Estimator是一种互信息的下界形式定义如下,D为判别函数,计算两个表示的一致性得分
在这里插入图片描述
Jensen-Shannon Estimator使用JS散度来替换原始的KL散度,更高效些。
在这里插入图片描述
在这里插入图片描述

InfoNCE Estimator是最受欢迎的下界形式,K是由一个独立同分布的N个随机变量组成。
在这里插入图片描述
以图分类为例,一个batch size为N+1的mini-batch B的Info NCE计算如下
在这里插入图片描述
hi和hj是来自同一视图的正样本对,h’为另一视图生成的负样本

Triplet Margin Loss对于对比学习,最大化互信息不是必须的。Triplet Margin Loss可以优化对比学习但不是基于互信息的对比目标函数。
在这里插入图片描述
Triplet Margin Loss不直接最小化负样本对D(hi, hj’)之间的一致性,只确保负样本对之间的一致性小于正样本对之间的一致性。也就是说,如果负样本之间足够远离,没必要进一步减少一致性,应把重点放在较难分别的样本上。
quadruplet loss在Triplet Margin Loss的基础上进一步考虑类间约束
在这里插入图片描述
在这里插入图片描述
quadruplet loss使用基于锚点的采样策略并且负采样更加随机,可以帮助识别类间边界。

RankMI Loss quadruplet loss和Triplet Margin Loss忽略了互信息的下界,RankMI无缝地把信息论方法整合到了表示学习和最大化相同类别样本互信息中。
在这里插入图片描述

参考

  • https://mp.weixin.qq.com/s/xJQLb5xbFPvL211YnO9ivw
  • Self-supervised Learning on Graphs: Contrastive, Generative,or Predictive
  • https://zhuanlan.zhihu.com/p/277660074
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

图增强与图对比学习 的相关文章

随机推荐

  • JS日期加减,日期运算

    因为是转载文章 在此标明出处 xff0c 以前有文章是转的没标明的请谅解 xff0c 因为有些已经无法找到出处 xff0c 或者与其它原因 如有冒犯请联系本人 xff0c 或删除 xff0c 或标明出处 因为好的文章 xff0c 以前只想收
  • jQuery easyui 选中特定的tab

    获取选中的 Tab 1 获取选中的 tab panel 和它的 tab 对象 2 var pp 61 39 tt 39 tabs 39 getSelected 39 3 var tab 61 pp panel 39 options 39 t
  • Server Error in '/' Application. 解决办法

    Server Error in 39 39 Application Access to the path 39 E NetWeb2 Content upFile BClientExcel 大客户部通讯录导入 xlsx 39 is denie
  • easyui-datagrid 数据出不来(样式引起的bug)

    今天任务是需要从另一个项目中将某几个功能页面移植到现有的项目中 这是比较繁琐的功能 理解要移植功能的逻辑 xff08 业务逻辑 xff0c 涉及到的表和存储过程 xff09 页面样式 这么是我遇到的一个问题之一 xff1b 我需要展现一个e
  • c#切割字符串几种方法

    1 xff0c 按单一字符切割 string s 61 34 abcdeabcdeabcde 34 string sArray 61 s Split 34 c 34 oreach string i in sArray Console Wri
  • 动态链接库与静态链接库的区别

    静态链接库与动态链接库都是共享代码的方式 xff0c 如果采用静态链接库 xff0c 则无论你愿不愿意 xff0c lib 中的指令都全部被直接包含在最终生成的 EXE 文件中了 但是若使用 DLL xff0c 该 DLL 不必被包含在最终
  • ssm——小学期实训总结

    实训总结 经过这两个星期短暂的学习 xff0c 我学习了ssm的框架搭建与web前端设计基础 在第一个星期 xff0c 老师着重为我们讲了框架的原理 搭建与运用 xff1b 而在第二个星期 xff0c 重点则转移到了小组对项目的开发与研究上
  • 节点中心性

    文章目录 度中心性 Degree Centrality 特征向量中心性 Eigenvector Centrality Katz中心性 Katz Centrality Katz index PageRank中心性PageRank算法 接近中心
  • 机器学习面试知识点总结

    文章目录 计算学习理论过拟合与欠拟合过拟合欠拟合 偏差与方差最大似然估计与贝叶斯估计极大似然估计贝叶斯决策论贝叶斯估计 特征工程与特征选择特征工程逐层归一化特征选择 模型融合融合策略 评估方法与评价指标评估方法评价指标 优化算法正则化深度模
  • Multi-view graph convolutional networks with attention mechanism

    摘要 传统的图卷积网络关注于如何高效的探索不同阶跳数 hops 的邻居节点的信息 但是目前的基于GCN的图网络模型都是构建在固定邻接矩阵上的即实际图的一个拓扑视角 当数据包含噪声或者图不完备时 xff0c 这种方式会限制模型的表达能力 由于
  • An Empirical Study of Graph Contrastive Learning

    摘要 图对比学习在图表示学习领域树立了新的范式 xff0c 不需要人工标注信息 但对GCL的分析却寥寥无几 本文通过分析一般化的GCL范式的各个部分包括增强函数 xff0c 对比模式 xff0c 对比目标和负采样技术 xff0c 然后分析各
  • Data Augmentation

    自监督深度学习模型的精确性严重依赖于训练时数据的多样性和数据量 模型要想在更复杂任务上有较好的效果一般会有大量的隐藏单元 一般在训练过程中训练隐藏单元越多需要的数据越多 xff0c 即任务复杂度与参数量与需要的数据量成正比 由于训练复杂任务
  • Semi-Supervised and Self-Supervised Classification with Multi-View Graph Neural Networks

    摘要 图神经网络在图结构数据中取得了很好的效果但是大多数的模型使用的还是叫浅层的结构 xff0c 当模型层数加深时很容易过平滑 本文基于多视图来聚合更多的信息 我们首先设计两个互补的视图来描述全局结构和节点特征相似性 xff0c 然后使用注
  • GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training

    摘要 目前图表示学习在许多任务上取得了很好的效果但是都是关注于具体领域的并不具有迁移性 本文借鉴预训练思想 xff0c 设计了一个自监督图神经网络框架来在多个网络中捕获一般化的网络拓扑结构属性 我们设计的预训练任务是在多个网络之间判别子图实
  • Graph Contrastive Learning with Adaptive Augmentation

    摘要 对比学习在无监督图表示学习中取得了很好的效果 xff0c 大部分图对比学习首先对输入图做随机增强生成两个视图然后最大化两个视图表示的一致性 其中 xff0c 图上的增强方式是非常重要的部分鲜有人探索 我们认为数据增强模式应该保留图固有
  • A Survey on Graph Structure Learning: Progress and Opportunities

    文章目录 摘要引言预备知识GSL pipline Graph Structure ModelingMetric based ApproachesNeural ApproachesDirect Approaches Postprocessin
  • 图构造总结-Graph‑based semi‑supervised learning via improving the quality of the graph dynamically

    前言 本博文主要对论文中提到的图构造方法进行梳理 xff0c 论文自己提出的模型并未介绍 xff0c 感兴趣的可以阅读原文 摘要 基于图的半监督学习GSSL主要包含两个过程 xff1a 图的构建和标签推测 传统的GSSL中这两个过程是完全独
  • 超图构造综述,Hypergraph Learning: Methods and Practices

    文章目录 摘要引言基础知识Hypergraph GenerationDistance based hypergraph generationRepresentation based hypergraph generationAttribut
  • 图论基础知识总结

    文章目录 图的概念路图的代数表示邻接矩阵可达矩阵完全关联矩阵拉普拉斯矩阵对称归一化拉普拉斯矩阵随机游走归一化拉普拉斯矩阵 欧拉图与汉密尔顿图平面图对偶与着色数与生成树最小生成树算法 xff1a 根树图的存储邻接矩阵邻接表十字链表邻接多重表
  • 图增强与图对比学习

    文章目录 对比学习数据增强基于特征的增强基于结构的增强基于采样的增强自适应的增强 代理任务同尺度对比跨尺度对比 目标函数参考 CSDN排版太垃圾了 xff0c 点此连接去知乎看吧 xff01 xff01 xff01 xff01 xff01