图构造总结-Graph‑based semi‑supervised learning via improving the quality of the graph dynamically

2023-05-16

前言
本博文主要对论文中提到的图构造方法进行梳理,论文自己提出的模型并未介绍,感兴趣的可以阅读原文

摘要

基于图的半监督学习GSSL主要包含两个过程:图的构建和标签推测。传统的GSSL中这两个过程是完全独立的,一旦图结构构建完成,标签推断的结果也不再改变。因此,图的结构直接影响GSSL的效果。传统的图构造方法对数据的分布做了一个具体的假设,导致图的质量严重依赖于这些假设的正确性。因此,对于传统图构造方法很难应用再复杂多样的数据分布上。本文提出了一个框架叫做通过动态地提升图质量的图半监督学习。在本方法中,图的构建是基于多个聚类结果的加权融合,并且把标签推断也整合进一个统一的框架达到相互引导,动态提升的效果。

引言

GSSL方法主要可以分为两个角度即标签推测和图的构建。标签推测主要关注于如何根据有标签的样本和相似样本提供的信息在图上进行标签学习。而GSSL成功的关键在于构建高质量的图而非好的标签推测算法。GSSL核心的假设是图中相似的样本应该有相同的标签。根据这个标准,如果样本的相似程度与真实标签一致,那么未标记的样本便可以被正确预测。相反,如果相似性与真实标签相反则会得到错误的结果。因此,图的质量对于GSSL方法的表现至关重要。

由于没有可用的评价方法来度量图的质量,图的质量一般是通过标签推测的准确率来间接度量的。这是一种事后的验证方法,对于图的构建没有任何帮助。这也就是构建高质量图的难点所在。那么问题就来了,为什么不让图的构建和标签推断彼此指导达到共赢呢?在本文中,我们将图的构建和标签推测放入一个优化模型中来解决问题。

我们需要先大致重温一下现有的图构造方法。图构造方法的基本任务就是度量样本之间的相似性。根据相似度的计算方法,现有图构造方法可以分为两类

基于距离的方法

基于距离的构图方法通过计算样本之间的距离来度量节点间的相似度。直观来讲,距离越小,相似度越高。常见的方法有基于欧式距离的方法如KNN graph和e-ball neighborhood图。在KNN图中,当节点的度差异非常大时,图的质量也会下降。为了克服该问题,b-matching图通过把图中每个节点的度约束为b来构图。除了使用欧式距离外,基于流型假设的构图方法通过测地距离来度量样本之间的相似性。

一些工作通过样本标签提供的监督信息来构图。给有标记的节点更多边可以使标记信息高效的传递到无标记的样本中。

基于距离的方法需要选择合适的度量方法,同样构图中的一些参数也是非常重要的图邻居数量,距离阈值等。并且一旦图构造完成后,图的结构会固定下来,不能自适应处理多种数据分布。

基于数据表示的方法

基于数据表示的构图方法通过样本之间的表示系数来建模样本的相似度。样本之间的表示系数通过一个数据表示模型来得到。L1 graph使用稀疏表示学到的表示系数的绝对值来度量样本之间的相似度来构建图。因为这类方法是单独优化每个样本的表示系数的,因此表示系数矩阵无法捕获数据分布的全局信息。而有的工作通过把L1 norm和nuclear norm正则项共同应用在所有样本的表示系数矩阵中同时捕获局部和全局信息。

基于数据表示的方法可以学习邻接结构和边的权重,对数据噪声有一定的鲁棒性。但是当数据分布不能满足子空间假设时,这种方法无法正确反映数据分布,无法保证模型结果。

可以看到,基于距离的方法和基于数据表示系数的方法都严重依赖于对应的假设。如果假设不对,两种方法都无法正确捕获与数据分布一致的相似性,导致效果下降。但是现实中数据分布复杂且多样,很难基于特定的假设自适应的度量样本间真实的相似度。因此,要想构建高质量的图,需要设计一个图构造方法可以降低复杂多样的数据分布的影响同时还能自适应的挖掘潜在的数据分布。

考虑到以上需求,我们将目标转向聚类集成,通过将多个聚类结果整合到一个最终的聚类结果中可以获得一个更加鲁棒的聚类结果。在大量的聚类集成方法中,基于相似度的方法最为灵活高效。通过融合多个基础的簇来构建一个简单的相似度矩阵。该方法高效的原因在于不同类型的簇互补了不同类型的数据分布,通过融合多个不同分的聚类结果可以获得一个鲁棒的相似度计算方法,提升最终聚类的鲁棒性。

基于此,我们是设计了一个图构造方法通过加权融合多个距离结果来度量样本之间的相似性。首先,不同的聚类算法获取多个聚类结果,捕获复杂多样的数据分布。然后,加权融合聚类结果用于构图,其中权重会根据样本标签和标签推测的结果提供的“必须连接”和“不能连接”约束条件动态的调整。在整个学习过程中,图的动态构建和标签推断过程交替的优化,可以动态的提升构图质量。

图构造方法

1. Nearest neighbor graph
0-1kNN graph和weighted kNN graph是最常见方法,其中边权重矩阵W定义为
在这里插入图片描述
当然还有其他的变体如e-ball nearest neighbor graph,mutual kNN graph等。

2. b-matching graph
为了避免在kNN graph中有的节点度很大而有的却非常小,b-matching通过把每个节点的度约束为b。对应优化过程如下,该算法可以通过loopy belief propagation算法高效解决。
在这里插入图片描述

3. Linear neighbor graph
不同于直接使用距离来建模建模样本之间的相似度,一些工作采用了线性的基于表示的相似度计算方法。具体来说,对于样本xi,首先计算出它k个最近邻的邻居kNN(xi)。然后通过kNN(xi)的凸组合重构样本xi。最终,组合系数视作节点之间边的权重。
在这里插入图片描述

4. l1 graph
为了挖掘数据的子空间,l1 graph同时学习邻接结构和边的权重。样本之间的相似度通过稀疏表示学到的线性组合系数的绝对值来表示。具体来说,第i个样本通过剩余的其他样本来重建。其中I为重建样本xi中噪声的偏置项。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. LRR graph and SSLRR graph
低阶表示是一种鲁棒的子空间重建方法。不同于稀疏表示模型为每个样本单独学习表示系数。低阶表示通过给表示系数矩阵上应用低阶正则项可以更好的捕获数据的全局结构。||*||*用于估计矩阵的阶,因此,低阶表示模型可以表示为
在这里插入图片描述
在获得最优表示矩阵R后,节点i和j之间的边的权重可以表示为
在这里插入图片描述

为了更好利用监督信息提升图的质量,一个半监督图构造方法SSLRR通过把“不能连接”约束加入低阶表示模型中使不同类别样本的表示系数为0.
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

图构造总结-Graph‑based semi‑supervised learning via improving the quality of the graph dynamically 的相关文章

随机推荐

  • 一元正态分布

    d import numpy as np import matplotlib pyplot as plt from scipy stats import norm 生成100个正态分布数据 xff0c 均值为1 xff0c 标准差为2 da
  • CaptureLayer的另外一个调用例子TaskSnapshot

    在前一篇讨论中 xff0c 我们查找了系统中调用captureLayers的地方 1323 public static GraphicBuffer captureLayers IBinder layerHandleToken Rect so
  • visualsvn server 无法访问url

    IIS 发布网站 本机能访问 其它人访问不了 看一下服务端 VisualSVN Server 的服务有没有启动 x A 34 H g6 L N s 管理 服务 VisualSVN Server 备注 做为开发机子 手动优化自己的电脑吧 否则
  • JS日期加减,日期运算

    因为是转载文章 在此标明出处 xff0c 以前有文章是转的没标明的请谅解 xff0c 因为有些已经无法找到出处 xff0c 或者与其它原因 如有冒犯请联系本人 xff0c 或删除 xff0c 或标明出处 因为好的文章 xff0c 以前只想收
  • jQuery easyui 选中特定的tab

    获取选中的 Tab 1 获取选中的 tab panel 和它的 tab 对象 2 var pp 61 39 tt 39 tabs 39 getSelected 39 3 var tab 61 pp panel 39 options 39 t
  • Server Error in '/' Application. 解决办法

    Server Error in 39 39 Application Access to the path 39 E NetWeb2 Content upFile BClientExcel 大客户部通讯录导入 xlsx 39 is denie
  • easyui-datagrid 数据出不来(样式引起的bug)

    今天任务是需要从另一个项目中将某几个功能页面移植到现有的项目中 这是比较繁琐的功能 理解要移植功能的逻辑 xff08 业务逻辑 xff0c 涉及到的表和存储过程 xff09 页面样式 这么是我遇到的一个问题之一 xff1b 我需要展现一个e
  • c#切割字符串几种方法

    1 xff0c 按单一字符切割 string s 61 34 abcdeabcdeabcde 34 string sArray 61 s Split 34 c 34 oreach string i in sArray Console Wri
  • 动态链接库与静态链接库的区别

    静态链接库与动态链接库都是共享代码的方式 xff0c 如果采用静态链接库 xff0c 则无论你愿不愿意 xff0c lib 中的指令都全部被直接包含在最终生成的 EXE 文件中了 但是若使用 DLL xff0c 该 DLL 不必被包含在最终
  • ssm——小学期实训总结

    实训总结 经过这两个星期短暂的学习 xff0c 我学习了ssm的框架搭建与web前端设计基础 在第一个星期 xff0c 老师着重为我们讲了框架的原理 搭建与运用 xff1b 而在第二个星期 xff0c 重点则转移到了小组对项目的开发与研究上
  • 节点中心性

    文章目录 度中心性 Degree Centrality 特征向量中心性 Eigenvector Centrality Katz中心性 Katz Centrality Katz index PageRank中心性PageRank算法 接近中心
  • 机器学习面试知识点总结

    文章目录 计算学习理论过拟合与欠拟合过拟合欠拟合 偏差与方差最大似然估计与贝叶斯估计极大似然估计贝叶斯决策论贝叶斯估计 特征工程与特征选择特征工程逐层归一化特征选择 模型融合融合策略 评估方法与评价指标评估方法评价指标 优化算法正则化深度模
  • Multi-view graph convolutional networks with attention mechanism

    摘要 传统的图卷积网络关注于如何高效的探索不同阶跳数 hops 的邻居节点的信息 但是目前的基于GCN的图网络模型都是构建在固定邻接矩阵上的即实际图的一个拓扑视角 当数据包含噪声或者图不完备时 xff0c 这种方式会限制模型的表达能力 由于
  • An Empirical Study of Graph Contrastive Learning

    摘要 图对比学习在图表示学习领域树立了新的范式 xff0c 不需要人工标注信息 但对GCL的分析却寥寥无几 本文通过分析一般化的GCL范式的各个部分包括增强函数 xff0c 对比模式 xff0c 对比目标和负采样技术 xff0c 然后分析各
  • Data Augmentation

    自监督深度学习模型的精确性严重依赖于训练时数据的多样性和数据量 模型要想在更复杂任务上有较好的效果一般会有大量的隐藏单元 一般在训练过程中训练隐藏单元越多需要的数据越多 xff0c 即任务复杂度与参数量与需要的数据量成正比 由于训练复杂任务
  • Semi-Supervised and Self-Supervised Classification with Multi-View Graph Neural Networks

    摘要 图神经网络在图结构数据中取得了很好的效果但是大多数的模型使用的还是叫浅层的结构 xff0c 当模型层数加深时很容易过平滑 本文基于多视图来聚合更多的信息 我们首先设计两个互补的视图来描述全局结构和节点特征相似性 xff0c 然后使用注
  • GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training

    摘要 目前图表示学习在许多任务上取得了很好的效果但是都是关注于具体领域的并不具有迁移性 本文借鉴预训练思想 xff0c 设计了一个自监督图神经网络框架来在多个网络中捕获一般化的网络拓扑结构属性 我们设计的预训练任务是在多个网络之间判别子图实
  • Graph Contrastive Learning with Adaptive Augmentation

    摘要 对比学习在无监督图表示学习中取得了很好的效果 xff0c 大部分图对比学习首先对输入图做随机增强生成两个视图然后最大化两个视图表示的一致性 其中 xff0c 图上的增强方式是非常重要的部分鲜有人探索 我们认为数据增强模式应该保留图固有
  • A Survey on Graph Structure Learning: Progress and Opportunities

    文章目录 摘要引言预备知识GSL pipline Graph Structure ModelingMetric based ApproachesNeural ApproachesDirect Approaches Postprocessin
  • 图构造总结-Graph‑based semi‑supervised learning via improving the quality of the graph dynamically

    前言 本博文主要对论文中提到的图构造方法进行梳理 xff0c 论文自己提出的模型并未介绍 xff0c 感兴趣的可以阅读原文 摘要 基于图的半监督学习GSSL主要包含两个过程 xff1a 图的构建和标签推测 传统的GSSL中这两个过程是完全独