【笔记】SemGCN

2023-11-18

一. 论文总结

1.1 核心贡献

提出了一种改进的图卷积操作，称为语义图卷积(SemGConv)，它源自cnn。其关键思想是学习图中暗示的边的信道权值，然后将它们与核矩阵结合起来。这大大提高了图卷积的能力。
其次，我们引入了SemGCN，其中SemGConv层与非局部[65]层交叉。该体系结构捕获节点之间的本地和全局关系。
第三，我们提出了一个端到端学习框架，以表明SemGCN还可以合并外部信息，如图像内容，以进一步提高3D人体姿态回归的性能。

1.2 语义图卷积(SemGConv)

1.2.1 ResGCN

$\vec{{x_{i}^{l}}}$ ∈ $\mathbb{R}^{D_{i}}$ 和 $\vec{x_{i}^{l+1}}$ ∈ $\mathbb{R}^{D_{i+1}}$ 分别是节点i在第l个卷积之前和之后的表示。
可学习参数矩阵W∈ $\mathbb{R}^{D_{l+1}\times D_{i} }$
其中 $\bar{A}$ 是在常规GCNs中对A进行对称归一化。A∈ $\sqsubset 0,1\sqsupset ^{K\times K}$ 是G的邻接矩阵，对于节点j∈N (i)有 $a_{ij}$ = 1， $a_{ii}$ = 1

两个明显的缺点：

首先，为了使图卷积在具有任意拓扑结构的节点上工作，所有边共享学习的核矩阵W。结果，相邻节点的关系或图中的内部结构，不能很好地利用。
其次，之前的工作只收集每个节点的第一个序列上的（应该是最近邻的意思）邻居的特征。因为接受野被固定为1，这也是存在不足的。

1.2.2 SemGConv

在传统的图卷积中添加了一个可学习的权重矩阵M∈ $\mathbb{R}^{K\times K}$ (按我的理解就是上图中的 $a_i$ )。然后转化为:

其中 $\rho _{i}$ 是Softmax非线性，它在节点 $^{i}$ 的所有选择上归一化输入矩阵;
⊙是一个元素级运算，如果 $a_{ij}$ = 1则返回mij，或者在 $\rho _{i}$ 后饱和到零的大指数为负数;
A作为一个掩码，它迫使图中的节点i，我们只计算其相邻节点j∈N (i)的权值。

学习每一个通道的加权权重，将公式进一步扩展：

其中 || 表示对所有层的输入进行拼接，
$\vec{w_{d}}$ 是变换矩阵w的第d行。

1.3 网络架构

整体结构

SemGCN网络架构是通过SemGConv和 Non-Local层交错以捕获节点的局部和全局语义关系

Non-Local来自2018年cvpr论文Non-local Neural Networks

（翻译和解析后面会更新）

1.3.1 基本结构

在这项工作中，所有块中的SemGCN具有相同的结构，由两个具有128通道的SemGConv层构建的一个残差块[20]组成，然后再跟随一个非本地层。

二.代码实现

2.1 生成邻接矩阵

adj = adj_mx_from_skeleton(dataset.skeleton())#建立对称邻接矩阵

以human36M为例：

dataset.skeleton()返回的就是

h36m_skeleton = Skeleton(parents=[-1,
                                  0, 1, 2, 3, 4,
                                  0, 6, 7, 8, 9,
                                  0, 11, 12, 13, 14, 12,
                                  16, 17, 18, 19, 20, 19, 22, 12, 24, 25, 26, 27, 28, 27, 30],
                         joints_left=[6, 7, 8, 9, 10, 16, 17, 18, 19, 20, 21, 22, 23],
                         joints_right=[1, 2, 3, 4, 5, 24, 25, 26, 27, 28, 29, 30, 31])

具体来看一下adj_mx_from_skeleton这个生成邻接矩阵的函数：

from __future__ import absolute_import

import torch
import numpy as np
import scipy.sparse as sp


def normalize(mx):
    """Row-normalize sparse matrix"""
    rowsum = np.array(mx.sum(1))
    r_inv = np.power(rowsum, -1).flatten()
    r_inv[np.isinf(r_inv)] = 0.
    r_mat_inv = sp.diags(r_inv)
    mx = r_mat_inv.dot(mx)
    return mx


def sparse_mx_to_torch_sparse_tensor(sparse_mx):
    """将scipy稀疏矩阵转换为torch稀疏张量。Convert a scipy sparse matrix to a torch sparse tensor."""
    sparse_mx = sparse_mx.tocoo().astype(np.float32)
    indices = torch.from_numpy(np.vstack((sparse_mx.row, sparse_mx.col)).astype(np.int64))
    values = torch.from_numpy(sparse_mx.data)
    shape = torch.Size(sparse_mx.shape)
    return torch.sparse.FloatTensor(indices, values, shape)


def adj_mx_from_edges(num_pts, edges, sparse=True):
    edges = np.array(edges, dtype=np.int32)
    data, i, j = np.ones(edges.shape[0]), edges[:, 0], edges[:, 1]
    adj_mx = sp.coo_matrix((data, (i, j)), shape=(num_pts, num_pts), dtype=np.float32)
    #sp.coo_matrix() 的作用是生成矩阵
    #sp.coo_matrix((data, (row, col)), shape=(4, 4))用指定数据生成矩阵

    # 建立对称邻接矩阵 build symmetric adjacency matrix
    adj_mx = adj_mx + adj_mx.T.multiply(adj_mx.T > adj_mx) - adj_mx.multiply(adj_mx.T > adj_mx)
    adj_mx = normalize(adj_mx + sp.eye(adj_mx.shape[0]))
    if sparse:
        adj_mx = sparse_mx_to_torch_sparse_tensor(adj_mx)
    else:
        adj_mx = torch.tensor(adj_mx.todense(), dtype=torch.float)
    return adj_mx


def adj_mx_from_skeleton(skeleton):
    num_joints = skeleton.num_joints()
    edges = list(filter(lambda x: x[1] >= 0, zip(list(range(0, num_joints)), skeleton.parents())))
                                                        #盆骨父节点为-1
    return adj_mx_from_edges(num_joints, edges, sparse=False)

2.2 SemGCN

2.2.1 SemGraphConv

class SemGraphConv(nn.Module):
    """
    Semantic graph convolution layer
    """

    def __init__(self, in_features, out_features, adj, bias=True):
        super(SemGraphConv, self).__init__()
        self.in_features = in_features
        self.out_features = out_features

        self.W = nn.Parameter(torch.zeros(size=(2, in_features, out_features), dtype=torch.float))
        #作为nn.Module中的可训练参数使用，与torch.Tensor的区别就是nn.Parameter会自动被认为是module的可训练参数

        nn.init.xavier_uniform_(self.W.data, gain=1.414)

        self.adj = adj#邻接矩阵
        self.m = (self.adj > 0)
        self.e = nn.Parameter(torch.zeros(1, len(self.m.nonzero()), dtype=torch.float))
        nn.init.constant_(self.e.data, 1)

        if bias:
            self.bias = nn.Parameter(torch.zeros(out_features, dtype=torch.float))
            stdv = 1. / math.sqrt(self.W.size(2))
            self.bias.data.uniform_(-stdv, stdv)
        else:
            self.register_parameter('bias', None)

    def forward(self, input):
        h0 = torch.matmul(input, self.W[0])
        h1 = torch.matmul(input, self.W[1])

        adj = -9e15 * torch.ones_like(self.adj).to(input.device)
        adj[self.m] = self.e
        adj = F.softmax(adj, dim=1)

        M = torch.eye(adj.size(0), dtype=torch.float).to(input.device)
        output = torch.matmul(adj * M, h0) + torch.matmul(adj * (1 - M), h1)

        if self.bias is not None:
            return output + self.bias.view(1, 1, -1)
        else:
            return output

    def __repr__(self):
        return self.__class__.__name__ + ' (' + str(self.in_features) + ' -> ' + str(self.out_features) + ')'

2.2.2 GraphNonLocal

from __future__ import absolute_import, division

import torch
from torch import nn


class _NonLocalBlock(nn.Module):
    def __init__(self, in_channels, inter_channels=None, dimension=3, sub_sample=1, bn_layer=True):
        super(_NonLocalBlock, self).__init__()

        assert dimension in [1, 2, 3]

        self.dimension = dimension
        self.sub_sample = sub_sample

        self.in_channels = in_channels
        self.inter_channels = inter_channels

        if self.inter_channels is None:
            self.inter_channels = in_channels // 2

        assert self.inter_channels > 0

        if dimension == 3:
            conv_nd = nn.Conv3d
            max_pool = nn.MaxPool3d
            bn = nn.BatchNorm3d
        elif dimension == 2:
            conv_nd = nn.Conv2d
            max_pool = nn.MaxPool2d
            bn = nn.BatchNorm2d
        elif dimension == 1:
            conv_nd = nn.Conv1d
            max_pool = nn.MaxPool1d
            bn = nn.BatchNorm1d
        else:
            raise Exception('Error feature dimension.')

        self.g = conv_nd(in_channels=self.in_channels, out_channels=self.inter_channels,
                         kernel_size=1, stride=1, padding=0)
        self.theta = conv_nd(in_channels=self.in_channels, out_channels=self.inter_channels,
                             kernel_size=1, stride=1, padding=0)
        self.phi = conv_nd(in_channels=self.in_channels, out_channels=self.inter_channels,
                           kernel_size=1, stride=1, padding=0)

        self.concat_project = nn.Sequential(
            nn.Conv2d(self.inter_channels * 2, 1, 1, 1, 0, bias=False),
            nn.ReLU()
        )

        nn.init.kaiming_normal_(self.concat_project[0].weight)
        nn.init.kaiming_normal_(self.g.weight)
        nn.init.constant_(self.g.bias, 0)
        nn.init.kaiming_normal_(self.theta.weight)
        nn.init.constant_(self.theta.bias, 0)
        nn.init.kaiming_normal_(self.phi.weight)
        nn.init.constant_(self.phi.bias, 0)

        if bn_layer:
            self.W = nn.Sequential(
                conv_nd(in_channels=self.inter_channels, out_channels=self.in_channels,
                        kernel_size=1, stride=1, padding=0),
                bn(self.in_channels)
            )
            nn.init.kaiming_normal_(self.W[0].weight)
            nn.init.constant_(self.W[0].bias, 0)
            nn.init.constant_(self.W[1].weight, 0)
            nn.init.constant_(self.W[1].bias, 0)
        else:
            self.W = conv_nd(in_channels=self.inter_channels, out_channels=self.in_channels,
                             kernel_size=1, stride=1, padding=0)
            nn.init.constant_(self.W.weight, 0)
            nn.init.constant_(self.W.bias, 0)

        if sub_sample > 1:
            self.g = nn.Sequential(self.g, max_pool(kernel_size=sub_sample))
            self.phi = nn.Sequential(self.phi, max_pool(kernel_size=sub_sample))

    def forward(self, x):
        batch_size = x.size(0)  # x: (b, c, t, h, w)

        g_x = self.g(x).view(batch_size, self.inter_channels, -1)
        g_x = g_x.permute(0, 2, 1)

        # (b, c, N, 1)
        theta_x = self.theta(x).view(batch_size, self.inter_channels, -1, 1)
        # (b, c, 1, N)
        phi_x = self.phi(x).view(batch_size, self.inter_channels, 1, -1)

        h = theta_x.size(2)
        w = phi_x.size(3)
        theta_x = theta_x.expand(-1, -1, -1, w)
        phi_x = phi_x.expand(-1, -1, h, -1)

        concat_feature = torch.cat([theta_x, phi_x], dim=1)
        f = self.concat_project(concat_feature)
        b, _, h, w = f.size()
        f = f.view(b, h, w)

        N = f.size(-1)
        f_div_C = f / N

        y = torch.matmul(f_div_C, g_x)
        y = y.permute(0, 2, 1).contiguous()
        y = y.view(batch_size, self.inter_channels, *x.size()[2:])
        W_y = self.W(y)
        z = W_y + x

        return z


class GraphNonLocal(_NonLocalBlock):
    def __init__(self, in_channels, inter_channels=None, sub_sample=1, bn_layer=True):
        super(GraphNonLocal, self).__init__(in_channels, inter_channels=inter_channels, dimension=1,
                                            sub_sample=sub_sample, bn_layer=bn_layer)

2.2.3 ResGraphConv

表示的是如下这个部分：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

姿态估计

python

人体姿态

【笔记】SemGCN 的相关文章

使用 Python 编辑 RTF 文件

也许这是一个愚蠢的问题但我不明白所以道歉我有一个 RTF 文档我想更改它例如有一个表我想复制一行并以面向对象的方式更改代码中第二行中的文本我认为 pyparsing 应该是可行的方法但我摆弄了几个小时但没有明白我没有提供
如何指定聚类的距离函数？

我想对给定距离的点进行聚类奇怪的是似乎 scipy 和 sklearn 聚类方法都不允许指定距离函数例如在sklearn cluster AgglomerativeClustering 我唯一可以做的就是输入一个亲和力矩阵这将非常
通过 boto3 承担 IAM 用户角色时访问被拒绝

Issue 我有一个 IAM 用户和一个 IAM 角色我正在尝试将 IAM 用户配置为有权使用 STS 承担 IAM 角色我不确定为什么收到访问被拒绝错误 Details IAM 角色 arn aws iam 123456789 r
Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
为什么我的混淆矩阵只返回一个数字？

我正在做二元分类每当我的预测等于事实时我发现sklearn metrics confusion matrix返回单个值难道没有问题吗 from sklearn metrics import confusion matrix print
Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo
Jupyter Notebook：带有小部件的交互式绘图

我正在尝试生成一个依赖于小部件的交互式绘图我遇到的问题是当我使用滑块更改参数时会在前一个绘图之后完成一个新绘图而我预计只有一个绘图会根据参数发生变化 Example from ipywidgets import interact i
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged

随机推荐

【转】Adapter应用总结

Adapter应用总结首先来看一下Adapter的体系结构一个Adapter的对象扮演一个桥梁的角色这个桥梁连接着一个AdapterView和它所包含的数据 Adapter提供了一个通到数据项的途径 Adapter还负责为在数据集里的
Python的shelve模块小问题

shelve模块是个数据存储模块可以在文件中存储数据只需为其提供文件名在练习时贴的代码 pre class python import shelve m shelve open r F python Te dat 运行结果报错 T
8 个很棒的 Vue 开发技巧

1 路由参数解耦通常在组件中使用路由参数大多数人会做以下事情 export default methods getParamsId return this route params id 在组件中使用 route 会导致与其相应路由的高
flex 弹性盒子布局多行最后一行左对齐的两种解决办法

首先是这样事儿的如下图我们最终想要的效果应该是平均分布和最后一排依次从左向右排列那么第一种解决方式外层容器给弹性盒子布局且给外层盒子一个after 伪类元素 wrap width 200px height 200px displ
HAL库中HAL_UART_Transmit函数 Timeout的意义--串口发送数据的计算

HAL StatusTypeDef HAL UART Transmit UART HandleTypeDef huart uint8 t pData uint16 t Size uint32 t Timeout 这个是超时在设置的这个时间
国债期货合约代码是什么字母

国债期货合约代码是什么字母二债代码TS 合约标的是面值为万元人民币票面利率为3 的名义中短期国债五债代码TF 合约标的是面值为万元人民币票面利率为3 的名义中期国债十债代码T 拓展资料一期货交易就是赚取差价期货交易实际
Matlab中绘制Bode图与单位阶跃响应图

假设传递函数方程为分析k分别为4 1 0 5时bode图和阶跃响应的不同 gt gt w 2 pi 50 gt gt num1 0 5 w 1 0 gt gt den1 1 0 5 w w 2 gt gt num2 1 w 1 0 gt
python爬虫——爬取快读小说app

1 爬取结果 csv文件出现了有两个表头不明所以无关大雅 2 使用fiddler4进行抓包通过观察url 我们不难发现其中的规律要实现进行分类抓取需要更改url第一个数字如下 https sc canrike com Cate
用16进制的格式查看文件

od Ax tx1 filename
上传码云_vue-egg 简单的图片上传

源码已上传码云小朋友 vue egg 简单的图片上传知乎视频 www zhihu com VSCode终端不能使用命令惟愿安好ly 博客园 www cnblogs com 上传用的是 iview design 的 Upload 组件
Conda常见命令总结

以下是常见的conda命令列表 conda create 创建新的虚拟环境安装指定的包 conda activate 激活虚拟环境 conda deactivate 停用当前虚拟环境 conda list 列出已安装的包 conda se
能连蓝牙键盘吗_300多的小键盘，颜值很能打，GANSS ALT71蓝牙双模机械键盘很香...

关于键盘配列你是60 70 80 90 还是100 党反正上述这些配列差不多我都集齐了 GANSS ALT71正好填补了70 的空缺这次分享录制了视频 wifi足的可以看这个更换封面 05 58 视频尚未发布暂时无法播放 wifi
启动hadoop时候报错：localhost: ssh: Could not resolve hostname localhost: Temporary failure in name resolut...

这个错误是由于配置文件没有配置好解决方案如下 1 打开profile文件 vim etc profile 2 在文件最后加入的内容应该如下高亮的两句一般是大家缺少的 export JAVA HOME usr java jdk expor
EasyPoi导入Excel中的图片，空指针异常

官方文档 1 1 介绍 Powered by MinDoc 导入easypoi依赖版本可以选择最新的
element table显示滚动条

1 tableX为要显示滚动条的类名 2 显示横向滚动条 3 tableX el table scrollable x el table body wrapper 4 padding 0 0 5px 0 5 margin 0 0 5px 0
【最新】手把手教你在VMware中安装Ubuntu虚拟机

手把手教你在Vmware中安装Ubuntu虚拟机一下载VMware和Ubuntu系统官方镜像 1 下载VMware 2 下载Ubuntu系统官方镜像二安装VMware和Ubuntu虚拟机 1 安装VMware 2 安装Ubuntu镜
电源学习总结（二）——线性稳压主要特点及原理

文章目录主要特点内部结构常见的三端线性稳压 AMS1117 主要特点线性稳压最为突出的优点主要有成本低噪声低体积小由于线性稳压结构简单生产相对容易因此其生产成本可以很低同时其需要的外围器件也很少一般只需要在输入端和输出
【Python】教你写一个一键上传git的脚本（打包成exe）

本篇博客来教你用Python写一个简单的git自动上传脚本前言为什么需要一个这样的东西有的时候我的学习代码其实没啥好commit的写一个自动上传的脚本就可以自动执行完所有的命令而不需要自己手动进行git三板斧操作项目代码已开
unplugin-vue-components 源码原理分析

unplugin vue components 是一款按需自动导入Vue组件的库支持 Vue2 和 Vue3 同时支持组件和指令使用此插件库后不再需要手动导入组件插件会自动识别按需导入组件以及对应样式我们只需要像全局组件那样使用即
【笔记】SemGCN

一论文总结 1 1 核心贡献提出了一种改进的图卷积操作称为语义图卷积 SemGConv 它源自cnn 其关键思想是学习图中暗示的边的信道权值然后将它们与核矩阵结合起来这大大提高了图卷积的能力其次我们引入了SemGCN 其中Se