pytorch混合常量、变量

2023-11-16

有矩阵 X ∈ R n × d X\in\R^{n\times d} X∈Rn×d 和指示向量 m ∈ { 0 , 1 } n m\in\{0,1\}^n m∈{0,1}n，其中 m i = 1 m_i=1 mi=1 指明的行是常量，不可训练，即 requires_grad=False；而 m i = 0 m_i=0 mi=0 对应的行是 learnable 的变量，requires_grad=True（如缺失数据）。此处为此实现一个 wrapper 类，使其调用类似一般 tensor。

preliminaries

验证：constant 和 variable 放在同一个 tensor 里，能否正常计算梯度，即 constant 无梯度、variable 有梯度。
两种写法：concatenating、预分配空间 + copying。
结论：两种都可以。

import torch


X = torch.arange(12).view(4, 3).float()
print(X)
mask = torch.tensor([1, 0, 1, 0]).int()
n_var = (0 == mask).sum()

# 常量部分
X_const = X[mask > 0]
print(X_const)

# 变量部分
X_var = torch.normal(0, 1, size=[n_var, X.size(1)])
X_var.requires_grad_(True)
print(X_var)


print("写法 1. grad_fn=<CatBackward>")
ic, ip = 0, 0
X_mix = []
for i in range(X.size(0)):
    if mask[i] > 0:
        X_mix.append(X_const[ic:ic+1])
        ic += 1
    else:
        X_mix.append(X_var[ip:ip+1])
        ip += 1
X_mix = torch.cat(X_mix, dim=0)
print(X_mix)


"""print("写法 2. grad_fn=<CopySlices>")
ic, ip = 0, 0
X_mix = torch.zeros_like(X)
for i in range(X.size(0)):
    if mask[i] > 0:
        X_mix[i] = X_const[ic:ic+1]
        ic += 1
    else:
        X_mix[i] = X_var[ip:ip+1]
        ip += 1
print(X_mix)
"""


loss = ((X - X_mix) ** 2).sum()
loss.backward()
print("--- grad ---")
print(X_const.grad)
print(X_var.grad)
print("--- update ---")
X_var.data -= X_var.grad
print(X_var)

wrapper class & sample

MixVar 是 wrapper 类
一个 reconstruction 的例子

import math
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.parameter import Parameter


class MixVar(nn.Module):
    """mixture of constants & trainable variables"""

    def __init__(self, X, const_mask, init_val=None, process_fn=None):
        """
        Input:
            X: [n, d], FULL matrix including both constants & (placeholders of) variables
            const_mask: [n], in {0, 1}, indicating whether the i-th item is constant
            init_val: constant initializer of variables
            process_fn: something to do before returning the var,
                e.g. normalization, activation, etc.
        """
        super(MixVar, self).__init__()
        self.X = X
        self.const_mask = const_mask
        self.process_fn = process_fn
        self.full_indices = np.arange(X.size(0))

        assert X.size(0) == const_mask.size(0)
        n = X.size(0)  # 总数据量，包括 constant 和 variable
        n_const = const_mask.sum()  # constant 数
        n_var = n - n_const  # variable 数
        assert n_var > 0, "* constant only, no need to use this class"
        size = [n_var, X.size(1)]

        # variable 另外放在 `self.weight` 里
        # 注意此时其 indexing 和 constant 已**不同**
        # 所以需要下面的 id map
        if init_val is None:
            self.weight = Parameter(torch.Tensor(*size))
            self.reset_parameters()
        else:
            self.weight = Parameter(init_val * torch.ones(*size, dtype=torch.float))

        # map the full id in `X` to the relative one in `weight`
        _cnt = 0
        self.id_map = {}
        for i in range(n):
            if 0 == const_mask[i]:
                self.id_map[i] = _cnt
                _cnt += 1
        assert _cnt == n_var

    def reset_parameters(self):
        nn.init.kaiming_uniform_(self.weight, a=math.sqrt(5))

    def forward(self, index=None):
        """MUST use this function for slicing instead of slicing manually"""
        if index is None:
            index = self.full_indices
        res = torch.zeros(index.shape[0], self.X.size(1),
            dtype=self.X.dtype).to(self.weight.device)
        for i in range(index.shape[0]):
            _idx = index[i]
            if self.const_mask[_idx] > 0:
                res[i] = self.X[_idx].to(self.weight.device)
            else:
                res[i] = self.weight[self.id_map[_idx]]

        if self.process_fn:
            res = self.process_fn(res)
        return res

    def extra_repr(self):
        return 'size={}'.format(self.X.size())


# 一个使用例子
X = torch.arange(12).view(6, 2).float()
print("original:\n", X)
mask = torch.tensor([1, 0, 1, 0, 0, 1]).int()
X_mix = MixVar(X, mask)

indices = np.arange(X.size(0))
optimizer = torch.optim.SGD(X_mix.parameters(), lr=0.1)
batch_size = 2
for epoch in range(100):
    for i in range(0, X.size(0), batch_size):
        index = indices[i: i + batch_size]
        loss = F.mse_loss(X[index], X_mix(index))
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()


print("reconstructed:\n", X_mix().data)

输出

original:
tensor([[ 0.,  1.],
        [ 2.,  3.],
        [ 4.,  5.],
        [ 6.,  7.],
        [ 8.,  9.],
        [10., 11.]])
reconstructed:
tensor([[ 0.0000,  1.0000],
        [ 1.9914,  2.9829],
        [ 4.0000,  5.0000],
        [ 5.9679,  6.9619],
        [ 7.9526,  8.9491],
        [10.0000, 11.0000]])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

Pytorch

python

梯度

Autograd

pytorch混合常量、变量的相关文章

并行 dask for 循环比常规循环慢？

如果我尝试使用 dask 并行化 for 循环它最终会比常规版本执行得慢基本上我只是按照 dask 教程中的介绍性示例进行操作但由于某种原因它在我这边失败了我究竟做错了什么 In 1 import numpy as np from
如何编写嵌套的 __init__.py 文件

我正在努力解决嵌套问题 init py在我正在编写的Python包中该包具有以下架构 module init py submodule1 init py source py submodule2 init py source py sub
如何在多进程系统中实现锁定？

我们正在并行运行许多詹金斯项目我们使用 python 并且选择使用 pyenv 管理虚拟环境不幸的是 pyenv 有一个众所周知的竞争条件 https github com yyuu pyenv issues 174 为了解决这个问题
如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

您好不是每次都这样但有时在尝试访问 LSE 代码时我会收到每一个烦人的 HTTP 错误 403 禁止消息任何人都知道我如何仅使用标准 python 模块来克服这个问题遗憾的是没有漂亮的汤 import urllib request
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的

随机推荐

聊一聊基础的CPU寄存器~

寄存器 CPU内部的存储单元用于存放从内存读取而来的数据包括指令和CPU运算的中间结果使用寄存器来临时存放数据而不直接操作内存原因如下 CPU的工作原理决定了有些操作只能在CPU内部进行 CPU读写寄存器的速度比读写内存的速度要快很
前端开发实习总结参考范文（合集）

前端开发实习总结篇一今天就简单聊聊上面的Struts Spring Hibernate吧 Struts 代表表示层 Spring代表业务逻辑层 Hibernate则代表持久层他们是目前在Java Web编程开发中用得最多的框架其实
使用hutool读取excel多sheet文件

首先要使用hutool 可以加载maven
华为手机一直android,华为手机内存不够用？这5个文件夹常清理，可以腾出近10个G内存...

华为手机的用户量在急剧增加当然随时而来的就是许多使用问题用户反馈最多的就是手机运行问题手机使用时间一长就会卡顿尤其是处理紧急问题时遇到手机怠工真是没救了手机卡顿很大程度上是内存问题平时使用不当造成手机内垃圾信息过多占用手
R语言第四章初级绘图（5）课后练习，保存图形，layout函数，绘制组合图形，添加图例

关注公众号凡花花的小窝收获更多的考研计算机专业编程相关的资料添加图例当图形中包含的数据不止一组时图例可以帮助你辨别出每个条形扇形区域或折线各代表哪一类数据此时可以使用legend函数来在画布中添加图例对图形进行相应说明 le
nginx root 和alise

Nginx静态服务配置详解root和alias指令简书 jianshu com 静态文件 Nginx以其高性能著称常用与做前端反向代理服务器同时nginx也是一个高性能的静态文件服务器通常都会把应用的静态文件使用nginx处理配
Android下NestedScrolling机制与CoordinatorLayout之源码分析

1 CoordinatorLayout依赖库旧版本导入CoordinatorLayout依赖 implementation com android support design 28 0 0 升级Android X后的依赖 impleme
STUN和TURN技术浅析

原文地址 http www h3c com cn MiniSite Technology Circle Net Reptile The Five Home Catalog 201206 747038 97665 0 htm 在现实Inter
pytorch中attention的两种实现方式

class AttnDecoderRNN nn Module def init self hidden size output size dropout p 0 1 max length MAX LENGTH super AttnDecod
XMind2TestCase思维导图测试用例转Excel使用方法

很多测试工程师习惯于用思维导图写测试用例结构会比较清晰但是我们通常把思维导图的用例整理至excel或者导入其他工具如禅道 testlink tapd来执行用例或存档如果再逐条把思维导图转为excel会比较浪费时间有没有工具可以把思维
数字高程信息30m分辨率SRTM DEM数据下载与拼接（ENVI）

数据下载本次下载的数据是SRTMDEM数据该数据分辨率为30m 可以到官网下载官网地址 http gdex cr usgs gov gdex 官网数据下载需要注册信息如果部分区域可从网盘下载网盘地址链接 https pan bai
LeetCode第26题，删除排序数组中的重复项

LeetCode 高频题数组篇 26 删除排序数组中的重复项大家好我是Panda 今天分享的是LeetCode第26题删除排序数组中的重复项力扣题目链接 LeetCode 26 题目描述给你一个升序排列的数组 nums 请你
layui后台表格的增删改查

完整案例 github自己下下来就是个很一般的ssm项目但基本功能都有已部署到云平台后台管理员地址暑假时候没做完凑合看吧账号 17679210786 密码 123456 前后台都是前台可以自己用手机号注册别删除原来的内容先
攻防世界-MISC-练习区-12（功夫再高也怕菜刀）

题目描述菜狗决定用菜刀和菜鸡决一死战这是攻防世界里面训练区的一道流量分析题用wireshark 打开流量包然后一级搜索http 二级用分组字节流搜索flag 按CTRL F 并找到no 1367 在Line based text d
移动NB模块M5311（lwm2m协议登录详解）

身为一个通信专业大三狗第一次和别人对接项目今天属于我的功能总算是结束了接下来就是等待联调心情愉悦首先NB是什么这个我就不详细的解释了我相信大多数人看这篇文章是以实践为开始的那么多余的就不说了接下来说具体流程首先M5311模
确实有必要好好学英语

前言工作已经6年多了最近忽然明悟一些道理零度觉得分享出来可能可以帮助一些人这些道理可能很多成功的牛逼的人早就知道这些了随着技术的迭代更新越来越快新技术不断产生很多很多人都在焦虑但是有一个道理的确是这样的你不学习未来终将
【微信小程序】项目开发-----百度翻译API接口开发微信翻译小程序

开发环境微信开发者工具 V1 02 1902010版本以上开发语言 JavaSript语言 HTML语言 API接口百度翻译开发平台开放接口界面预览开发基础配置 1 app js App onLaunch function 展示
AVPlay播放视频

property nonatomic retain nullable AVPlayer player NSString urlStr NSBundle mainBundle pathForResource demo mp4 ofType n
将灰度图片转成三通道（RGB）图片（MatLab）

运行程序报错 RuntimeError output with shape 1 224 224 doesn t match the broadcast shape 3 224 224 报错原因原模型输入的图片为RGB三通道我输入的为单通
pytorch混合常量、变量

有矩阵 X R n d X in R n times d

pytorch混合常量、变量

preliminaries

wrapper class & sample

pytorch混合常量、变量 的相关文章

随机推荐

热门标签

pytorch混合常量、变量的相关文章