PyTorch：用于训练和测试/验证的不同前向方法

2023-12-22

我目前正在尝试延长a model https://github.com/microsoft/MASS这是基于 FairSeq/PyTorch 的。在训练过程中，我需要训练两个编码器：一个使用目标样本，另一个使用源样本。

所以当前的forward函数看起来像这样：

def forward(self, src_tokens=None, src_lengths=None, prev_output_tokens=None, **kwargs):
    encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)
    decoder_out = self.decoder(prev_output_tokens, encoder_out=encoder_out, **kwargs)
    return decoder_out

并以此为基础这个想法 https://github.com/golsun/SpaceFusion我想要这样的东西：

def forward_test(self, src_tokens=None, src_lengths=None, prev_output_tokens=None, **kwargs):
    encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)
    decoder_out = self.decoder(prev_output_tokens, encoder_out=encoder_out, **kwargs)
    return decoder_out

def forward_train(self, src_tokens=None, src_lengths=None, prev_output_tokens=None, **kwargs):
    encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)
    autoencoder_out = self.encoder(tgt_tokens, src_lengths=src_lengths, **kwargs)
    concat = some_concatination_func(encoder_out, autoencoder_out)
    decoder_out = self.decoder(prev_output_tokens, encoder_out=concat, **kwargs)
    return decoder_out

有什么办法可以做到这一点吗？

编辑：这些是我所面临的限制，因为我需要扩展FairseqEncoderDecoder模型:

@register_model('transformer_mass')
class TransformerMASSModel(FairseqEncoderDecoderModel):
    def __init__(self, encoder, decoder):
        super().__init__(encoder, decoder)

编辑2：传递给 Fairseq 中的前向函数的参数可以通过实现您自己的标准来更改，请参见示例交叉熵准则 https://github.com/pytorch/fairseq/blob/master/fairseq/criterions/cross_entropy.py#L28, where sample['net_input']被传递到__call__模型的函数，它调用forward method.

首先你应该总是使用和定义forward不是您调用的其他方法torch.nn.Module实例。

绝对不能超载eval()如图所示trsvchn https://stackoverflow.com/a/58659193/10886420因为它是 PyTorch 定义的评估方法（see here https://pytorch.org/docs/stable/nn.html#torch.nn.Module.eval).此方法允许将模型内的层置于评估模式（例如，对层的特定更改，例如推理模式）Dropout or BatchNorm).

此外，你应该用__call__魔法方法。为什么？因为钩子和其他 PyTorch 特定的东西是以这种方式正确注册的。

其次，不要使用一些外来的东西。mode字符串变量，如建议的那样@阿南特·米塔尔 https://stackoverflow.com/questions/58655207/pytorch-different-forward-methods-for-train-and-test-validation/58655415#58655415。就是这样trainPyTorch中的变量是for，通过它来区分模型是否在eval模式或train mode.

话虽这么说，你最好这样做：

import torch


class Network(torch.nn.Module):
    def __init__(self):
        super().__init__()
        ...

    # You could split it into two functions but both should be called by forward
    def forward(
        self, src_tokens=None, src_lengths=None, prev_output_tokens=None, **kwargs
    ):
        encoder_out = self.encoder(src_tokens, src_lengths=src_lengths, **kwargs)
        if self.train:
            return self.decoder(prev_output_tokens, encoder_out=encoder_out, **kwargs)
        autoencoder_out = self.encoder(tgt_tokens, src_lengths=src_lengths, **kwargs)
        concat = some_concatination_func(encoder_out, autoencoder_out)
        return self.decoder(prev_output_tokens, encoder_out=concat, **kwargs)

您可以（并且可以说应该）将上述内容拆分为两个单独的方法，但这还不错，因为该函数相当短且可读。如果可能的话，只要坚持 PyTorch 的处理方式即可，而不是一些临时解决方案。不，反向传播不会有问题，为什么会有问题呢？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PyTorch：用于训练和测试/验证的不同前向方法的相关文章

Django Rest Framework——没有名为rest_framework的模块

我已经使用安装了 django rest 框架pip install djangorestframework但当我运行 python3 manage py sycndb 时我仍然收到此错误导入错误没有名为 rest framework
Spyder 未检测到导入的 python 文件中的更改

我正在使用 Spyder 3 2 4 Python 3 6 Spyder 不会检测导入的 python 文件中的更改例如测试2 py def func return 5 测试1 py import test2 a test2 func
如何调整 Seaborn 箱线图中胡须的大小？

我想在下面的箱线图中使须线更宽 import pandas as pd import numpy as np import seaborn as sns import matplotlib pyplot as plt data pd Dat
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
如何在PIL中从ImageDraw中获取图像？

我在我的项目中使用 PIL 并且有 ImageDraw 对象我想获取在 ImageDraw 对象上绘制的图像我如何获取图像这是你想要的 from PIL import Image ImageDraw im Image new RGBA
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
父子进程之间的通信

我正在尝试创建一个具有一个或多个子进程的 Python 3 程序父进程生成子进程然后继续处理自己的业务有时我想向特定的子进程发送一条消息由其捕获该消息并采取行动此外子进程在等待消息时需要处于非锁定状态它将运行自己的循环来维护服
使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
当变量取特定值时如何使 PyCharm 中断？

我有一本大字典其中一些元素偶尔会出现非法值我想弄清楚非法值从何而来 PyCharm 应该不断监视我的字典的值一旦它们中的任何一个取了非法值它就应该中断并让我检查程序的状态我知道我可以通过为我的字典创建一个 getter sette
PyCharm 表示 readline 导入未被使用

我有这个代码 while True cmd input gt if cmd exit break 但我想实现高级文本输入功能例如命令历史记录因此我导入了 readline 模块导入 readline 模块甚至不使用它将解锁这些功能
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
重命名 python 子包，将旧名称标记为已弃用

我有一个 python 包它具有以下目录结构 package init py subpackage A init py moduleA py moduleB py 现在我想更改名称subpackage A to subpackage B同
文件“PyInstaller/loader/pyimod03_importers.py”，第 546 行，在 exec_module 中，ModuleNotFoundError：没有名为“x”的模块

EDIT 我正在尝试导入algosec models在一个文件里面algobot包裹我尝试添加 hidden import algosec 我还尝试在导入之前添加路径使用sys path append algosec 这是我尝试运行该程
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
如何优化分割重叠范围？

我编写的这个 Python 脚本用于将重叠范围拆分为唯一范围最后一次迭代 https codereview stackexchange com questions 285932 python script to split overlap
如何在 Python 中将 pdf 文件附加到 MIME 电子邮件？

我正在制作一个自动邮件发送程序 Python 3 6 1 用于电子邮件营销我在附加 PDF 文件时遇到问题邮件中的 PDF 文件的文件名和页数是正确的但 PDF 文件始终为空白并且其大小增加我尝试了三种不同的方法其他两种方法不起
小组芹菜链任务

shared task def process record x return 1 2 4 4 5 6 shared task def add pro id return pro id 10 shared task def dmap it
Python SSL X509：KEY_VALUES_MISMATCH

Python HTTPS server from http server import HTTPServer SimpleHTTPRequestHandler import ssl https stackoverflow com a 408

随机推荐

将数据帧分成两部分并使用波形符 ~ 作为变量

我想在 Python 3 中用 Pandas 做 2 个类似的操作一个带波浪号另一个不带波浪号 1 df df df teste isin Place 2 df df df teste isin Place 我尝试将波形符声明为变量这
如果列表中存在某个项目，如何删除该项目？

我正进入状态new tag从表单文本字段self response get new tag and selected tags来自复选框字段 self response get all selected tags 我这样组合它们 tag
将输入类型文本转换为密码[重复]

这个问题在这里已经有答案了我想在点击时将输入类型更改为密码我试过这个
PHP：如果未设置则分配 null？

PHP 中是否有任何类型的 if not empty otherwise assign null 函数我正在寻找一种更清洁的替代方案 variable empty item item NULL 如果我可以指定默认值也会很方便例如有时我
使用 PHP 过滤 XML 文件

我想加载 XML 文件然后删除所有
任务“:bootRun”执行失败。 > 进程“命令”C:\Program Files\Java\jdk-9.0.4\bin\java.exe'' 已完成，退出值非零 1

我一直在到处寻找如何解决这个问题我发现了类似的问题并尝试了一切但没有任何帮助重新安装 Java 和 gradle 没有帮助这里是错误的堆栈跟踪 Task bootRun Spring Boot
mongo 的简短用户友好 ID

我正在创建一个实时股票交易系统并希望为用户提供一种人类可读用户友好的方式来参考他们的订单例如 ID 的长度应为 8 个字符并且仅包含大写字符例如Z9CFL8BA 由于显而易见的原因 id 在系统中需要是唯一的我使用 MongoD
通过 emacs -nw 打开多个垂直分割的文件

Using emacs nw file1 file2我可以一次打开多个文件然而 emacs 将以水平分割方式打开它们有没有办法将默认分割行为设置为垂直我看过切换窗口分割 http www emacswiki org emacs To
Micronaut：如何获取 Prometheus 格式的指标？

我应该如何配置 Micronaut 才能获得 metrics普罗米修斯格式 Used 微型机器人1 0 0 M3 Now micronaut metrics enabled true export prometheus enabled tr
如何在swift中编写通用工厂方法？

我不知道如何如果可能的话编写调用从常见已知基类继承的泛型类型的构造函数的方法以创建 T 的一些实例而无需求助于显式工厂函数即使用所有花哨的功能由类型推断提供在操场上运行的示例 Let there be classes MyPo
JavaFx PieChart：控制大小

我是 JavaFX 新手我正在调整用 JavaFX 开发的应用程序该应用程序使用大量彼此相邻的饼图所有饼图都作为同一饼图的子项HBox 这些图表没有相同数量的类别并且由于某种原因其中一些类别变得比其他类别更大有什么办法可以控制它
WebApi 上的 AngularJS 和 OWIN 身份验证

我已经在我的 WebApi 上实现了基于 OWIN 令牌的身份验证我还通过调用启用了 CORSapp UseCors Microsoft Owin Cors CorsOptions AllowAll 我可以从 angularjs Web
`create_task()` 中的任务何时在 asyncio 中执行？

在下面的代码中 import asyncio async def task func print in task func return the result async def main loop print creating task
Sublime Text多光标快捷方式

我是 emacs 的忠实用户我非常喜欢这样一个事实无需使用鼠标即可完成所有操作我认为这个功能让 emacs 非常高效我也是 Linux 上的 Sublime Text 的忠实粉丝我喜欢您启用的多光标功能Ctrl left mous
动态父浮动div 100%高度没有绝对位置？

我在这里读了很多书但找不到我的答案的解决方案我有一个容器 div 有多个浮动的左 div 如下面的 html 所示 div class catbg0 div class catb1 div div class catb2 Board N
如何使用 Excel 公式仅删除前导和尾随空格，同时在单词之间保留空格？

在Excel中 TRIM 将删除文本前后的所有空格同时还会删除单词之间的任何重复空格是否有一个公式或其组合可以起到相同的作用TRIM 但在单词之间保留空格在下面的示例中我正在寻找一个可以实现虚构公式 WXYZ 的公式 TRIM Om
单击“查看更多”按钮后文本视图会展开或收缩

在我的 tableView 单元格中我有一个 textView 我通过 JSON 获取其字符串并动态更新单元格高度如下所示 func tableView tableView UITableView heightForRowAt inde
搜索 NSString 是否包含值

我有一些由几个字符构造的字符串值我想检查它们是否存在于另一个 NSString 中不区分大小写和空格示例代码 NSString me toBe NSString target abcdetoBe than check if me is
定义 JavaScript 源文件的字符编码

我想向我的德国用户打印一条状态消息其中包含变音符号我还希望它们位于源文件中而不必仅为消息下载和解析一些额外的文件但是我似乎找不到一种方法来定义 JS 源文件的编码有没有类似HTML的东西http equiv 或者我应该在 HTT
PyTorch：用于训练和测试/验证的不同前向方法

我目前正在尝试延长a model https github com microsoft MASS这是基于 FairSeq PyTorch 的在训练过程中我需要训练两个编码器一个使用目标样本另一个使用源样本所以当前的forward函

PyTorch：用于训练和测试/验证的不同前向方法

PyTorch：用于训练和测试/验证的不同前向方法 的相关文章

随机推荐

热门标签

PyTorch：用于训练和测试/验证的不同前向方法的相关文章