Tensorflow：如何在 python 中编写带有梯度的操作？

2023-12-14

我想用 python 编写一个 TensorFlow 操作，但我希望它是可微的（能够计算梯度）。

这个问题询问如何在 python 中编写操作，答案建议使用 py_func （没有梯度）：Tensorflow：用 Python 编写操作

TF 文档描述了如何仅从 C++ 代码开始添加操作：https://www.tensorflow.org/versions/r0.10/how_tos/adding_an_op/index.html

就我而言，我正在进行原型设计，因此我不关心它是否在 GPU 上运行，也不关心它是否可以从 TF python API 以外的任何地方使用。

是的，正如 @Yaroslav 的回答中提到的，这是可能的，关键是他引用的链接：here and here。我想通过举一个具体的例子来详细阐述这个答案。

模运算：让我们在tensorflow中实现逐元素求模运算（它已经存在，但它的梯度尚未定义，但对于本示例，我们将从头开始实现它）。

numpy 函数：第一步是定义我们想要对 numpy 数组执行的操作。逐元素求模运算已经在 numpy 中实现，因此很简单：

import numpy as np
def np_mod(x,y):
    return (x % y).astype(np.float32)

原因是.astype(np.float32)是因为默认情况下，tensorflow 采用 float32 类型，如果你给它 float64 （numpy 默认值），它会抱怨。

Gradient Function: Next we need to define the gradient function for our opperation for each input of the opperation as tensorflow function. The function needs to take a very specific form. It need to take the tensorflow representation of the opperation op and the gradient of the output grad and say how to propagate the gradients. In our case, the gradients of the mod opperation are easy, the derivative is 1 with respect to the first argument and with respect to the second (almost everywhere, and infinite at a finite number of spots, but let's ignore that, see https://math.stackexchange.com/questions/1849280/derivative-of-remainder-function-wrt-denominator for details). So we have

def modgrad(op, grad):
    x = op.inputs[0] # the first argument (normally you need those to calculate the gradient, like the gradient of x^2 is 2x. )
    y = op.inputs[1] # the second argument

    return grad * 1, grad * tf.neg(tf.floordiv(x, y)) #the propagated gradient with respect to the first and second argument respectively

grad 函数需要返回一个 n 元组，其中 n 是操作的参数数量。请注意，我们需要返回输入的张量流函数。

制作带有梯度的 TF 函数：正如上面提到的来源中所解释的，有一个 hack 可以使用以下方法定义函数的梯度tf.RegisterGradient [doc] and tf.Graph.gradient_override_map [doc].

复制代码来自harpone我们可以修改tf.py_func函数使其同时定义渐变：

import tensorflow as tf

def py_func(func, inp, Tout, stateful=True, name=None, grad=None):

    # Need to generate a unique name to avoid duplicates:
    rnd_name = 'PyFuncGrad' + str(np.random.randint(0, 1E+8))

    tf.RegisterGradient(rnd_name)(grad)  # see _MySquareGrad for grad example
    g = tf.get_default_graph()
    with g.gradient_override_map({"PyFunc": rnd_name}):
        return tf.py_func(func, inp, Tout, stateful=stateful, name=name)

The stateful选项是告诉tensorflow该函数是否总是为相同的输入提供相同的输出（stateful = False），在这种情况下，tensorflow可以简单地表示张量流图，这是我们的情况，并且在大多数情况下可能都是这种情况。

将它们组合在一起：现在我们已经有了所有的部分，我们可以将它们组合在一起：

from tensorflow.python.framework import ops

def tf_mod(x,y, name=None):

    with ops.op_scope([x,y], name, "mod") as name:
        z = py_func(np_mod,
                        [x,y],
                        [tf.float32],
                        name=name,
                        grad=modgrad)  # <-- here's the call to the gradient
        return z[0]

tf.py_func作用于张量列表（并返回张量列表），这就是为什么我们有[x,y]（并返回z[0]）。现在我们完成了。我们可以测试它。

Test:

with tf.Session() as sess:

    x = tf.constant([0.3,0.7,1.2,1.7])
    y = tf.constant([0.2,0.5,1.0,2.9])
    z = tf_mod(x,y)
    gr = tf.gradients(z, [x,y])
    tf.initialize_all_variables().run()

    print(x.eval(), y.eval(),z.eval(), gr[0].eval(), gr[1].eval())

[ 0.30000001 0.69999999 1.20000005 1.70000005] [ 0.2 0.5 1. 2.9000001] [ 0.10000001 0.19999999 0.20000005 1.70000005] [ 1. 1. 1.1.] [-1。 -1。 -1。 0.]

Success!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow：如何在 python 中编写带有梯度的操作？的相关文章

上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4

随机推荐

我可以在 tomcat 中放置手动提取的战争而不是deployOnStartup = true吗？ tomcat中已经解压war文件是否正确

我在 tomcat server xml 中添加了deployOnStartup true 但由于安全问题建议将deployOnStartup false 因为保持它为true会允许部署恶意或未经测试的应用程序因此应该禁用它将提取的
如何阻止 Windows 窗体中重写的 WndProc 函数中的双击？

我在 Windows 窗体中创建了一个窗体可以将其拖动到任意位置我通过重写 WndProc 函数来实现它该函数反过来修改每次单击因为它是标题栏单击 found at http stackoverflow com questions
混淆测试 fftw3 - 泊松方程 2d 测试

我无法解释理解以下现象为了测试 fftw3 我使用 2d 泊松测试用例 laplacian f x y g x y 具有周期性边界条件对方程进行傅里叶变换后我们得到 F kx ky G kx ky kx ky 1 如果我取 g x
在 Windows 8.1 存储 XAML 中添加新项目后，ListView.ContainerFromItem 返回 null

我有一个简单的 ListView 没有项目模板和 SelectionChanged 事件设置
PHP MYSQLI编写语句登录并检查用户状态

我正在学习使用一些基于 mysqli 的视频教程制作网站我开始知道使用准备好的语句更安全我正在尝试创建一个登录系统这是我到目前为止所做的这段代码帮助我完全登录成功
使用 Cloud Functions 在 Google Cloud Platform 中设置环境变量

我正在关注在这里指导并且似乎无法让我的Python应用程序在GCP上很好地部署来读取我在Cloud Functions中创建的环境变量该函数的 REST 端点可以很好地返回环境变量因为我已经在函数中编写了 Python 方法来执行此
在访问选项卡之前，另一个选项卡中的传单未使用 leafletproxy 进行更新

我正在制作一个使用闪亮的应用程序该应用程序使用多个选项卡在一个选项卡不是起始选项卡上我显示一张传单地图该地图由不同选项卡上的小部件控制问题是如果我更改一个选项卡上的输入而不先访问地图然后访问地图则地图不会更新但是在
vue-router 与 laravel 路由结合

我已成功设置 vue router 但将其与我的 laravel 5 3 路由混合时遇到一些问题我有一个回家的 php 路线 Route get array as gt home uses gt HomeController showWe
Maven：如何检查工件是否存在？

如何从 Mojo 内部检查本地存储库中是否已存在工件我正在将大型二进制文件安装到本地 Maven 存储库中在尝试下载它们之前我需要知道它们是否已经存在在以下人员的帮助下解决了http docs codehaus org display
拦截 Spring MVC 3 中的视图/响应

我是 Spring MVC 3 的新手我了解基本概念我能够做简单的事情例如创建控制器服务和视图然而我还没有涉足更高级的领域因此如果这个问题看起来很愚蠢或不可能我深表歉意我想知道是否有一种方法可以拦截视图和或响应并在将
替换 fflush(stdin)

我有下面的代码 fflush stdin print Enter y n scanf c a 在这里它在提供输入之前退出看起来问题是因为它没有刷新可能包含一些垃圾字符的输入缓冲区是否有刷新 stdin 的替代方案此代码片段在 Sol
Boto3获取EC2实例的卷

我正在尝试使用 boto 3 获取 aws 实例的卷 ID 列表我正在获取某种集合管理器但我不知道如何获取内部数据 import boto3 ec2 boto3 resource ec2 region name us west 2 in
如何通过迭代地从字符串中删除所有出现的某些指定单词来最小化字符串的长度

这个问题出现在一次编程竞赛中但我们仍然不知道如何解决问题给定一个字符串 S 和一个字符串列表 L 我们希望不断删除 L 中可能出现的所有子字符串并且我们必须最小化最终形成的字符串的长度另请注意删除字符串可能会引发更多删除例如
WebDriverException：使用 ChromeDriver Chrome 和 Selenium 与 iframe 内的元素交互时目标框架分离

我使用 Chromedriver 78 0 3904 70 WebDriverException target frame detached exception 已经发生过但在以前版本的 chromedriver 中一切正常现在在我的
HTTP 服务器检测到来自 HTTP 客户端的网络连接中断

我有一个 Web 应用程序在向服务器发出 HTTP 请求后客户端在客户端完全接收到响应之前退出或网络连接中断在这种情况下应用程序的服务器端需要执行一些清理工作 HTTP 协议中是否有内置方法来检测这种情况服务器如何知道客户端是否
SpriteKit：检测完整的节点重叠

我有两个 SKShapeNode 一个具有基于边缘的 SKPhysicsBody 一个基于体积我想检测它们的相交而不发生碰撞我的工作正常当一个方法越过另一个方法时 SKPhysicsContactDelegate 接触方法就会被调用
Android 可点击 TextView，带有提示和图像，用于启动搜索对话框并显示所选结果

我正在寻找一个示例该示例展示了如何实现可单击的文本视图该文本视图启动 Android 默认搜索对话框并显示选定的结果行它应该与 Android 上的 Google 地图操作栏中的搜索字段具有相同的行为和设计例如左侧的放大镜图标如
Java Arraylist 数据提取

您将如何提取数据如下所示我想从这个数组列表中提取 itemname Original number 12 itemname BBQ number 23 itemname CatchUp number 23 这个数组 Original 1
使用 AppleScript 将邮件消息设置为纯文本

我有一个 AppleScript 可以很好地整理信息并创建带有附件的电子邮件我找不到脚本将消息格式设置为接收收件箱所需的纯文本而不是默认的富文本的方法是否有 AppleScript 方法或技巧将消息格式设置为纯文本我在尝
Tensorflow：如何在 python 中编写带有梯度的操作？

我想用 python 编写一个 TensorFlow 操作但我希望它是可微的能够计算梯度这个问题询问如何在 python 中编写操作答案建议使用 py func 没有梯度 Tensorflow 用 Python 编写操作 TF 文档

Tensorflow：如何在 python 中编写带有梯度的操作？

Tensorflow：如何在 python 中编写带有梯度的操作？ 的相关文章

随机推荐

热门标签

Tensorflow：如何在 python 中编写带有梯度的操作？的相关文章