detach
官网解释:
![在这里插入图片描述](https://img-blog.csdnimg.cn/dc9716cb62b44354ba8b3917f9c3d419.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAamp3X3p5Zng=,size_20,color_FFFFFF,t_70,g_se,x_16)
实验结论
![在这里插入图片描述](https://img-blog.csdnimg.cn/703a752a6821468386762d95de6053bb.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAamp3X3p5Zng=,size_20,color_FFFFFF,t_70,g_se,x_16)
import torch
x = torch.arange(4.0)
x.requires_grad_(True) # 等价于 `x = torch.arange(4.0, requires_grad=True)`
y = x * x
# detach作用是:将u作为常数处理。即将y.detach的返回值作为常数而不再是关于x的函数
u = y.detach()
z = u * x
z.sum().backward() # 为啥不直接求导原因是在机器学习或深度学习中一般不用向量(矩阵)求导,
# 而是用标量求导,所以就先求和在求导
# backward 是计算梯度并存入x.grad中
print(x.grad == u)
x.grad中保存的是求导结果
输出结果:
tensor([True, True, True, True])
numel的用法
![在这里插入图片描述](https://img-blog.csdnimg.cn/7d1dfed386e04ad48533d1ff5081195f.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAamp3X3p5Zng=,size_20,color_FFFFFF,t_70,g_se,x_16)
retain_graph
每次 backward() 时,默认会把整个计算图free掉。一般情况下是每次迭代,只需一次 forward() 和一次 backward() ,前向运算forward() 和反向传播backward()是成对存在的,一般一次backward()也是够用的,但是不排除,由于自定义loss等的复杂性,需要一次forward(),多个不同loss的backward()来累积同一个网络的grad,来更新参数。于是,若在当前backward()后,不执行forward() 而是执行另一个backward(),需要在当前backward()时,指定保留计算图,backward(retain_graph=true)
repeat
![在这里插入图片描述](https://img-blog.csdnimg.cn/ccfa1cb2c38b44058a9371a1b351fccd.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAamp3X3p5Zng=,size_20,color_FFFFFF,t_70,g_se,x_16)
![在这里插入图片描述](https://img-blog.csdnimg.cn/ef01d767d9354b528715455bda2115ca.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAamp3X3p5Zng=,size_20,color_FFFFFF,t_70,g_se,x_16)
repeat_interleave
![在这里插入图片描述](https://img-blog.csdnimg.cn/fec116a4a84643f3b23751c484de1e6d.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAamp3X3p5Zng=,size_20,color_FFFFFF,t_70,g_se,x_16)