gradientdescent

Caffe：如果内存中只能容纳一小部分，我该怎么办？

我正在尝试训练一个非常大的模型因此我只能将非常小的批量大小放入 GPU 内存中处理小批量的结果非常噪声梯度估计 https stackoverflow com a 33717093 1714410 我该怎么做才能避免这个问题您可以更

machinelearning neuralnetwork deeplearning caffe gradientdescent

逻辑回归中的成本函数给出 NaN 结果

我正在使用批量梯度下降来实现逻辑回归输入样本要分为两类类别为 1 和 0 在训练数据时我使用以下 sigmoid 函数 t 1 1 exp z where z x theta 我正在使用以下成本函数来计算成本以确定何时停止训练 fu

如何在python中实现小批量梯度下降？

我刚刚开始学习深度学习当谈到梯度下降时我发现自己陷入了困境我知道如何实现批量梯度下降我知道它是如何工作的以及小批量和随机梯度下降在理论上是如何工作的但实在无法理解如何用代码实现 import numpy as np X np ar

python machinelearning neuralnetwork deeplearning gradientdescent

梯度下降和牛顿梯度下降有什么区别？

我明白梯度下降的作用基本上它试图通过缓慢地沿着曲线移动来走向局部最优解我想了解普通梯度下降法和牛顿法之间的实际区别是什么我从维基百科上读到了这样一句话牛顿方法使用曲率信息来采取更直接的路线这直观上意味着什么在局部最小值或最大

特征缩放后重新缩放，线性回归

似乎是一个基本问题但我需要在梯度下降线性回归的实现中使用特征缩放获取每个特征值减去平均值然后除以标准差完成后我希望将权重和回归线重新调整为原始数据我只使用一个特征加上 y 轴截距项使用缩放数据获得权重后如何更改权重以便

machinelearning linearregression gradientdescent

如何在keras批量更新期间缩放梯度？

我正在使用标准 keras 模型并且正在批量训练使用train on batch功能现在我想获取批次中每个元素的梯度并对其进行缩放将每个样本梯度与我拥有的样本特定值相乘并且在缩放每个梯度后可以将其求和并用于更新现有权重无论如

python tensorflow Keras gradientdescent

理解 PyTorch 中使用backward()的梯度计算

我试图了解基本的 pytorch autograd 系统 x torch tensor 10 requires grad True print tensor x x backward print gradient x grad output

python Pytorch torch gradientdescent Autograd

pytorch如何设置.requires_grad False

我想冻结我的一些模型按照官方文档 with torch no grad linear nn Linear 1 1 linear eval print linear weight requires grad 但它打印True代替False

python Pytorch gradientdescent

TensorFlow 的 ReluGrad 声称输入不是有限的

我正在尝试 TensorFlow 但遇到了一个奇怪的错误我编辑了深度 MNIST 示例以使用另一组图像算法再次很好地收敛直到迭代 8000 左右此时准确度为 91 它因以下错误而崩溃 tensorflow python framew

gradientdescent tensorflow

如何在训练期间切换 tf.train.Optimizers？

我想从Adam https www tensorflow org api docs python tf train AdamOptimizer to SGD https www tensorflow org api docs python

machinelearning tensorflow gradientdescent

使用 mxnet 的简单梯度下降

我正在尝试使用 MXNet 的梯度下降优化器来最小化函数 Tensorflow 中的等效示例是 import tensorflow as tf x tf Variable 2 name x dtype tf float32 log x tf

python gradientdescent mxnet

RNN 中的梯度累积

在运行大型 RNN 网络时我遇到了一些内存问题 GPU 但我想保持我的批量大小合理所以我想尝试梯度累积在一次性预测输出的网络中这似乎是不言而喻的但在 RNN 中您为每个输入步骤执行多次前向传递因此我担心我的实施无法按预期进行

deeplearning Pytorch recurrentneuralnetwork gradientdescent

使用 NumPy 进行 LMS 批量梯度下降

我正在尝试编写一些非常简单的 LMS 批量梯度下降但我相信我在梯度方面做错了数量级与初始值之间的比率theta的元素有很大不同theta所以要么theta 2 不动例如如果alpha 1e 8 or theta 1 发射例如如果

python NumPy linearregression leastsquares gradientdescent

Caffe 中的“lr_policy”是什么？

我只是想知道如何使用Caffe http caffe berkeleyvision org 为此我只是看看不同的 prototxt示例文件夹中的文件有一个选项我不明白 The learning rate policy lr policy

machinelearning neuralnetwork deeplearning caffe gradientdescent

梯度下降与随机梯度下降算法

我尝试在 MNIST 手写数字数据集包括 60K 训练样本上训练前馈神经网络我每次都迭代所有训练样本表演反向传播对于每个时期的每个这样的样本运行时间当然太长了我运行的算法是否命名为梯度下降我读到对于大型数据集使用随机梯度下降

machinelearning ComputerVision neuralnetwork gradientdescent

求解线性回归的梯度下降法和正规方程法给出了不同的解

我正在研究机器学习问题并希望使用线性回归作为学习算法我实现了两种不同的方法来查找参数theta线性回归模型梯度最速下降和正态方程对于相同的数据他们应该给出大致相等的theta向量然而他们没有 Both theta除了第一个元

MATLAB machinelearning linearregression gradientdescent

为什么epoch太多会导致过拟合？

我正在阅读 Python 深度学习一书读完第 4 章对抗过度拟合后我有两个问题为什么增加纪元数可能会导致过度拟合我知道增加纪元数将涉及更多的梯度下降尝试这会导致过度拟合吗在对抗过拟合的过程中准确率会降低吗我不确定您正在

machinelearning gradientdescent

当我们可以解析线性回归时为什么要梯度下降

在线性回归空间中使用梯度下降有什么好处看起来我们可以用分析方法解决这个问题找到最小成本函数的theta0 n 那么为什么我们仍然想使用梯度下降来做同样的事情呢谢谢当您使用正规方程为了分析求解成本函数您必须计算其中 X 是输入观测

machinelearning linearregression gradientdescent

Tensorflow：如何在 python 中编写带有梯度的操作？

我想用 python 编写一个 TensorFlow 操作但我希望它是可微的能够计算梯度这个问题询问如何在 python 中编写操作答案建议使用 py func 没有梯度 Tensorflow 用 Python 编写操作 TF 文档

python tensorflow neuralnetwork gradientdescent

三元组损失的softmax版本的梯度计算

我一直在尝试在Caffe中实现softmax版本的三元组损失描述于霍弗和艾隆使用三元组网络进行深度度量学习 ICLR 2015 我已经尝试过这个但我发现很难计算梯度因为指数中的 L2 不是平方的有人可以帮我吗使用现有的 caf

neuralnetwork deeplearning caffe gradientdescent Softmax