gradientdescent

在监督分类中，使用partial_fit() 的MLP 比使用fit() 的表现更差

我正在使用的学习数据集是灰度图像flatten让每个像素代表一个单独的样本第二张图像在训练后将被逐像素分类Multilayer perceptron MLP 前一个分类器我遇到的问题是MLP当它一次接收到所有训练数据集时表现更好 fit

梯度下降有哪些替代方案？

梯度下降存在局部极小值问题我们需要运行梯度下降指数次来找到全局最小值谁能告诉我梯度下降的任何替代方案及其优缺点 Thanks See 我的硕士论文 https arxiv org pdf 1707 09725 pdf page 96对于

machinelearning neuralnetwork LogisticRegression gradientdescent

如何在 Caffe 的网络中出现多次损失？

如果我在网络中定义多个损失层从这些末端到网络的开头是否会发生多个反向传播我的意思是他们真的是这样工作的吗假设我有这样的事情 Layer1 Layer2 Layer n Layer cls1 bottom layer n top cl

neuralnetwork deeplearning caffe gradientdescent

随机梯度下降可以与 TensorFlow 一起使用吗？

我设计了一个全连接 MLP 具有 2 个隐藏层和 1 个输出层如果我使用批量或小批量梯度下降我会得到一个很好的学习曲线 But a straight line while performing Stochastic Gradient D

tensorflow gradientdescent

Caffe：如果内存中只能容纳一小部分，我该怎么办？

我正在尝试训练一个非常大的模型因此我只能将非常小的批量大小放入 GPU 内存中处理小批量的结果非常噪声梯度估计 https stackoverflow com a 33717093 1714410 我该怎么做才能避免这个问题您可以更

machinelearning neuralnetwork deeplearning caffe gradientdescent

逻辑回归中的成本函数给出 NaN 结果

我正在使用批量梯度下降来实现逻辑回归输入样本要分为两类类别为 1 和 0 在训练数据时我使用以下 sigmoid 函数 t 1 1 exp z where z x theta 我正在使用以下成本函数来计算成本以确定何时停止训练 fu

如何在python中实现小批量梯度下降？

我刚刚开始学习深度学习当谈到梯度下降时我发现自己陷入了困境我知道如何实现批量梯度下降我知道它是如何工作的以及小批量和随机梯度下降在理论上是如何工作的但实在无法理解如何用代码实现 import numpy as np X np ar

python machinelearning neuralnetwork deeplearning gradientdescent

梯度下降和牛顿梯度下降有什么区别？

我明白梯度下降的作用基本上它试图通过缓慢地沿着曲线移动来走向局部最优解我想了解普通梯度下降法和牛顿法之间的实际区别是什么我从维基百科上读到了这样一句话牛顿方法使用曲率信息来采取更直接的路线这直观上意味着什么在局部最小值或最大

特征缩放后重新缩放，线性回归

似乎是一个基本问题但我需要在梯度下降线性回归的实现中使用特征缩放获取每个特征值减去平均值然后除以标准差完成后我希望将权重和回归线重新调整为原始数据我只使用一个特征加上 y 轴截距项使用缩放数据获得权重后如何更改权重以便

machinelearning linearregression gradientdescent

如何在keras批量更新期间缩放梯度？

我正在使用标准 keras 模型并且正在批量训练使用train on batch功能现在我想获取批次中每个元素的梯度并对其进行缩放将每个样本梯度与我拥有的样本特定值相乘并且在缩放每个梯度后可以将其求和并用于更新现有权重无论如

python tensorflow Keras gradientdescent

理解 PyTorch 中使用backward()的梯度计算

我试图了解基本的 pytorch autograd 系统 x torch tensor 10 requires grad True print tensor x x backward print gradient x grad output

python Pytorch torch gradientdescent Autograd

pytorch如何设置.requires_grad False

我想冻结我的一些模型按照官方文档 with torch no grad linear nn Linear 1 1 linear eval print linear weight requires grad 但它打印True代替False

python Pytorch gradientdescent

TensorFlow 的 ReluGrad 声称输入不是有限的

我正在尝试 TensorFlow 但遇到了一个奇怪的错误我编辑了深度 MNIST 示例以使用另一组图像算法再次很好地收敛直到迭代 8000 左右此时准确度为 91 它因以下错误而崩溃 tensorflow python framew

gradientdescent tensorflow

如何在训练期间切换 tf.train.Optimizers？

我想从Adam https www tensorflow org api docs python tf train AdamOptimizer to SGD https www tensorflow org api docs python

machinelearning tensorflow gradientdescent

使用 mxnet 的简单梯度下降

我正在尝试使用 MXNet 的梯度下降优化器来最小化函数 Tensorflow 中的等效示例是 import tensorflow as tf x tf Variable 2 name x dtype tf float32 log x tf

python gradientdescent mxnet

RNN 中的梯度累积

在运行大型 RNN 网络时我遇到了一些内存问题 GPU 但我想保持我的批量大小合理所以我想尝试梯度累积在一次性预测输出的网络中这似乎是不言而喻的但在 RNN 中您为每个输入步骤执行多次前向传递因此我担心我的实施无法按预期进行

deeplearning Pytorch recurrentneuralnetwork gradientdescent

使用 NumPy 进行 LMS 批量梯度下降

我正在尝试编写一些非常简单的 LMS 批量梯度下降但我相信我在梯度方面做错了数量级与初始值之间的比率theta的元素有很大不同theta所以要么theta 2 不动例如如果alpha 1e 8 or theta 1 发射例如如果

python NumPy linearregression leastsquares gradientdescent

Caffe 中的“lr_policy”是什么？

我只是想知道如何使用Caffe http caffe berkeleyvision org 为此我只是看看不同的 prototxt示例文件夹中的文件有一个选项我不明白 The learning rate policy lr policy

machinelearning neuralnetwork deeplearning caffe gradientdescent

梯度下降与随机梯度下降算法

我尝试在 MNIST 手写数字数据集包括 60K 训练样本上训练前馈神经网络我每次都迭代所有训练样本表演反向传播对于每个时期的每个这样的样本运行时间当然太长了我运行的算法是否命名为梯度下降我读到对于大型数据集使用随机梯度下降

machinelearning ComputerVision neuralnetwork gradientdescent

求解线性回归的梯度下降法和正规方程法给出了不同的解

我正在研究机器学习问题并希望使用线性回归作为学习算法我实现了两种不同的方法来查找参数theta线性回归模型梯度最速下降和正态方程对于相同的数据他们应该给出大致相等的theta向量然而他们没有 Both theta除了第一个元

MATLAB machinelearning linearregression gradientdescent