Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Caffe:如果内存中只能容纳一小部分,我该怎么办?
我正在尝试训练一个非常大的模型 因此 我只能将非常小的批量大小放入 GPU 内存中 处理小批量的结果非常噪声梯度估计 https stackoverflow com a 33717093 1714410 我该怎么做才能避免这个问题 您可以更
machinelearning
neuralnetwork
deeplearning
caffe
gradientdescent
逻辑回归中的成本函数给出 NaN 结果
我正在使用批量梯度下降来实现逻辑回归 输入样本要分为两类 类别为 1 和 0 在训练数据时 我使用以下 sigmoid 函数 t 1 1 exp z where z x theta 我正在使用以下成本函数来计算成本 以确定何时停止训练 fu
如何在python中实现小批量梯度下降?
我刚刚开始学习深度学习 当谈到梯度下降时 我发现自己陷入了困境 我知道如何实现批量梯度下降 我知道它是如何工作的以及小批量和随机梯度下降在理论上是如何工作的 但实在无法理解如何用代码实现 import numpy as np X np ar
python
machinelearning
neuralnetwork
deeplearning
gradientdescent
梯度下降和牛顿梯度下降有什么区别?
我明白梯度下降的作用 基本上 它试图通过缓慢地沿着曲线移动来走向局部最优解 我想了解普通梯度下降法和牛顿法之间的实际区别是什么 我从维基百科上读到了这样一句话 牛顿方法使用曲率信息来采取更直接的路线 这直观上意味着什么 在局部最小值 或最大
特征缩放后重新缩放,线性回归
似乎是一个基本问题 但我需要在梯度下降线性回归的实现中使用特征缩放 获取每个特征值 减去平均值 然后除以标准差 完成后 我希望将权重和回归线重新调整为原始数据 我只使用一个特征 加上 y 轴截距项 使用缩放数据获得权重后 如何更改权重 以便
machinelearning
linearregression
gradientdescent
如何在keras批量更新期间缩放梯度?
我正在使用标准 keras 模型 并且正在批量训练 使用train on batch功能 现在 我想获取批次中每个元素的梯度并对其进行缩放 将每个样本梯度与我拥有的样本特定值相乘 并且在缩放每个梯度后 可以将其求和并用于更新现有权重 无论如
python
tensorflow
Keras
gradientdescent
理解 PyTorch 中使用backward()的梯度计算
我试图了解基本的 pytorch autograd 系统 x torch tensor 10 requires grad True print tensor x x backward print gradient x grad output
python
Pytorch
torch
gradientdescent
Autograd
pytorch如何设置.requires_grad False
我想冻结我的一些模型 按照官方文档 with torch no grad linear nn Linear 1 1 linear eval print linear weight requires grad 但它打印True代替False
python
Pytorch
gradientdescent
TensorFlow 的 ReluGrad 声称输入不是有限的
我正在尝试 TensorFlow 但遇到了一个奇怪的错误 我编辑了深度 MNIST 示例以使用另一组图像 算法再次很好地收敛 直到迭代 8000 左右 此时准确度为 91 它因以下错误而崩溃 tensorflow python framew
gradientdescent
tensorflow
如何在训练期间切换 tf.train.Optimizers?
我想从Adam https www tensorflow org api docs python tf train AdamOptimizer to SGD https www tensorflow org api docs python
machinelearning
tensorflow
gradientdescent
使用 mxnet 的简单梯度下降
我正在尝试使用 MXNet 的梯度下降优化器来最小化函数 Tensorflow 中的等效示例是 import tensorflow as tf x tf Variable 2 name x dtype tf float32 log x tf
python
gradientdescent
mxnet
RNN 中的梯度累积
在运行大型 RNN 网络时 我遇到了一些内存问题 GPU 但我想保持我的批量大小合理 所以我想尝试梯度累积 在一次性预测输出的网络中 这似乎是不言而喻的 但在 RNN 中 您为每个输入步骤执行多次前向传递 因此 我担心我的实施无法按预期进行
deeplearning
Pytorch
recurrentneuralnetwork
gradientdescent
使用 NumPy 进行 LMS 批量梯度下降
我正在尝试编写一些非常简单的 LMS 批量梯度下降 但我相信我在梯度方面做错了 数量级与初始值之间的比率theta的元素有很大不同theta所以要么theta 2 不动 例如 如果alpha 1e 8 or theta 1 发射 例如 如果
python
NumPy
linearregression
leastsquares
gradientdescent
Caffe 中的“lr_policy”是什么?
我只是想知道如何使用Caffe http caffe berkeleyvision org 为此 我只是看看不同的 prototxt示例文件夹中的文件 有一个选项我不明白 The learning rate policy lr policy
machinelearning
neuralnetwork
deeplearning
caffe
gradientdescent
梯度下降与随机梯度下降算法
我尝试在 MNIST 手写数字数据集 包括 60K 训练样本 上训练前馈神经网络 我每次都迭代所有训练样本 表演反向传播对于每个时期的每个这样的样本 运行时间当然太长了 我运行的算法是否命名为梯度下降 我读到对于大型数据集 使用随机梯度下降
machinelearning
ComputerVision
neuralnetwork
gradientdescent
求解线性回归的梯度下降法和正规方程法给出了不同的解
我正在研究机器学习问题 并希望使用线性回归作为学习算法 我实现了两种不同的方法来查找参数theta线性回归模型 梯度 最速 下降和正态方程 对于相同的数据 他们应该给出大致相等的theta向量 然而他们没有 Both theta除了第一个元
MATLAB
machinelearning
linearregression
gradientdescent
为什么epoch太多会导致过拟合?
我正在阅读 Python 深度学习 一书 读完第 4 章 对抗过度拟合 后 我有两个问题 为什么增加纪元数可能会导致过度拟合 我知道增加纪元数将涉及更多的梯度下降尝试 这会导致过度拟合吗 在对抗过拟合的过程中 准确率会降低吗 我不确定您正在
machinelearning
gradientdescent
当我们可以解析线性回归时为什么要梯度下降
在线性回归空间中使用梯度下降有什么好处 看起来我们可以用分析方法解决这个问题 找到最小成本函数的theta0 n 那么为什么我们仍然想使用梯度下降来做同样的事情呢 谢谢 当您使用正规方程为了分析求解成本函数 您必须计算 其中 X 是输入观测
machinelearning
linearregression
gradientdescent
Tensorflow:如何在 python 中编写带有梯度的操作?
我想用 python 编写一个 TensorFlow 操作 但我希望它是可微的 能够计算梯度 这个问题询问如何在 python 中编写操作 答案建议使用 py func 没有梯度 Tensorflow 用 Python 编写操作 TF 文档
python
tensorflow
neuralnetwork
gradientdescent
三元组损失的softmax版本的梯度计算
我一直在尝试在Caffe中实现softmax版本的三元组损失 描述于 霍弗和艾隆 使用三元组网络进行深度度量学习 ICLR 2015 我已经尝试过这个 但我发现很难计算梯度 因为指数中的 L2 不是平方的 有人可以帮我吗 使用现有的 caf
neuralnetwork
deeplearning
caffe
gradientdescent
Softmax
1
2
»