标量、向量、矩阵之间求导笔记

2023-11-08

2019.12.06--------------------------------------------------------------------------------------------------------------

今天，碰到了下面有关向量对于向量的导数，不太明白为什么最后得到的是A的转置。
d A x d x = A T \frac{ \mathrm{d}Ax}{\mathrm{d}x} = A^T dxdAx=AT
上式中， A m × n A_{m\times n} Am×n与 x n × 1 x_{n\times 1} xn×1无关， x x x为一个列向量，则 A x Ax Ax也为一个列向量。（一般所说的向量都写成列向量形式）按照矩阵微分中的规定，求的是行向量对于列向量的导数，得到的结果是一个矩阵。下面根据雅克比矩阵的定义，来看行向量对于列向量的导数。
f ( x ) = [ f 1 ( x ) , f 2 ( x ) , . . . , f m ( x ) ] T , x = [ x 1 , x 2 , . . . , x n ] T f(x) = [f_1(x) , f_2(x) , ... , f_m(x)]^T, x = [x_1,x_2,...,x_n]^T f(x)=[f1(x),f2(x),...,fm(x)]T,x=[x1,x2,...,xn]T
d f T d x = d [ f 1 , f 2 , . . . , f m ] 1 × m d [ x 1 x 2 . . . x n ] n × 1 = [ d f 1 d x 1 d f 2 d x 1 … d f m d x 1 d f 1 d x 2 d f 2 d x 2 … d f m d x 2 ⋮ ⋮ ⋱ ⋮ d f 1 d x n d f 2 d x n … d f m d x n ] n × m = J \frac{\mathrm{d}f^T}{\mathrm{d}x} = \frac{\mathrm{d} [f_1 , f_2 , ... , f_m]_{1\times m}}{\mathrm{d} \begin{bmatrix}x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix}_{n\times 1} } =\begin{bmatrix} \frac{\mathrm{d}f_1}{\mathrm{d}x_1} & \frac{\mathrm{d}f_2}{\mathrm{d}x_1} & \dots & \frac{\mathrm{d}f_m}{\mathrm{d}x_1} \\ \frac{\mathrm{d}f_1}{\mathrm{d}x_2} & \frac{\mathrm{d}f_2}{\mathrm{d}x_2} &\dots& \frac{\mathrm{d}f_m}{\mathrm{d}x_2} \\ \vdots& \vdots & \ddots &\vdots\\ \frac{\mathrm{d}f_1}{\mathrm{d}x_n} & \frac{\mathrm{d}f_2}{\mathrm{d}x_n} & \dots & \frac{\mathrm{d}f_m}{\mathrm{d}x_n} \end{bmatrix} _{n\times m} = J dxdfT=d⎣⎢⎢⎡x1x2...xn⎦⎥⎥⎤n×1d[f1,f2,...,fm]1×m=⎣⎢⎢⎢⎢⎡dx1df1dx2df1⋮dxndf1dx1df2dx2df2⋮dxndf2……⋱…dx1dfmdx2dfm⋮dxndfm⎦⎥⎥⎥⎥⎤n×m=J
可以看出，分母有几行， J J J就有几行；分子有几列， J J J就有几列。列向量对列向量求导是这么定义的：先对分子转置，再对最后结果进行转置。
d f d x = ( d f T d x ) T = J T \frac{\mathrm{d}f}{\mathrm{d}x} =\Big( \frac{\mathrm{d}f^T}{\mathrm{d}x} \Big) ^T = J^T dxdf=(dxdfT)T=JT
现在，再来看最上面的公式
d A x d x = ( d ( A x ) T d x ) T = ( d x T d x A T ) T = ( I A T ) T = A ？？ \frac{ \mathrm{d}Ax}{\mathrm{d}x} = \Big(\frac{ \mathrm{d}(Ax)^T}{\mathrm{d}x} \Big)^T= \Big(\frac{ \mathrm{d}x^T}{\mathrm{d}x} A^T \Big)^T = \Big(I A^T \Big)^T = A ？？ dxdAx=(dxd(Ax)T)T=(dxdxTAT)T=(IAT)T=A？？
嗯…，上面的结果似乎与预期不符合。在对分子转置应该不包括常量，可以在转置之前先把常量提出来，下面的结果就是符合预期的结果了。
d A x d x = ( A d ( x ) T d x ) T = ( A I ) T = A T \frac{ \mathrm{d}Ax}{\mathrm{d}x} = \Big(\frac{ A \mathrm{d}(x)^T}{\mathrm{d}x} \Big)^T= \Big(A I\Big)^T = A^T dxdAx=(dxAd(x)T)T=(AI)T=AT
还有下面这样的形式，感觉可以把分母的转置传递给分子。（根据结论，猜的，不过分母是行向量这种情况有点奇葩，应该也不会这么去定义吧。）
d A x d x T = A d ( x ) T d x = A I = A \frac{ \mathrm{d}Ax}{\mathrm{d}x^T} = \frac{ A \mathrm{d}(x)^T}{\mathrm{d}x}= A I = A dxTdAx=dxAd(x)T=AI=A
总结：个人认为，向量对于向量的导数其实主要还是看计算规则，统一了规则后，就能放心地使用公式了。（可能会有格式各样的规定，所以在推导的过程中选择一个规则，不能弄混了）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

标量、向量、矩阵之间求导笔记的相关文章

数学基础--高斯分布详解

1 简介正态分布 xff08 Normal Distribution xff09 xff0c 又名高斯分布 xff08 Gaussian Distribution xff09 xff0c 是一个在数学物理及工程等领域都非常重要的概率分布
python 深度学习-数学基础-2-导数

z z的变化值比上距离的极限
矩阵分解（1）-- 矩阵分解之LU、LDLT、Cholesky分解

1 分类矩阵分解 decomposition factorization 是多半将矩阵拆解为数个三角形矩阵 triangular matrix 依使用目的的不同可分为几类与线性方程解法相关的矩阵分解 LU分解奇异值分解 QR分解极
协方差矩阵与PCA深入原理剖析

一协方差矩阵一个维度上方差的定义协方差的定义 a 协方差就是计算了两个维度之间的相关性即这个样本的这两个维度之间有没有关系协方差为0 证明这两个维度之间没有关系协方差为正两个正相关为负则负相关协方差矩阵的定义对n个维度
算法的复杂度

常用的算法的时间复杂度和空间复杂度排序法最差时间分析平均时间复杂度稳定度空间复杂度冒泡排序 O n2 O n2 稳定 O 1 快速排序 O n2 O n log2n 不稳定 O log2n O n 选择排序 O n2 O n2
向量与矩阵求导与实例分析

说明 1 相关内容经过诸多学习内容整理 2 比较权威的学习源可参考维基百科 https en wikipedia org wiki Matrix calculus Scalar by vector identities 3 机器学习关联内容
【数学】三角函数及部分微积分函数图象整理

三角函数及部分微积分函数图象整理 1 三角函数 1 1 cosx secx 1 2 sinx cscx 1 3 tanx cotx 1 4 s e c
线性代数——正交矩阵

正交矩阵 orthogonal matrix 正交矩阵的定义正交矩阵性质 1 AT是正交矩阵 2 A的各行是单位向量且两两正交 3 A的各列是单位向量且两两正交 4 A 1或 1 正交矩阵的定义如果 AAT E E为单位矩阵 AT表示
使用C++ Eigen库求解线性方程组Ax=b

Eigen http eigen tuxfamily org 是常用的 C 矩阵运算库具有很高的运算效率大部分需要在 C 中使用矩阵运算的库都会选用 Eigen 作为基本代数库例如 Google Tensorflow Google
概率论与数理统计(一)随机事件,样本空间

1 D 2 A 3 C 4 AD 5 正确答案 1 2 1 3 2 1 2 3 3 1 3 2
数学基础--均值、方差、标准差、协方差

1 简介统计学中最核心的概念之一是标准差及其与其他统计量如方差和均值之间的关系本文将对标准差这一概念提供直观的视觉解释在文章的最后我们将会介绍协方差的概念 2 概念介绍均值均值均值就是将所有的数据相加求平均求得一个样本数
标量、向量、矩阵之间求导笔记

2019 12 06 今天碰到了下面有关向量对于向量的导数不太明白为什么最后得到的是A的转置 d A x
【SLAM】卡尔曼滤波（Kalman Filter）

卡尔曼滤波 Kalman filter 一种利用线性系统状态方程通过系统输入输出观测数据对系统状态进行最优估计的算法由于观测数据中包括系统中的噪声和干扰的影响所以最优估计也可看作是滤波过程卡尔曼滤波器的原理解释如下首先我们先要
数学基础（一）——最小二乘法

最小二乘法 LS 算法是统计分析中最常用的逼近计算的一种算法其交替计算结果使得最终结果尽可能地逼近真实结果 LS 算法是一种数学优化技术也是一种机器学习常用算法它通过最小化误差的平方和寻找数据的最佳函数匹配利用最小二乘法可以简便地
经验模式分解（EMD）——简介及Matlab工具箱安装

最近在做脑电信号分析在导师的建议下学习了一点经验模式分解下面简称EMD 的皮毛期间也是遇到了很多问题在这里整理出来一是为了自己备忘二是为了能尽量帮到有需要的朋友一 EMD简介经验模态分解 Empirical Mode Dec
非中心卡方分布

非中心卡方分布非中心卡方分布是卡方分布的一般化形式如果是个独立的正态分布的随机变量均值为方差为表示为那么随机变量为非中心卡方分布非中心卡方分布涉及两个参数表示自由度即的数目是和随机变量相关的参数由以上参数所定义
傅里叶变换公式整理

1 一维傅里叶变换 1 1 一维连续傅里叶变换正变换 F
朴素贝叶斯基本原理和预测过程、先验概率、后验概率、似然概率概念

贝叶斯原理是英国数学家托马斯贝叶斯提出的贝叶斯原理建立在主观判断的基础上在我们不了解所有客观事实的情况下同样可以先估计一个值然后根据实际结果不断进行修正举例一个袋子里有10个球其中6个黑球 4个白球那么随机抓一个黑球的概
范数（简单的理解）、范数的用途、什么是范数

没学好矩阵代数的估计范数也不是太清楚当然学好的人也不是太多范数主要是对矩阵和向量的一种描述有了描述那么大小就可以比较了从字面理解一种比较构成规范的数有了统一的规范就可以比较了例如 1比2小我们一目了然可是 3 5 3 和
矩阵求导常用公式

矩阵求导常用公式 1 引言 2 向量的导数 2 1 向量对标量求导 Vector by scalar 2 2 标量对向量求导 Scalar by vector 2 3 向量对向量求导 Vector by vector 3 矩阵的导数 3 1

随机推荐

【视频篇】创作的基石，如何找素材？

前言工作学习中免不了要搜集素材然后进行二次创作这些素材从哪来呢别告诉我你还在直接百度之后慢慢翻针对如何找素材我在打算做一个专题分享一下我的路子常见的素材类型比如图片视频字体海报模板 PPT模板等等想到什么写什么吧这
一个人如何做抖音矩阵

随着抖音发展的越来越成熟不少企业公司都开始在抖音上发力但由于人员不够迟迟没有开始布局抖音矩阵今天小编就来和大家聊一聊一个人怎么做抖音矩阵一个人做抖音矩阵其实也非常简单只需要借助矩阵管理系统即可很多小伙伴迟迟没有做抖音矩阵营销的
python 字符串截取_python字符串截取、查找、分割

Python 截取字符串使用变量头下标尾下标就可以截取相应的字符串其中下标是从0开始算起可以是正数或负数下标可以为空表示取到头或尾例1 字符串截取 str 12345678 print str 0 1 gt gt 1 输出s
QT 控件重绘

前言转载请附上连接本帖原创请勿照抄 QT重绘控件是指通过实现控件头文件使用QSS或者样式表来对某个控件进行重新绘制 1 重绘QButton按钮 2 重绘QComboBox下拉框 3 其它控件重绘的办法 1 重绘QButton 重绘控件
竞赛选题基于机器视觉的二维码识别检测 - opencv 二维码识别检测机器视觉

文章目录 0 简介 1 二维码检测 2 算法实现流程 3 特征提取 4 特征分类 5 后处理 6 代码实现 5 最后 0 简介优质竞赛项目系列今天要分享的是基于机器学习的二维码识别检测 opencv 二维码识别检测机器视觉该项目
深度学习手记（七）之MNIST实现CNN模型

手写字体识别是一个很好练习CNN框架搭建的数据集下面简单讲述一下整个模型构建的思路整个模型通过两次卷积两次亚采样以及两次全连接层整个结构比较简单也易理解其中两次卷积层的大小都为5x5 过滤器分别为32和64个为了不改变图片的
【Docker】Docker 如何在容器内安装vi命令(vi不能使用)

文章目录 1 背景 1 背景 mac下安装了docker 然后用docker 安装了grafana软件然后进入grafana base lcc lcc prometheus docker exec it 4b5f517f4340 bash
火车进站

import java util 火车进站 1 先求出所有可能的出栈序列不一定合法 2 判断出栈序列是否合法 3 对合法的出栈序列进行排序后输出 public class solution private static List
密码学哈希函数

哈希函数H使用变长数据分组M作为输入生成定长结果h H M 这一结果也称哈希值哈希码或散列值好的哈希函数的特点如下对大输入集合使用该函数时输出是均匀分布的且是明显随机的概括的说哈希函数的主要目标是保证数据的完整性在安全应用中
Visual Studio 2019 Community 版离线注册

本文主要参考 https blog csdn net songfuliang2011 article details 102486451 Visual Studio 2019 Community 虽然是免费使用但必须在线注册一个账号否则
Spring Boot 事务详解

自己学习事务做的笔记方便记忆和复习 1 事务是为了解决数据安全问题而存在的最经典的例子就是银行转账问题 A账户给B账户转账100元 A账户扣除100元后由于不可抗力因素导致程序中断 B账户没有收到那100元 A账户那100元凭空消失肯
Ubuntu IDEA安装和配置以及eclipse下载

Idea2022版本官网下载 https www jetbrains com idea download section linux sudo tar zxvf ideaIU 2022 3 3 tar gz C usr local sudo
闲鱼玩法平台系列文章——双11实操篇

背景营销玩法是电商行业进行商品促销和用户增长的重要手段上一篇中介绍了闲鱼的玩法平台多啦A梦本篇将介绍在该系统上承接的玩法闲鱼作为闲置循环工厂也参与了大促为了让更多闲置在闲鱼游起来在商品侧设计了转卖抽奖活动玩法为了能让更多
asoc 如何定义各种widget、route

上一节中介绍了DAPM框架中几个重要的数据结构 snd soc dapm widget snd soc dapm path snd soc dapm route 其中snd soc dapm path无需我们自己定义它会在注册snd s
大数据治理——《华为数据之道》

重点章节 1 差异化的数据分类管理第二章信息架构第三章数据底座第三章次重点 2 数据服务第四章数据质量第五章数据安全与隐私第六章其他 3 数据感知第五章数据综合治理体系第二章企业数字化转型第三章重要概念和
【自用】西门子s7-200连接显示屏和物联网盒子完整配置过程

总览 1 PLC配置 2 显示屏配置 3 物联网盒子配置一 PLC配置 1 连接PLC软件 STEP 7MicroWIN V4 0 SP9完整版链接 https pan baidu com s 17LMEXnbkQZMPI8Bte24E
使用单片机控制600W升压模块输出电压

要想用单片机控制升降压模块的输出电压首先想到的就是使用电信号控制FB电阻大小原理上数字电位器可以满足这个需求那么问题就在于如何评估数字电位器大小如何知道FB电阻和输出电压的关系如果是集成DCDC变换器模块比较简单一块板上没几个
QT 消息对话框按钮显示

前言搞QT嘛大多数都是军工都要国产化而且消息对话框的按钮的英文也不是很得劲所以需要汉化使用静态函数的按钮就是显示英文汉化的代码如下 void Widget on pushButton clicked QMessageBox b
python selenium 获取frame中的元素

版权声明本文为徐代龙原创文章未经徐代龙允许不得转载 https blog csdn net xudailong blog 使用情景在很多的视频播放网站视频播放页面往往获取不到iframe里面的内容也或者是模拟登陆的时候会跳入一个
标量、向量、矩阵之间求导笔记

2019 12 06 今天碰到了下面有关向量对于向量的导数不太明白为什么最后得到的是A的转置 d A x

标量、向量、矩阵之间求导笔记

标量、向量、矩阵之间求导笔记 的相关文章

随机推荐

热门标签

标量、向量、矩阵之间求导笔记的相关文章