在 numpy 中乘以对数概率矩阵的数值稳定方法

2024-02-17

我需要获取包含对数概率的两个 NumPy 矩阵（或其他二维数组）的矩阵乘积。天真的方式np.log(np.dot(np.exp(a), np.exp(b)))由于明显的原因而不是首选。

Using

from scipy.misc import logsumexp
res = np.zeros((a.shape[0], b.shape[1]))
for n in range(b.shape[1]):
    # broadcast b[:,n] over rows of a, sum columns
    res[:, n] = logsumexp(a + b[:, n].T, axis=1)

可以工作，但运行速度比np.log(np.dot(np.exp(a), np.exp(b)))

Using

logsumexp((tile(a, (b.shape[1],1)) + repeat(b.T, a.shape[0], axis=0)).reshape(b.shape[1],a.shape[0],a.shape[1]), 2).T

或者其他平铺和重塑的组合也可以工作，但运行速度甚至比上面的循环还要慢，因为实际大小的输入矩阵需要大量的内存。

我目前正在考虑用 C 编写一个 NumPy 扩展来计算这个，但我当然宁愿避免这种情况。是否有一种既定的方法可以做到这一点，或者有人知道执行此计算的内存密集程度较低的方法吗？

EDIT:感谢 larsmans 提供的这个解决方案（推导见下文）：

def logdot(a, b):
    max_a, max_b = np.max(a), np.max(b)
    exp_a, exp_b = a - max_a, b - max_b
    np.exp(exp_a, out=exp_a)
    np.exp(exp_b, out=exp_b)
    c = np.dot(exp_a, exp_b)
    np.log(c, out=c)
    c += max_a + max_b
    return c

将此方法与上面发布的方法进行快速比较（logdot_old）使用 iPython 的魔力%timeit函数产生以下结果：

In  [1] a = np.log(np.random.rand(1000,2000))

In  [2] b = np.log(np.random.rand(2000,1500))

In  [3] x = logdot(a, b)

In  [4] y = logdot_old(a, b) # this takes a while

In  [5] np.any(np.abs(x-y) > 1e-14)
Out [5] False

In  [6] %timeit logdot_old(a, b)
1 loops, best of 3: 1min 18s per loop

In  [6] %timeit logdot(a, b)
1 loops, best of 3: 264 ms per loop

显然拉斯曼的方法抹杀了我的方法！

logsumexp通过计算等式右侧的值来工作

log(∑ exp[a]) = max(a) + log(∑ exp[a - max(a)])

即，它在开始求和之前取出最大值，以防止溢出exp。在进行向量点积之前也可以应用同样的方法：

log(exp[a] ⋅ exp[b])
 = log(∑ exp[a] × exp[b])
 = log(∑ exp[a + b])
 = max(a + b) + log(∑ exp[a + b - max(a + b)])     { this is logsumexp(a + b) }

但通过在推导中采取不同的方式，我们得到

log(∑ exp[a] × exp[b])
 = max(a) + max(b) + log(∑ exp[a - max(a)] × exp[b - max(b)])
 = max(a) + max(b) + log(exp[a - max(a)] ⋅ exp[b - max(b)])

最终形式的内部有一个向量点积。它也很容易扩展到矩阵乘法，所以我们得到了算法

def logdotexp(A, B):
    max_A = np.max(A)
    max_B = np.max(B)
    C = np.dot(np.exp(A - max_A), np.exp(B - max_B))
    np.log(C, out=C)
    C += max_A + max_B
    return C

这创建了两个A大小的临时体和两个B- 大小的，但每一个都可以通过以下方式消除

exp_A = A - max_A
np.exp(exp_A, out=exp_A)

类似地对于B。（如果函数可以修改输入矩阵，则可以消除所有临时矩阵。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

matrix

matrixmultiplication

logarithm

在 numpy 中乘以对数概率矩阵的数值稳定方法的相关文章

当我有自定义身份验证模型时，如何登录 Django Rest 可浏览 API？

我有一个自定义用户模型如下所示account models py from django contrib auth modles import AbstractUser from django db models signals impo
使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
协程从未被等待

我正在使用一个简单的上下文管理器其中包含一个异步循环 class Runner def init self self loop asyncio get event loop def enter self return self def e
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发

随机推荐

Jquery Datepicker 更改月份后触发（月份渲染后）

我想强调一下本月的一些日子我可以在第一个月执行此操作但不能在单击下个月或上个月后的新月份执行此操作我尝试使用 onChangeMonthYear 事件但这在新的或上一个月份呈现之前执行有任何想法吗也许你最好的选择是b
Windbg：psscor4 不起作用

我搜索并尝试了很多东西但无法让 psscor4 正常工作当我调用 threads 我总是得到请求ThreadStore失败我检查的内容如下我有一个为 X86 平台编译的 NET 4 应用程序我使用的是Windbg版本6 2 92
两组之间均匀分布的数字 (Vectorize LINSPACE) - MATLAB

如何定义矩阵M根据M a b a 5 b from a to b分 5 步当a and b是向量或集合更具体地说每一行i in M第一个值应该等于a i 和最后的值b i 其间有 5 个相等的步骤例如如果我有 a 0 b 10 0
如何将两个 PDF 页面拼接在一起成为一张大页面？

我有两张 36 x 48 海报 LaTeX 我想将其附加到一张 72 x 48 海报中垂直堆叠浏览 SO 和 GS 文档我没有任何线索我不是 CLI 向导我怎样才能做到这一点此外该过程不应有损地压缩光栅图像因为这将以 240
switch 似乎比 if 慢

我很好奇速度switch 相信它非常快但我有一个测试用例似乎表明单个开关的速度大约与 4 一样快if测试当我预期没有充分的理由它会像 1 次测试一样快这是我写的两个方法来比较switch with if public sta
挑选一个删除文件的提交

我需要合并几个存储库每个存储库都是从TFS http en wikipedia org wiki Team Foundation Server 合而为一为此我使用 gitcherry pick 命令该命令适用于某些提交但不适用于其
缺少 Google 地图 API V2 google-play-services_lib.jar

I just imported an example of the google map api V2 for android to test It s missing the google play services lib jar I
按 xml 字母顺序对数据进行排序

输入 XML
如何配置 django-uploadify 仅用于视频上传？

我想用django uploadify https github com tstone django uploadify仅上传视频我只希望它仅上传视频所有类型的视频或至少所有类型的流行视频格式到目前为止我添加了uploadify
为什么将 (Object)null 结果转换为非空？

我使用 java 7 并创建一个 varargs 方法 public class JavaApplicationTest param args the command line arguments public static void ma
R Markdown pdf部分彩色单元格背景（数据栏）

Excel 有一个称为数据栏的功能它允许根据具有相应长度的单元格值进行条件格式设置此功能可以通过 R 中的 formattable 使用格式化程序和 color bar 来完成然而这样做的结果是一个 html 小部件无法在 p
为什么在目录上调用 File.listFiles 时可以返回 null？

我正在创建一个 Android 应用程序我想列出目录中的文件我通过调用来做到这一点 File files path listFiles new CustomFileFilter path is a File对象通过调用创建 File
在三星设备上继续运行时异常：android.view.DisplayListCanvas.throwIfCannotDraw

我在 Play 商店控制台上发生多次崩溃我已经检查了可绘制文件夹中的所有图像这对我来说似乎没问题因为我怀疑这可能会导致问题据报道它主要在三星设备上崩溃请指出发生了什么错误对于背景图像我也使用这个尺寸高清 480 800 x
ngAnimate CSS 动画不适用于 ng-show 和 ng-hide

DEMO http plnkr co edit cPDUWO p preview http plnkr co edit cPDUWO p preview 我在页面上显示了 2 个选中的复选框和 2 个小部件单击复选框将使用ng show
签署 F# 程序集（强名称组件）

我在 CodeProject 上找到了这篇文章 http www codeproject com Articles 512956 NET Shell Extensions Shell Context Menus http www codep
python 中的“is”是如何工作的？

请有人解释一下如何在 if 条件下使用 is 我正在使用分数模块但遇到了一些麻烦 gt gt gt Fraction 0 1 is 0 False gt gt gt float Fraction 0 1 0 0 gt gt gt floa
如何使用 IDisposable 修复内存泄漏

我有一个 net 应用程序似乎存在内存泄漏问题 net 服务启动时大约需要 100MB 内存但在负载下它会达到大约 400 500MB 我的大多数类都没有非托管资源并且那些已经实现了 IDisposable 的类所以我的问题是在我的课
延迟加载加载图像后如何触发事件？

我有需要绝对定位的图像以便图像的中心位于其父 div 的中心我已经有执行此操作的代码我最近添加了延迟加载插件它按预期工作但我需要一种触发图像居中代码的方法after延迟加载已加载and图像淡入我当前的代码基本上是这样的 jQue
更改现有应用程序的证书指纹

我有一个已发布到 Google Play 的现有应用程序一切都很好直到我换了一台电脑并且我的 sha1 指纹发生了变化有没有可能的方法来更改 google play 开发者控制台中现有应用程序的 sha1 如果没有我该如何处理谢谢
在 numpy 中乘以对数概率矩阵的数值稳定方法

我需要获取包含对数概率的两个 NumPy 矩阵或其他二维数组的矩阵乘积天真的方式np log np dot np exp a np exp b 由于明显的原因而不是首选 Using from scipy misc import log

在 numpy 中乘以对数概率矩阵的数值稳定方法

在 numpy 中乘以对数概率矩阵的数值稳定方法 的相关文章

随机推荐

热门标签

在 numpy 中乘以对数概率矩阵的数值稳定方法的相关文章