为什么 `numpy.einsum` 使用 `float32` 比 `float16` 或 `uint16` 运行得更快？ [复制]

2023-12-05

在我使用 numpy 1.12.0 的基准测试中，计算点积float32 ndarrays比其他数据类型快得多：

In [3]: f16 = np.random.random((500000, 128)).astype('float16')
In [4]: f32 = np.random.random((500000, 128)).astype('float32')
In [5]: uint = np.random.randint(1, 60000, (500000, 128)).astype('uint16')

In [7]: %timeit np.einsum('ij,ij->i', f16, f16)
1 loop, best of 3: 320 ms per loop

In [8]: %timeit np.einsum('ij,ij->i', f32, f32)
The slowest run took 4.88 times longer than the fastest. This could mean that an intermediate result is being cached.
10 loops, best of 3: 19 ms per loop

In [9]: %timeit np.einsum('ij,ij->i', uint, uint)
10 loops, best of 3: 43.5 ms per loop

我尝试过分析einsum，但它只是将所有计算委托给一个C函数，所以我不知道这种性能差异的主要原因是什么。

我和你的测试f16 and f32数组表明f16所有计算都慢 5-10 倍。仅在进行数组等字节级操作时才有效copyfloat16 更紧凑的性质是否显示出任何速度优势。

https://gcc.gnu.org/onlinedocs/gcc/Half-Precision.html

该部分是否位于gcc关于半个浮点数的文档，fp16。有了正确的处理器和正确的编译器开关，就有可能以加速这些计算的方式安装 numpy。我们还必须检查是否numpy .h文件有任何对半浮点数进行特殊处理的规定。

较早的问题可能足以作为重复参考

Python Numpy 数据类型性能

Python numpy float16 数据类型运算和 float8？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

numpyeinsum

为什么 `numpy.einsum` 使用 `float32` 比 `float16` 或 `uint16` 运行得更快？ [复制] 的相关文章

python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在

随机推荐

Spring类路径前缀差异

记录于4 7 2 2 类路径前缀它指出这个特殊的前缀指定所有匹配的类路径资源必须获得名字在内部这基本上发生通过 ClassLoader getResources 调用然后合并形成最终应用程序上下文定义有人可以解释一下吗
Tomcat：Web 应用程序中的自定义表单验证器，而不是作为独立的 JAR 模块。可能的？

我们的 Web 应用程序需要内部具有特定逻辑的自定义表单身份验证当前的表单验证器实现需要验证器模块我们称之为custom auth jar 出现在 CATALINA HOME lib在 Web 应用程序启动之前 Web 应用程序使用该自
使用 C# 从 Windows 服务捕获关键事件

我必须用 C 编写一个应用程序来侦听按下的任何按键实际上我有一个条形码扫描仪发送按键按下事件我需要听它它的作用超出了我的问题范围我的安全要求是不允许任何登录以任何形状或形式连接到机器并且这必须作为 Windows 服务运行用
查找最长的重复字符串及其在给定字符串中的重复次数

例如给定字符串 abc fghi bc kl abcd lkm abcdefg 该函数应返回字符串 abcd 以及 2 的计数 O n 2 解决方案似乎很简单但我正在寻找更好的解决方案 Edited 如果不可能有比 O n 2 更好的方
量词中的非零向量

我想验证以下形式的公式 Exists p ForAll x 0 f x p gt 0 一个实现不起作用如下 def f0 x0 x1 x y return x1 2 y x0 2 x s Solver x0 x1 Reals x0 x1
从大型固定宽度文本中解析未排序的数据

我主要是一个 Matlab 用户和 Perl n00b 这是我的第一个 Perl 脚本我有一个大型固定宽度数据文件我想将其处理成带有目录的二进制文件我的问题是数据文件非常大并且数据参数按时间排序这使得解析到 Matlab 变得困难
请求调度程序转发后如何获取原始页面 url/uri

我有一个 Error404Servlet 它在 web xml 中配置为 404 的错误页面
如何使用 C# 获取 Webforms 中文本框的 GotFocus、LostFocus 事件

创建网站时我无法获取文本框的 GotFocus LostFocus 事件我只是想正如我之前在我的问题中所问的当焦点是 winforms 中另一个文本框的文本时如何将一个文本框的值放入另一个文本框我能够以 Windows 形式完成
如何在 Visual Studio 中自动设置代码格式？

我知道 Visual Studio 可以自动格式化以使我的方法和循环正确缩进但我找不到该设置 To format a selection Ctrl K Ctrl F To format a document Ctrl K Ctrl D S
使用 Casperjs 清除本地存储

我正在使用 casperjs 使用 localstorage 对backbonejs 应用程序进行一些测试我的问题是使用 casperjs 测试时无法清除本地存储我一直在尝试使用localStorage clear 在我的 casper
在 P5.js 中旋转网格内的对象

我正在尝试使用合适的 OOP 方法来让对象在网格单元格内单独旋转我当前的结果是围绕 0 0 参考点旋转所有对象而不是每个对象在其自己的单元格内旋转当然需要的是一个正确的翻译函数但是当我尝试在innerSquare函数中应用它时tr
AngularJS 中的 lightGallery（jQuery 插件）

我正在尝试获取 lightGallery jQuery 插件 http sachinchoolur github io lightGallery index html 与 AngularJS 一起使用我发现一些答案表明我需要一个指令所以
将 CSS 选择器与 Javascript RegExp 相匹配

基本上我需要对 CSS 文件中的所有 CSS 选择器进行模式匹配理想情况下它应该能够获取所有这些规则以及某人可以在 CSS 文件中编写的任何其他规则如果这有帮助的话这是针对 javascript CSS 解析器的 div div
我可以安全地依赖mysql中的列名大小写吗？

我想使用驼峰式大小写命名我的 mysql 表列名称并使用相同的驼峰式大小写名称从这些 mysql 表创建 php 类我将自动生成这些 php 类我想知道无论我在哪个平台上运行应用程序是否都可以依赖列名大小写例如如果我将一个列名命
通过OpenCV的camshift算法控制鼠标指针（或者鼠标的基本功能）

我使用 EmguCV openCV 的包装用 C 编写了一个程序该程序使用 camshift 算法跟踪对象在对象周围绘制一个矩形光标移动到矩形的中心输入来自网络摄像头最初的问题是光标无法覆盖整个屏幕它的运动受到框架尺寸的限制
将 Jenkins Groovy Postbuild 步骤添加到所有作业

怎么可以一样Jenkins Groovy 后期构建插件步骤是否添加到所有作业中我们有 50 多个工作因此很难将所需 Groovy 代码的链接复制粘贴到每个工作我通常通过更新受影响作业的 config xml 来进行类似的批量更改每个
使用 JavaScript 进行井字游戏

我正在使用 html css 和 JavaScript 编写一个 tic tac toe 游戏我创建了按钮来获取输入markbox cell 函数和 deres 函数称为获胜条件用于检查赢得游戏的条件在我的代码中它没有检查winnin
Angular 6 无法自动从提供的对象中选择/绑定下拉列表值

我从服务中获取一个国家地区对象并将其绑定到一个包含国家地区下拉列表的表单从服务检索国家地区后该国家地区并未显示为选中状态但所有其他数据均显示正常包括绑定到下拉列表的字符串性别字段不过我可以从列表中手动选择国家地区如
如何使用整数除法 SSE 指令？ [复制]

这个问题在这里已经有答案了根据参考here应在 immintrin h 中定义以下函数 m128i mm idiv epi32 m128i a m128i b m128i mm idivrem epi32 m128i mem addr m
为什么 `numpy.einsum` 使用 `float32` 比 `float16` 或 `uint16` 运行得更快？ [复制]

这个问题在这里已经有答案了在我使用 numpy 1 12 0 的基准测试中计算点积float32 ndarrays比其他数据类型快得多 In 3 f16 np random random 500000 128 astype float1

为什么 `numpy.einsum` 使用 `float32` 比 `float16` 或 `uint16` 运行得更快？ [复制]

为什么 `numpy.einsum` 使用 `float32` 比 `float16` 或 `uint16` 运行得更快？ [复制] 的相关文章

随机推荐

热门标签