在单（多核）CPU 设备上执行 TensorFlow

2024-01-02

我对 TensorFlow 在只有 CPU 设备且网络仅用于推理的特定情况下的执行模型有一些疑问，例如使用图像识别（https://www.tensorflow.org/tutorials/image_recognition https://www.tensorflow.org/tutorials/image_recognition) 具有多核平台的 C++ 示例。

下面，我将尝试总结一下我所理解的内容，同时提出一些问题。

Session->Run()（文件 direct_session.cc）调用 ExecutorState::RynAsynch，它使用根节点初始化 TensorFlow 就绪队列。

然后，指令

runner_([=]() { Process(tagged_node, scheduled_usec); }); (executor.cc, function ScheduleReady, line 2088)

将节点（以及相关操作）分配给 inter_op 池的线程。但是，我并不完全理解它是如何工作的。例如，在 ScheduleReady 尝试分配比 inter_op 池大小更多的操作的情况下，操作如何排队？（先进先出顺序？）池中的每个线程都有一个操作队列还是有一个共享队列？我在代码中哪里可以找到这个？在哪里可以找到池中每个线程的主体？

另一个问题是关于 inline_ready 管理的节点。这些（廉价或死亡）节点的执行与其他节点有何不同？

然后，（仍然，据我理解）执行流程从 ExecutorState::Process 继续，执行操作，区分同步和异步操作。同步和异步操作在执行方面有何不同？

当操作执行时，PropagateOutputs（调用ActivateNodes）将由于当前节点（前驱）的执行而变得就绪的每个后继节点添加到就绪队列中。

最后，NodeDone() 调用 ScheduleReady() 来处理当前 TensorFlow 就绪队列中的节点。

反之，intra_op线程池如何管理取决于具体的内核吧？内核请求的操作是否可能比intra_op线程池大小更多？如果是，它们按照哪种顺序排队？（先进先出？）

一旦操作被分配给池中的线程，那么它们的调度就会留给底层操作系统，或者 TensorFlow 会强制执行某种调度策略？

我在这里问是因为我在文档中几乎没有找到有关执行模型这部分的任何内容，如果我错过了一些文档，请指出所有文档。

重新线程池：当 Tensorflow 使用 DirectSession 时（正如您的情况），它使用 Eigen 的 ThreadPool。我无法获得 TensorFlow 中使用的 Eigen 官方版本的网络链接，但这里有一个线程池的链接code https://github.com/RLovelett/eigen/blob/ad8fd1bbcf329088f16af5875e4b15c2bce95df1/unsupported/Eigen/CXX11/src/ThreadPool/NonBlockingThreadPool.h。这个线程池正在使用这个队列实现RunQueue https://eigen.tuxfamily.org/dox/unsupported/RunQueue_8h_source.html。每个线程有一个队列。

重新 inline_ready: Executor:Process被调度在一些特征线程中。当它运行时，它会执行一些节点。当这些节点完成后，它们使其他节点（张量流操作）准备就绪。其中一些节点并不昂贵。它们被添加到 inline_ready 并在同一线程中执行，而不产生任何结果。其他节点很昂贵，并且不会在同一线程中“立即”执行。它们的执行是通过 Eigen 线程池来调度的。

重新同步/异步内核：Tensorflow 操作可以由同步（大多数 CPU 内核）或异步内核（大多数 GPU 内核）支持。同步内核在运行的线程中执行Process。异步内核被分派到其设备（通常是 GPU）来执行。当异步内核完成时，它们调用NodeDone method.

关于内部操作线程池：内部操作线程池可供内核并行运行其计算。大多数CPU内核不使用它（GPU内核只是调度到GPU）并在调用该函数的线程中同步运行Compute方法。根据配置的不同，要么有一个由所有设备 (CPU) 共享的内部操作线程池，要么每个设备都有自己的线程池。内核只是在这个线程池上安排它们的工作。这是一个这样的例子kernel https://github.com/tensorflow/tensorflow/blob/0b437ada0654820e21f81bd415f691251408346a/tensorflow/contrib/boosted_trees/kernels/prediction_ops.cc#L271。如果任务多于线程，则它们会按未指定的顺序进行调度和执行。这里是线程池接口 https://github.com/petewarden/tensorflow_makefile/blob/49c08e4d4ff3b6e7d99374dc2fbf8b358150ef9c/tensorflow/core/lib/core/threadpool.h暴露于内核。

我不知道张量流以任何方式影响操作系统线程的调度。您可以要求它进行一些旋转（即不立即将线程交给操作系统）以最大限度地减少延迟（来自操作系统调度），但仅此而已。

这些内部细节没有被故意记录，因为它们可能会发生变化。如果您通过 Python API 使用 TensorFlow，您只需要知道您的操作将在其输入准备就绪时执行。如果您想执行超出此范围的某些命令，您应该使用：

with tf.control_dependencies(<tensors_that_you_want_computed_before_the_ops_inside_this_block>):
  tf.foo_bar(...)

如果您正在编写自定义 CPU 内核并希望在其中实现并行性（对于非常昂贵的内核通常很少需要），那么您可以依赖上面链接的线程池接口。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

ThreadPool

在单（多核）CPU 设备上执行 TensorFlow 的相关文章

Tensorflow 对 Python3.11 的支持

我在 Windows10 PC 上安装了 Python3 11 0 尝试使用以下命令安装张量流 pip install tensorflow 给出错误访问tensorflow网站后我意识到它仅支持3 7 3 10 我应该降级 pytho
使用 tf.estimator.Estimator 加载检查点和微调

我们正在尝试将旧的训练代码转换为更符合 tf estimator Estimator 的代码在初始代码中我们针对目标数据集微调原始模型在使用以下组合进行训练之前仅从检查点加载一些层要恢复的变量 and init fn与监控培训课程
无法使用 Keras 中的 multi_gpu_model 后的 model.save 保存模型

升级到 Keras 2 0 9 后我一直在使用multi gpu model实用程序但我无法使用保存我的模型或最佳权重 model save path 我得到的错误是类型错误无法pickle模块对象我怀疑访问模型对象时存在一些问题
keras 模型拟合：ValueError：无法找到可以处理输入的数据适配器：，

我正在构建一个简单的 CNN 模型用于多类分类训练和测试数据位于data path根据所需的类子目录flow from directory的函数ImageDataGenerator 这是我根据数据构建和训练模型的代码 from tenso
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
大于 2GB 的 Tensorflow 图

我正在尝试优化一个大型张量流保存模型其中包含 10MB saving model pb 和 16GB 变量我尝试冻结我的图表并进行一些进一步的转换我已按照步骤操作https medium com google cloud optimi
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
如何修复 Tensorflow 中的“ValueError：操作数无法与形状 (2592,) (4,) 一起广播”？

我目前正在设计一个 NoisyNet 层如下所示探索嘈杂的网络 https arxiv org abs 1706 10295 在 Tensorflow 中并得到如标题所示的维度误差而两个张量的维度将在行中按元素相乘filtered o
Tensorflow 中使用 Adam Optimizer 时损失突然增加

I am using a CNN for a regression task I use Tensorflow and the optimizer is Adam The network seems to converge perfectl
如何在张量流中使用索引数组？

如果给定一个矩阵a有形状 5 3 和索引数组b有形状 5 我们很容易得到对应的向量c通过 c a np arange 5 b 但是我不能用张量流做同样的事情 a tf placeholder tf float32 shape 5 3 b
查找张量流运算所依赖的所有变量

有没有办法找到给定操作通常是损失所依赖的所有变量我想用它来将该集合传递到optimizer minimize or tf gradients 使用各种set intersection 组合到目前为止我已经找到了op op input
Tensorflow：无法在 gradle 中解析

今天早上我打开 Android Studio 时 Gradle 尝试同步时出现以下错误 Error 103 13 Failed to resolve org tensorflow tensorflow android 按照他们的说明Gith
java中的负载均衡线程池的种类

我正在寻找一个负载平衡的线程池到目前为止还没有成功不确定负载平衡是否是正确的措辞让我解释一下我试图实现的目标第1部分我有 Jobs 有 8 到 10 个单一任务在 6 核 CPU 上我让 8 个线程并行处理此任务这似乎提供了
如何在 TensorFlow 中访问原型中的值？

我从tutorial https www tensorflow org extend tool developers 我们可以这样做 for node in tf get default graph as graph def node pr
Boost asio thread_pool join不等待任务完成

考虑功能 include
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
sigmoid激活函数可以用来解决Keras中的回归问题吗？

我已经用 R 实现了简单的神经网络但这是我第一次用 Keras 实现所以希望得到一些建议我在 Keras 中开发了一个神经网络函数来预测汽车销量数据集可用here https github com allmydatasets dat
tf-models：official.vision.detection Mask-RCNN 无效参数：indices[1,63] = [1, -1] 未索引到参数形状 [2,100,112,112]

我正在尝试根据此处提供的官方 MaskRCNN 模型训练 Mask RCNN 模型张量流模型 https github com tensorflow models tree master official vision detectio
自定义 Keras 损失函数中的 conv2d

我正在尝试基于两个图像的拉普拉斯算子在带有 TF 后端的 Keras 中实现自定义损失函数 def blur loss y true y pred weighting of blur loss alpha 1 mae losses mean
TensorFlow：Dst 张量未初始化

The MNIST For ML Beginners当我运行时教程给我一个错误print sess run accuracy feed dict x mnist test images y mnist test labels 其他一切都运行

随机推荐

如何在 mysql select 语句上连接 4 个表？

我在 MySQL 中有 4 个表需要连接例子 select db gt query SELECT FROM ads WHERE ad pic 1 AND ad status 1 ORDER BY ad id DESC LIMIT 0 4
在后台线程 python/pygtk 中运行计算

有没有一种方法可以在后台运行 python 线程而无需在耗时的指令期间锁定 python 的其余部分我正在尝试在 python pygtk 应用程序的后台线程中进行耗时的计算我了解线程是如何工作的问题是每次我在任何线程中运行一个昂
无法下载包“runtime.win10-x86.Microsoft.Net.UWPCoreRuntimeSdk.2.1.1”

我正在 Visual Studio 2017 中使用移动应用程序但是当我第一次创建此项目并尝试构建它时出现以下错误 Failed to download package runtime win10 x86 Microsoft Net U
64 位操作系统上 32 位 JVM 的最大 Java 堆大小

问题不在于 32 位操作系统上的最大堆大小因为 32 位操作系统的最大可寻址内存大小为 4GB 并且 JVM 的最大堆大小取决于可以保留多少连续可用内存我更感兴趣的是了解在 64 位操作系统中运行的 32 位 JVM 的最大堆大小理论
在C++中使用json-spirit读取json字符串

如何在C 中使用json spirit读取json字符串我阅读了演示代码我发现 const Address addrs 5 42 East Street Newtown Essex England 1 West Street Hull
只能在 Visual Studio 2008 中输入字母

在我的 VS2008 中突然间我只能使用字母不能使用 Enter 空格删除退格或任何其他键有什么建议如何解决这个问题吗键盘在其他应用程序中运行良好谢谢我每天都会遇到这个问题好几次确保工具 gt 选项 gt 环境下的语言设
鉴于“marginLeft”实际上并不存在，应该如何在 Flex 4 中制作项目符号列表？

先生们想象一下想要显示项目符号列表 like this one 在 Flex 4 中使用 Adob e 的文本布局框架 TLF 如何在 MXML 中定义这样一个项目符号列表据我了解当前版本的 TLS 尚未实现对项目符号列表的支持没关
React JS：应用 Material-UI CssBaseline

我想给我的新React应用程序具有一致的外观和感觉Material UI 另外我希望样式等易于维护所以默认主题似乎是一个很好的开始这cssBaseline由提供Material UI似乎勾选了所有选项所以我想尝试一下令人惊讶的是
Cassandra .Net 驱动程序和 CQL 驱动程序（2012 年 8 月）

有人对此提出了问题但它们已经存在一年多了所以我重新发布我不是问哪个是最好的驱动程序因为这是主观的我正在寻找有关稳定性最新 Cassandra 功能合规性文档和易用性以及速度的数据 Hector 似乎几乎没有什么活动 2 年
避免 Husky 因 monorepo 项目中每个不相关目录的更改而被触发

我在我的 lerna monorepo 项目中使用 husky 该项目有多个目录项目 husky front package json app package json on hook prepush我在 front 和 app 上启动测
Groovy 是一种潜在的 Android 开发语言吗？

Closed 这个问题需要多问focused help closed questions 目前不接受答案我最近开始使用 groovy 作为 Java 的替代品我想用 groovy 开发 Android 应用程序我研究过的所有例子似乎都
在 Python 中未安装 caffe 的情况下从 .caffemodel 中提取权重

有没有一种相对简单的方法可以从 Caffe Zoo 中的众多预训练模型之一中提取 Python 中的权重没有咖啡也不是 pyCaffe 即解析 caffemodel转换为 hdf5 numpy 或任何 Python 可以读取的格式我找到
XML/XSD ID/IDREF 类型值的典型最大长度是多少？

The W3C XSD 1 0 第 2 部分数据类型 http www w3 org TR xmlschema 2 规范指的是W3C XML 1 0 http www w3 org TR xml ID 和 IDREF 类型的定义规范但这
Go 中函数重载的替代方案？

是否可以使用 Golang 以类似于 C 中的函数重载或可选参数的方式工作或者也许有替代方法 Go 中可选参数的惯用答案是包装函数 func do a b c int func doSimply a b do a b 42 函数重载被故意
如何让 Cypress 使用位于默认集成文件夹之外的测试文件？

我正在努力保持我的 spec js用于测试的文件位于需要测试的实际文件旁边如下所示 product product js product spec js user user js user spec js 以上 spec js文件没有出现
逐列写入 CSV 文件

我正在寻找这个问题的答案但没有找到有没有人有解决此类问题的方法我有一组文本变量必须使用 Java 将它们写入 CSV 文件中我目前正在做一个使用 JavaScript 的项目需要 Java 这是我现在拥有的一个函数可以很好地完
Angular：无法使用 ExcelJS 导出 excel - 错误 TS2307：找不到模块“流” - 错误 TS2503：找不到命名空间“NodeJS”

我尝试使用导出 Excel 文件ExcelJS 这是我的console在 VS Code 终端中 ERROR in node modules exceljs index d ts 1398 22 error TS2307 Cannot fi
用于比较最小化 Javascript 文件的工具 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要比较两个最小化的 Javascript 文件最常见的差异查看器会列出每行的差异但是当脚本被压
需要更新服务版本吗？ [复制]

这个问题在这里已经有答案了我正在开发 Xamarin Android 应用程序我正在得到ConnectionResult statusCode SERVICE VERSION UPDATE REQUIRED resolution nul
在单（多核）CPU 设备上执行 TensorFlow

我对 TensorFlow 在只有 CPU 设备且网络仅用于推理的特定情况下的执行模型有一些疑问例如使用图像识别 https www tensorflow org tutorials image recognition https www

在单（多核）CPU 设备上执行 TensorFlow

在单（多核）CPU 设备上执行 TensorFlow 的相关文章

随机推荐

热门标签