为什么线程本地存储这么慢？

2024-01-17

我正在为 D 编程语言开发一个自定义标记释放样式的内存分配器，它通过从线程局部区域进行分配来工作。与代码的其他相同的单线程版本相比，线程本地存储瓶颈似乎导致从这些区域分配内存的速度大幅减慢（~50%），即使在将我的代码设计为每次分配仅进行一次 TLS 查找之后/解除分配。这是基于在循环中多次分配/释放内存，我试图弄清楚这是否是我的基准测试方法的产物。我的理解是，线程本地存储基本上应该只涉及通过额外的间接层访问某些内容，类似于通过指针访问变量。这是不正确的吗？线程本地存储通常有多少开销？

注意：虽然我提到了 D，但我也对不特定于 D 的一般答案感兴趣，因为如果 D 的线程本地存储实现比最佳实现慢，它可能会得到改进。

速度取决于 TLS 实施。

是的，您是对的，TLS 可以与指针查找一样快。在具有内存管理单元的系统上甚至可以更快。

对于指针查找，您需要调度程序的帮助。调度程序必须在任务切换时更新指向 TLS 数据的指针。

实现 TLS 的另一种快速方法是通过内存管理单元。这里，TLS 的处理方式与任何其他数据一样，但 TLS 变量是分配在特殊段中的。调度程序将在任务切换时将正确的内存块映射到任务的地址空间。

如果调度程序不支持任何这些方法，编译器/库必须执行以下操作：

获取当前线程Id
拿一个信号量
通过 ThreadId 查找指向 TLS 块的指针（可以使用映射等）
释放信号量
返回该指针。

显然，为每个 TLS 数据访问执行所有这些操作需要一段时间，并且可能需要最多三个操作系统调用：获取 ThreadId、获取和释放信号量。

顺便说一句，需要信号量来确保当另一个线程正在生成新线程时没有线程从 TLS 指针列表中读取。（并因此分配一个新的 TLS 块并修改数据结构）。

不幸的是，在实践中 TLS 实现速度缓慢的情况并不少见。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么线程本地存储这么慢？的相关文章

将嵌套循环计算转换为 Numpy 以加速

我的Python程序的一部分包含以下代码段其中一个新的网格是根据旧网格中找到的数据计算的网格是二维浮点数列表该代码使用了三个 for 循环 for t in xrange 0 t step for h in xrange 1 hei
等待 .NET 线程启动的正确方法是什么？

我在微软网站上的线程教程中阅读了以下内容 http msdn microsoft com en us library aa645740 v vs 71 aspx http msdn microsoft com en us library a
使用任务的经典永无止境的线程循环？

给出了一个非常常见的线程场景宣言 private Thread thread private bool isRunning false Start thread new Thread gt NeverEndingProc thread S
动态 SQL 和 where case 哪个更好？

我需要创建一个带有 12 个参数的存储过程并使用这些参数的不同组合来过滤查询所有 12 个参数都不是强制性的就好像我传递 3 5 或 12 个参数取决于用户输入的搜索输入一样我可以通过两种方式创建即使用动态 SQL 查询或使用 C
Node.js 工作线程中的 I/O 性能

下面是一个工作线程示例在本地计算机上同步 I O 大约需要 600 毫秒 const fs require fs const isMainThread Worker parentPort workerData require worker
将 POST 从请求转换为 GAE urlfetch

我正在使用 PayPal 付款这是它如何正确工作的requests res requests post get payment info url headers headers data params res data res json
加快写入文件的速度

我已经分析了一些我用 cProfile 继承的遗留代码我已经做了很多有帮助的更改例如使用 simplejson 的 C 扩展基本上该脚本将数据从一个系统导出到 ASCII 固定宽度文件每一行都是一条记录并且有许多值每行有 71
插入并发问题-多线程环境

我有一个问题即使用完全相同的参数在完全相同的时间调用相同的存储过程存储过程的目的是获取记录如果存在或创建并获取记录如果不存在问题是两个线程都在检查记录是否存在并报告错误然后都插入新记录在数据库中创建重复记录我尝试将操作保留
Python 和 sqlite3.ProgrammingError：不允许递归使用游标

我写了一个像这样的Python程序它应该在多线程模式下运行 def Func host cursor db cursor execute SELECT If index Username Version Community Ip traf
哪个更快：堆栈分配或堆分配

这个问题听起来可能相当简单但这是我与另一位合作的开发人员进行的辩论我小心翼翼地在可能的地方进行堆栈分配而不是堆分配它们他一边跟我说话一边看着我并评论说没有必要因为他们的表现是一样的我总是有这样的印象堆栈的增长是恒定的时间
setInterval() 如何影响性能？

我们正在使用 Twitter Bootstrap 作为框架构建一个 Web 应用程序但在显示隐藏工具提示时遇到问题除了尝试找到实际问题的解决方案之外我还有一个关于我们同时使用的解决方法的问题从性能角度来看使用 setInterv
字符串与 StringBuilder

我理解之间的区别String and StringBuilder StringBuilder是可变的但是两者之间有很大的性能差异吗我正在开发的程序有很多大小写驱动的字符串附加 500 正在使用StringBuilder更好的选择是的
Java 执行器和长寿命线程

我继承了一些使用 Executors newFixedThreadPool 4 的代码运行 4 个长寿命线程来完成应用程序的所有工作这是推荐的吗我读过Java 并发实践 https rads stackoverflow com amzn
如果未返回，则在一段时间后终止线程

我有一个线程从网络或串行端口获取一些数据如果 5 秒内没有收到数据则线程必须终止或返回 false 换句话说如果线程运行时间超过 5 秒则必须停止我用 C 编写但任何 NET 语言都可以有两种方法 1 封装超时从网络或串行
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
Android：如何暂停和恢复可运行线程？

我正在使用 postDelayed 可运行线程当我按下按钮时我需要暂停并恢复该线程请任何人帮助我这是我的主题 protected void animation music6 music4 postDelayed new Runnab
为什么在谈论线程和进程时，“不要同时格式化软盘”的评论很有趣？

我正在阅读之间的区别线程和进程 https stackoverflow com questions 200469 what is the difference between a process and a thread并在第二个答案中发现
确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
为什么在读取字典时要锁定

我对我正在阅读的一本关于线程的书 C 3 in a Nutshell 中的代码列表感到困惑在应用程序服务器中的线程安全主题中给出了以下代码作为 UserCache 的示例 static class UserCache static
通过增加索引之和来生成排序组合的有效方法

对于启发式算法我需要一个接一个地评估特定集合的组合直到达到停止标准由于它们很多目前我正在使用以下内存高效迭代器块生成它们受到 python 的启发 itertools combinations http docs python o

随机推荐

如何将日志限制为给定提交的所有后代？

鉴于历史 X Y lt feature A B C D E lt master 我想获取给定提交的后代一种解决方案似乎是 git log all ancestry path
Cassandra 计数器列系列是否支持 TTL？

Cassandra 是否支持 Counter 列系列的 TTL 具体来说我们使用 Hector 作为 Cassandra 的客户端但我没有发现任何 API 接收 TTL 作为参数至少HFactory createCounterColu
Google 文档查看器禁用下载

请看一下这个链接 http jsfiddle net C7Py6 3 http jsfiddle net C7Py6 3 The last icon on google viewer s toolbar enables user to vi
在Go中过滤json流中的非json内容

我正在 Go 中使用 json 结构的输入流我在标准输入上接收来自另一个应用程序的输入流并且无法更改通信协议我遇到的问题是每个 json 结构都由非 json 字符串行终止 end 不带引号我正在使用 Golang 编码器 json
请解释Java 8方法引用使用类名的实例方法

public interface MyFunc
Applicative不与排序一起使用

我有这种类型基本上是克莱斯利箭头 language DeriveFunctor data Plan m i o Plan i gt m o deriving Functor instance Monad m gt Applicative
如何在 Scala 中转换失败的未来异常？

我一直用recover转换失败期货中的异常类似于 def selectFromDatabase id Long Future Entity val entity selectFromDatabase id recover case e D
在 Android 设计库 TabLayout 中选择时更改图标和标题颜色

我在用TabLayout我想要实现的设计库是我已经尝试了很多教程我可以通过自定义选项卡来实现它但是选择选项卡时会出现限制我想更改文本颜色以及图标的图像这是不可能的到目前为止我读过的任何教程到目前为止我已经尝试过将其添加到Fra
通过 tcp/ip 传输不断增长的文件

我正在开发一个项目其中一个硬件正在生成不断写入文本文件的输出我需要做的是在通过简单的 tcp ip 连接写入该文件时流式传输该文件我目前正在尝试通过简单的 netcat 来实现这一点但 netcat 只发送在执行时写入的文件部分它
如何在相对的两侧创建滑动抽屉？

我已经添加了从右到左滑动完美的代码但我也想从左到右滑动所以检查布局并帮助我这里我已经提到了从右到左正确的布局是否有可能获得滑块两侧的窗口我的意思是水平方向的左侧和右侧
AnythingSlider：如何重新启动幻灯片放映

我通过使用 slider2 data AnythingSlider startStop true 单击按钮在弹出的 div 中开始幻灯片放映通过 slider2 data AnythingSlider startStop false 停止
HttpClient 不使用 .NET Core 在 Windows 上发送客户端证书

我无法让 HttpClient 类在 Windows 上使用 NET Core 发送客户端证书这是我正在使用的代码 X509Certificate2 certificate new X509Certificate2 C Repos sel
如何在UML类图中描述包含的映射？

我有一个 MyServer 类其中包含一个 Map 其键是 MyClientType 对象其值是 MyClient 对象我想在类图中描述这种关系但我找不到一种干净的方法来做到这一点您可以使用合格的协会 1 MyServer Key
scikit-learn roc_auc_score() 返回准确度值

我正在尝试使用以下方法计算 ROC 曲线下的面积sklearn metrics roc auc score使用以下方法 roc auc sklearn metrics roc auc score actual predicted where
将 Pandas SparseDataframe 转换为 Scipy 稀疏 csc_matrix

我想转换一只熊猫SparseDataFrame to a scipy sparse csc matrix 但我不想先将其转换回密集矩阵现在我有类似下面的东西 df pd get dummies df sparse True 基本上我需要的
设置maven+jetty+eclipse的调试配置

我在 Eclipse 中使用 Maven 创建了一个 Web 应用程序我正在使用 jetty 来运行该应用程序我可以使用 Maven jetty 插件运行该应用程序但我在调试应用程序时遇到困难我设置调试设置所遵循的步骤来自以下链接h
“消除首屏内容中阻碍渲染的 CSS”

我一直在使用 Google PageSpeed 见解来尝试提高网站的性能到目前为止事实证明它非常成功像延迟脚本这样的事情工作得很好因为我已经有了 jQuery 的内部版本 ready 要推迟脚本直到页面完全加载我所要做的就是内联该
如何使用 Python 在 SVG 文件中通过“id”字段查找元素

以下是 svg 文件 xml 的摘录
python sqlite3.connect - 无法打开数据库文件

我正在 Mac 上运行 Python3 测试简单的 sql 数据库我有下面的代码 import sqlite3 connecting to the database connection sqlite3 connect myTable d
为什么线程本地存储这么慢？

我正在为 D 编程语言开发一个自定义标记释放样式的内存分配器它通过从线程局部区域进行分配来工作与代码的其他相同的单线程版本相比线程本地存储瓶颈似乎导致从这些区域分配内存的速度大幅减慢 50 即使在将我的代码设计为每次分配仅进行一次 T

为什么线程本地存储这么慢？

为什么线程本地存储这么慢？ 的相关文章

随机推荐

热门标签

为什么线程本地存储这么慢？的相关文章