CPU超线程技术到底有什么用？

2023-05-16

什么是超线程技术

前几天的超线程文章引起了不少讨论，有些四驱两驱之类留言就不点出来了。今天咱们趁热打铁来聊下CPU超线程的实际用途。超线程的英文名是Hyper-Threading Technology，简称HT。超线程技术是Intel在奔腾4C处理器上开始投入的一种技术，从原理上来说就是在CPU内核里加入一套逻辑电路，将一颗物理核心模拟为两颗逻辑处理器。

对WINDOWS系统来说逻辑和物理核心都CPU，所以操作系统会把所需要的工作线程交给这些运算单元去工作。

10核20线程的10900K

超线程的出现目的是榨干CPU物理核心的全部闲置资源，简单来说就是让CPU物理核心一分为二去同时执行更多的操作指令与数据。

但由于是压榨闲置资源，所以这颗虚拟出来的逻辑处理器完全达不到物理处理器（内核）的性能。

打游戏用的上超线程吗

目前大多数游戏对CPU核心的依赖约4~6核心，对线程的依赖相当有限，甚至另外部分游戏关了超线程反而帧数更高。当然也有一些开放世界游戏会比较吃CPU。

原神团队混战，看似混乱，实际占用率只有16%，相当于3个多逻辑处理器的计算量。在些较新的游戏则会用到8核甚至更多，此时超线程技术可能对游戏帧数有所帮助。

那些软件用得上超线程

超线程技术目前更多的在一些专业应用上有性能体现，比如3D渲染，建模和视频编辑软件。

虽然有越来越多软件开始应用GPU加速技术，但CPU性能依然是不可或缺的一部分。

比如知名3D渲染软件KEYSHOT在官网上就宣称，该软件可充分利用所有可用的CPU内核，这意味着这款软件能调用CPU的全部内核与线程去执行3D渲染。

线程越多所耗费的等待时间自然也就越短了。而KEYSHOT的用户不少是那些制造业用户，产品渲染需要花费大量时间，一块高性能CPU搭配超线程技术可有效提升渲染效率。

超线程的现状

目前Intel平台的超线程技术并非Northwood上的老式HT，而是自Nehalem架构后启用的新技术，通过当时高效率的分支预测技术和短流水线设计，Nehalem架构超线程性能比奔腾4时代有了显著提升，特别是核心数量越来越多后超线程的效果也越来越好，比如在10900K上已经能模拟出12核+的运算速度。

这些年基本上Intel的超线程都属于小修小补每代还略微提升一些性能，且在售的第十代酷睿已经全面配置超线程。AMD方面SMT超线程技术效率很高，且除3500X在售的锐龙3/5/7/大多搭载该技术，并使入门型号也有不俗的性能和潜力。

不过现阶段大多数游戏和应用还是更依赖于处理器本身的单核效率，在核心调用相同的情况下单核性能越强对程序和游戏的帮助就越大，这也是为什么近期大家的关注点都在ZEN3平台的一大原因。当然如果明年RL提升巨大的话，也是非常值得期待的。

在了解超线程是什么之前我们要先知道线程是什么。

这部分很多同学都已经了解，就不再赘述了，需要复习的同学，请自行百度。

什么是多线程？

MultiThreading多线程这个概念有些暧昧，多线程可以指在一个CPU核心上同时执行多个线程，也可以是多个任务，尽管在同一个核心内执行，但是它们之间完全分离。

多线程在概念上类似抢占式多任务处理，但是在现在的超标量处理器中以线程级来实现。

多线程有两个主要实现方法:

一个是Temporal MultiThreading时间多线程，
另一个则是Simulate MultiThreading同步多线程

时间多线程还可以进一步分为:

Fine-Grained MultiThreading细粒度多线程
Coarse-Grained MultiThreading粗粒度多线程。

各种多线程技术

CMT粗粒度多线程是最简单的多线程技术，当单一执行线程遇到长时间的延迟，如Cache Missed时，就进行线程切换，直到原线程等待的操作完成，才切换回去。

FMT细粒度多线程比CMT粗粒度多线程复杂一些，它随时可以在每个时钟周期内切换多个线程，以追求最大的输出能力，当然，随时可以切换也是有代价的，它拉长了每个执行线程的平均执行时间。

CMT和FMT都没有在消费级处理器上面使用，Intel与AMD处理器上使用的都是SMT同步多线程，不过NVIDIA与AMD的GPU都有使用FMT技术。

SMT同步多线程具有多个执行单元，CMT和FMT都是在单个执行单元下的技术，不同的线程在指令级别上并不是真正的“并行”，而SMT则具有多个执行单元，同一时间内可以同时执行多个指令，可以充分发掘超标量处理器的潜力，因此SMT具有最大的灵活性和资源利用率，不过处理器也更复杂。

不过现在的消费级处理器都是超标量处理器，所以要支持SMT其实在架构上不用太多改变：所需的主要添加是在一个周期中从多个线程获取指令的能力，以及一个更大的寄存器文件来保存来自多个线程的数据。

并发线程的数量可以由芯片设计者决定。常见模式是每个CPU核心有两个并发线程，但一些处理器的每个核心支持最多八个并发线程。

工作原理

对于单一处理器核心来说来说，虽然也可以每秒钟处理成千上万条指令，但是在某一时刻，只能够对一条指令(单个线程)进行处理，超线程技术能够把一个物理处理器在软件层变成两个逻辑处理器，可以使处理器在某一时刻，同步并行处理更多指令和数据(多个线程)，当然了实际效能不可实现双倍提升，毕竟干活的核心只有一个。

逻辑双核与物理双核

可以这样说，超线程是一种可以将CPU内部暂时闲置处理资源充分“调动”起来的技术，奔腾4 HT处理器多加入了一个逻辑处理单元，这让CPU可以同时执行多个程序而共享一颗CPU内的资源，如：ALU、FPU、缓存等，当两个线程都同时需要某一个资源时，其中一个要暂时停止，并让出资源，直到这些资源闲置后才能继续，因此超线程的性能并不等于两颗CPU的性能。

四个框框（双核四线程）的奔腾EE 840在单核还是绝对主流的2005年看起来就夸张

在发布奔腾4 HT处理器的时候Intel说过，超线程技术只增加了5%的芯片面积，就可换来15%~30%的性能提升，而后来的Nehalem架构带来了全新的超线程技术，得益于指令集分制预测技术与较短的流水线。

它拥有比奔腾4好得多的效能，再加上整合了内存控制器让其拥有更大的内存带宽，还有更大的缓存，这样就更能够有效的发挥超线程的作用。

Nehalem的超线程可以在增加很少能耗的情况下，让性能提升20-30%，后续每一代虽然都有一些小修改，不过基本上都是Nehalem架构的延续。

超线程的作用

其实在Intel刚把超线程技术推向消费级市场的时候市场反应不怎么好，因为当时的操作系统和软件都没有对多线程技术进行优化，多数软件都是以单线程运行，超线程的优势非但显露不出来反而会因为另一个虚拟处理器抢占资源导致运行起来比没超线程的处理器更慢。

这些问题随着这些年来操作系统和软件逐步对多核多线程进行优化得到改变，特别是Windows 10系统对多线程优化相当好，操作系统的调度器设置更为科学，多核心多线程的负载更为平均。

你在Windows 10系统下打开任务管理器会发现，不论物理核心还逻辑核心的负载都相当平衡，除非是人为指定负载线程，否则很少会出现之前Windows 7那样单核负载多核围观的惨状。

Windows 10下CPU的负载相当平均

至于超线程的作用其实还是很明显的，之前我们对比测试过Core i7-6700K和Core i5-7600K，他们俩的四核与单核Boost频率是相同的，都是4.0GHz与4.2GHz，区别就在于超线程的有无和L3缓存的大小了，至于Skylake与Kaby Lake两者是没有性能上的差别的。

有超线程的Core i7-6700K多线程性能比Core i5-7600K好19%左右，然而超线程技术在提升处理器的利用率增大吞吐量的同时也稍微增加了单个线程的延时，如果只看单线程能力的话Core i5-7600K其实比Core i7-6700K还好2.8%左右，然而降低这么一点单线程性能让多线程性能提升这么多这其实是很划算的。

太长不看版：

简单地说，超线程技术是一个很好的提升核心利用率的东西，将闲置处理资源充分调动起来，增强核心并行运算性能，在操作系统中一颗物理CPU能当做多颗CPU来使用。

超线程有什么好处呢：

－有效提升CPU利用率

－改善计算机的性能

－提高系统可靠性

比如奔腾G4560这种双核在拥有超线程之后性能暴增，在低端入门市场相对受欢迎，双核四线程的处理器能够对应大多数轻量级日常应用。

当然随着核心数目增多超线程的作用就越弱，特别是那些八核或者核心数更多的处理器，十六个框框看起来很爽然而实际上用起来很多线程都是空载的，大多数消费者与应用都没法很好的利用这么多线程的性能，目前只有视频和3D渲染软件和压缩软件有能做到，软件还是制约硬件性能的最大因素。

另外，超线程技术需要CPU支持，需要主板支持，需要操作系统支持，还需要应用软件支持，缺一不可，否则就玩不转了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CPU

超线程技术到底有什么用

CPU超线程技术到底有什么用？的相关文章

系统启动时哪个核心首先初始化？

我想知道CPU启动时多核处理器的哪个核心首先初始化我的意思是在引导加载程序级别是第一个核心还是随机核心您想要阅读本地 apic 您可以在卷 2a 中阅读 http www intel com content www us en p
为什么 perf stat 将“stalled-cycles-backend”显示为<不支持>？

Running perf stat ls显示这个 Performance counter stats for ls 1 388670 task clock 0 067 CPUs utilized 2 context switches 0 0
高处理器使用率下的 WCF 和线程池响应能力

我们在控制使用 WCF 发送启动停止命令的长时间运行进程时遇到问题问题似乎是当CPU负载较高时WCF不响应请求不幸的是对于相关应用程序来说尽可能多的内核上的高 CPU 是必要的因为它需要执行大量的数值计算该问题是否与使用 WC
为什么负载不能绕过同一核心上的另一个线程从写入缓冲区写入的值？

如果CPU核心使用写缓冲区则负载可以从写缓冲区绕过最近的存储到引用的位置而无需等到它出现在缓存中但是正如它所写的记忆一致性和连贯性入门 https lagunita stanford edu c4x Engineering CS31
Android：您的CPU不支持VT-x

您的 CPU 不支持 VT x 运行此 AVD 需要 Intel HAXM 您的 CPU 不支持 VT x 不幸的是您的计算机不支持硬件加速虚拟化以下是您的一些选择 1 使用物理设备进行测试 2 在具有支持VT x和NX的Intel处理
XNA 的 CPU 使用率高

我今天刚刚注意到当我编译并运行一款新的 XNA 4 0 游戏时其中一个 CPU 线程以 100 的速度运行并且帧速率下降到 54 FPS 奇怪的是有时它可以在 60 FPS 下运行但随后就会下降到 54 FPS 我以前没有注意到这
尝试在 Windows PC 上禁用处理器空闲状态（C 状态）

我需要防止处理器进入空闲状态非C0 C状态诚然我对处理器 C 和 P 状态了解不多所以请耐心等待我们使用来自第三方供应商的相机该相机偶尔会提供损坏的帧供应商已确定当 CPU 进入空闲状态时它会干扰通过火线传输帧为了确认这
Java限制资源使用

有没有办法限制java使用的核心数量同样是否有可能限制该核心的使用量您可以在 Linux 上使用任务集您还可以降低进程的优先级但除非 CPU 繁忙否则进程将获得尽可能多的 CPU 我有一个将线程专用于核心的库称为 Java T
如何使用 bash 命令创建 CPU 峰值

我想在 Linux 机器上创建接近 100 的负载它是四核系统我希望所有核心都全速运行理想情况下 CPU 负载将持续指定的时间然后停止我希望 bash 有一些技巧我在想某种无限循环 I use stress http linux
Tensorflow 相同的代码，但从 CPU 设备到 GPU 设备得到不同的结果

我正在尝试实现一个程序来测试 GPU 设备上的 Tensorflow 性能数据测试是MNIST数据使用多层感知器神经网络进行监督训练我跟着这个简单的例子 http gist github com nishidy 8176548ec
GPU 的延迟是多少？

我可以找到 CPU 核心与其缓存主内存等之间的 CPU 周期延迟但似乎很难找到有关现代 GPU 的类似信息有谁知道 GPU 的延迟特别是现代 nvidia GPU GF110 或更高版本与其内存之间的延迟谢谢 GPU 内存确实具
为什么每个逻辑 CPU 在多线程情况下都有自己的 CR3 寄存器？

当我们有一个支持某种形式的多线程的 CPU 时每个逻辑 CPU 都有它自己的一组寄存器至少包括 CR3 寄存器由于我们在执行不同线程时正在处理同一进程的虚拟地址空间并且永远不会发生上下文切换切换同一进程的线程时TLB缓存也不会失
CPU如何对指令重新排序

我最近读到了有关 CPU 指令重新排序以提高效率的内容但我无法理解CPU如何重新排序其指令我的意思是编译时重新排序是可以想象的因为编译器可以预见即将到来的代码但是对于一个接一个地读取指令的CPU 它如何看到即将到来的指令并对它们重新
java中获取某些进程的cpu使用率的正确命令行是什么

给定进程 ID 在 Java 中从进程获取当前 cpu 使用情况的正确命令是什么命令 typeperf Memory Available bytes processor total process time 不适用于特定进程并且任何第
Linux：如何对系统内存施加负载？

我正在开发一个小功能它可以让我的用户了解 CPU 的占用情况我在用着cat proc loadavg 它返回众所周知的 3 个数字我的问题是当我正在开发时 CPU 目前没有做任何事情有没有一种好方法可以在CPU上产生一些负载我在
什么是微编码指令？

我看过很多参考微编码指令的文献这些是什么以及为什么使用它们 CPU 读取机器代码并将其解码为内部控制信号将正确的数据发送到正确的执行单元大多数指令映射到一个内部操作并且可以直接解码例如在 x86 上 add eax edx只是将
哪种架构称为非均匀内存访问（NUMA）？

根据wiki http en wikipedia org wiki Non uniform memory access 非均匀内存访问 NUMA 是一种用于多处理的计算机内存设计其中内存访问时间取决于相对于处理器的内存位置但尚不清楚它是
通过 C 将线程固定到 cpuset 中的核心

我有 cgroup cpuset set1 set1有2 5 8 我想将一个进程绑定到该 cpuset 然后将该进程中的一个线程固定到核心 4 cpuset 的名称线程名称以及我应该将线程绑定到的核心位于 m 配置文件中是否有任何 C
每个 CPU 核心处于 C0 电源状态的时间

任何帮助弄清楚如何做到这一点都会很棒在过去一秒内每个 CPU 核心处于 C0 电源状态的时间有多少这是针对 Mac 应用程序的因此需要 Objective C cocoa 和 c OS X 没有任何公开 CPU c 状态的 API
NodeJS CPU 一次飙升至 100%

我有一个用 NodeJS 编写的 SOCKS5 代理服务器我正在使用原生net and dgram打开 TCP 和 UDP 套接字的库它可以正常工作大约 2 天所有 CPU 的最大利用率约为 30 两天没有重新启动后一个 CPU 峰

随机推荐

《演讲的本质》：如何做好一次公开演讲？

关于本书演讲的本质是一本教你通过演讲最大化自己的影响力建立信任关系的工具书 xff0c 探讨演讲的本质和价值本书从视觉听觉语言三个角度来分析如何最大程度地打动听众 xff0c 并提供了行之有效的练习方法核心内容演讲的本质与价
ubuntu系统镜像下载源

ubuntu 14 04 和16 04 快速下载由于官网服务器在国外 xff0c 下载速度奇慢 xff0c 所以我们可以利用阿里云镜像下载ubuntu ubuntu 14 04 xff1a ubuntu releases 14 04安装包
每天最重要的2小时

关于作者乔西戴维斯 xff0c 他是哥伦比亚大学的心理学博士 xff0c 主要研究神经学领域关于本书从身体效能的角度 xff0c 让我们在面对一件事情时 xff0c 怎么才能把身体调整到一种巅峰状态 xff0c 进而对时间进行高效的
【无标题】

63张图 xff0c 一步一步带你弄清 Linux 虚拟内存管理 xff0c 厉害内存管理子系统可谓是 Linux 内核众多子系统中最为复杂最为庞大的一个 xff0c 其中包含了众多繁杂的概念和原理 xff0c 通过内存管理这条主线我们把
面试时不懂得自我介绍的人，最后都被PASS掉了

做硬件维护的阿润最近后悔得直跳脚在被公司赔偿清退后 xff0c 他直接开启了HIGH玩模式 xff0c 原计划先玩2个月再做面试准备 xff0c 结果冷不丁接到心仪公司的面试邀约因为时间紧邀约急 xff0c 在没做好充分准备的前提下
开发板和电脑可以ping通但是ssh连接不上

一问题描述某集群数据节点服务器频繁无法连接 xff0c 服务器间出现可ping通但ssh无法连接的情况 xff0c 使用带外地址登录后远程控制也无法显示正常界面 xff0c 重启后会短暂恢复二排查问题重启服务器后检查服务器SSH状
你对Linux下的实时性应该多点了解

本文讲述一些有利于提高xenomai实时性的配置建议 xff0c 部分针对X86架构 xff0c 但它们的底层原理相通 xff0c 同样适用于其他CPU架构和系统 xff0c 希望对你有用希望能够帮助大家本文来自于微信公众号嵌入式Lin
怎么保证ECU的“实时性”

在最近一起有公开报道的辅助驾驶相关事故中 xff0c 由于AEB xff08 自动紧急制动系统 xff09 功能被怀疑没有起作用 xff0c 又有一家车企的高级辅助驾驶功能遭到质疑其实 xff0c 目前大多数车辆中AEB功能的生效车速区间
重磅成果丨ASAM SOVD 1.0.0正式发布

重磅成果丨ASAM SOVD 1 0 0正式发布测试行业动态汽车测试网编者寄语 xff1a 2022年6月底 xff0c ASAM SOVD 1 0 0版本正式发布为了应对智能网联汽车时代井喷的软件诊断需求 xff0c SOVD如何
2016-我在路上

2016匆匆而过 xff0c 这一年做了很多 xff0c 也错过了很多有些事情自己感觉很值得 xff0c 有些事情感觉很愧疚 xff0c 一年的酸甜苦辣尽在其中寒假 xff0c 我加入的acm实验室 xff0c 有个集训 xff0c 但
《复盘高手》

今天为你介绍的是复盘高手 xff0c 副标题是自我认识与自我精进的底层逻辑复盘本是围棋的一个术语 xff0c 说的是下完一盘棋后 xff0c 棋手在棋盘上把下棋的过程复现一遍 xff0c 看看哪些地方下得好 xff0c 哪些地方不好
Linux 进程间通信（六）共享内存

可以说 xff0c 共享内存是一种最为高效的进程间通信方式 xff0c 因为进程可以直接读写内存 xff0c 不需要任何数据的复制为了在多个进程间交换信息 xff0c 内核专门留出了一块内存区 xff0c 这段内存区可以由需要访问的进程将
对ASPICE的理解

Aspice xff08 Automotive SPICE xff09 中文翻译为汽车软件过程改进及能力评定是为保证软件质量的规范 xff0c 要求供应商按照Automotive SPICE的要求进行产品的设计与开发是汽车行业中常用于质
普通人如何改变自己的命运？

Morty 普通人改变命运的秘密 xff01 我的观点可能会颠覆你的认知哔哩哔哩 bilibili 非常感谢UP xff0c 你的每个视频我都看了 xff0c 给我启示最大的是为什么你总是那么穷 xff0c 这些年一直走背运 xff0c
指令流水线

为提高处理器执行指令的效率 xff0c 把一条指令的操作分成多个细小的步骤 xff0c 每个步骤由专门的电路完成的方式指令流水线是为提高处理器执行指令的效率 xff0c 把一条指令的操作分成多个细小的步骤 xff0c 每个步骤由专门的电路
何为CPU的亲和性

CPU的亲和性 xff0c 进程要在某个给定的 CPU 上尽量长时间地运行而不被迁移到其他处理器的倾向性 xff0c 进程迁移的频率小就意味着产生的负载小亲和性一词是从affinity翻译来的 xff0c 实际可以称为CPU绑定在多核运
Docker 快速入门

x1f389 Docker 简介和安装 Docker 快速入门 https blog csdn net weixin 45043334 category 11863858 html https blog csdn net weixin 45
如何提高Linux的实时性

QNX是黑莓旗下的一款微内核实时操作系统 xff0c 是全球第一款通过ISO 26262 ASIL levelD安全认证的车载操作系统 xff0c QNX是一个分布式嵌入式可规模扩展的实时操作系统它遵循POSIX 1 程序接口和PO
自旋锁和互斥锁的区别

面试官 xff1a 你说说互斥锁自旋锁读写锁悲观锁乐观锁的应用场景百度安全验证自旋锁和互斥锁的区别一缕阳光a的博客 CSDN博客自旋锁和互斥锁的区别 POSIX threads 简称Pthreads 是在多核平台上进行并行编
CPU超线程技术到底有什么用？

什么是超线程技术前几天的超线程文章引起了不少讨论 xff0c 有些四驱两驱之类留言就不点出来了今天咱们趁热打铁来聊下CPU超线程的实际用途超线程的英文名是Hyper Threading Technology xff0c 简称HT 超线

CPU超线程技术到底有什么用？

CPU超线程技术到底有什么用？ 的相关文章

随机推荐

热门标签

CPU超线程技术到底有什么用？的相关文章