cpuarchitecture

x86 标志寄存器中的辅助进位和普通进位有什么区别？

我想知道这个x86寄存器标志在DOS Windows程序Debug中意味着什么辅助进位 AC 1 or NA 0 和普通carry的意思一样吗 CY 1 or NC 0 当指令导致位 3 进位或借位时辅助进位标志被设置与 CY 的想法

x86 cpuarchitecture flags cpuregisters

cpuid命令显示信息的问题

的信息llc缓存显示使用cpuid command在Linux上是 cache 3 cache type unified cache 3 cache level 0x3 3 self initializing cache level tru

caching x86 cpuarchitecture cpucache cpuid

使用索引寻址模式时的瓶颈

我在 Haswell 和 Coffee Lake 机器上进行了以下实验指令 cmp rbx qword ptr r14 rax 吞吐量为 0 5 即每个周期 2 条指令这正如预期的那样该指令被解码为随后未层压的一个微指令参见http

x8664 intel cpuarchitecture microoptimization addressingmode

为什么MIPS不能在寻址模式下使用两个寄存器？

我很好奇为什么我们不允许在 MIPS 中使用寄存器作为偏移量我知道你can t使用寄存器作为偏移量如下所示 lw t3 t1 t4 我只是好奇why情况就是如此是硬件限制吗或者只是 ISA 的一部分 PS 如果您正在寻找替代方法请

Assembly MIPS cpuarchitecture addressingmode

Intel 和 AMD 如何不同但仍然兼容？

正如我一直以来的理解 AMD 通过逆向工程英特尔的指令集来构建他们的 CPU 现在向英特尔付费以使用他们的指令集而英特尔对 AMD 的 64 位指令也做了同样的事情这就是 Windows 可以在两种类型的 CPU 上安装而无需购买特定版

Optimization x86 intel cpuarchitecture amdprocessor

是否应该将内存栅栏与互斥获取交换循环（或队列获取加载循环）结合起来，还是应该避免？

假设重复获取操作尝试加载或交换值直到观察到的值是所需值让我们来cppreference 原子标志示例作为起点 void f int n for int cnt 0 cnt lt 100 cnt while lock test and

arm cpuarchitecture microoptimization memorybarriers

当您使用内存覆盖前缀但所有操作数都是寄存器时会发生什么？

当您使用内存覆盖前缀但所有操作数都是寄存器时会发生什么那么假设您编写了代码mov eax ebx or add eax ebx默认值为 32 位但您使用 67h 覆盖处理器如何处理这种情况英特尔软件开发人员手册第 2 卷第 2

Assembly memory x86 cpuarchitecture overriding

x86 上存储到加载转发失败的成本是多少？

在最新的 x86 架构上存储到加载转发失败的成本是多少特别是存储到加载转发会失败因为加载部分与较早的存储重叠或者因为较早的加载或存储跨越某些导致转发失败的对齐边界当然存在延迟成本它有多大是否还存在吞吐量成本例如失败的存储

x86 intel cpuarchitecture microoptimization amdprocessor

非临时指令如何工作？

我正在阅读每个程序员都应该了解的内存知识乌尔里希德雷珀 Ulrich Drepper pdf在第 6 部分的开头有一个代码片段 include

memory x86 cpuarchitecture intrinsics cpucache

为什么 x86_64 CPU 上没有通用寄存器的乘加融合？

在 Intel 和 AMD x86 64 处理器上 SIMD 矢量化寄存器具有特定的融合乘加功能但通用标量整数寄存器don t 你基本上需要先乘法然后加法除非你可以将东西放入一个lea 这是为什么我的意思是它是否毫无用处以至

x8664 intel cpuarchitecture instructionset amdprocessor

在编译时从 MASM/MASM64 检测架构

如何在编译时从 ASM 源文件检测目标架构是 I386 还是 AMD64 我正在使用 masm ml exe masm64 ml64 exe 来汇编 file32 asm 和 file64 asm 最好创建一个文件 file asm 其中应

Assembly x8664 cpuarchitecture MASM masm32

LSD 能否从检测到的循环的下一次迭代中发出 uOP？

我正在研究 Haswell 端口 0 上的分支单元的功能从一个非常简单的循环开始 BITS 64 GLOBAL start SECTION text start mov ecx 10000000 loop dec ecx jz end 1

Assembly x86 cpuarchitecture intelpmu

即使指针从未被取消引用，过数三指针中的硬件陷阱是如何发生的？

In his 2005 年 11 月 1 日 C 专栏赫伯萨特写道 int A 17 int endA A 17 for int ptr A ptr lt endA ptr 5 O 在某些 CPU 架构中包括当前的上述代码可能会

c cpuarchitecture pointerarithmetic hardwaretraps

内存目标 BTS 为何会比 load / BTS reg,reg / store 慢得多？

在一般情况下可以使用内存或寄存器操作数的指令如何会比内存操作数慢 mov mov gt 指令 gt mov mov 基于发现的吞吐量和延迟Agner Fog 的说明书以我为例查看 Skylake p238 我看到以下数字btr bts

performance Assembly x8664 cpuarchitecture microcoding

我需要服务哪些 Android ABI（CPU 架构）？

我决定为不同的 ABI 上传多个 APK 以缩小我的 apk 文件大小大规模地因此我用android gt splits gt abi gt enable true 应用程序级别build gradle 我遇到过这些不同的 APK 风格

Android Gradle GooglePlay cpuarchitecture

在 x86-64 上，系统崩溃时“movnti”或“movntdq”指令是原子的吗？

当使用像Intel optane DCPMM这样的持久内存时如果系统在执行movnt指令时崩溃断电重新启动后是否可以看到部分结果 For 4 或 8 字节movnti哪个 x86 保证原子用于其他目的 16字节SSEmovntdq m

x8664 atomic cpuarchitecture SSE persistentmemory

如果我不使用栅栏，一个核心需要多长时间才能看到另一个核心的写入？

我一直在尝试用谷歌搜索我的问题但老实说我不知道如何简洁地陈述这个问题假设我在多核英特尔系统中有两个线程这些线程在同一个 NUMA 节点上运行假设线程 1 向 X 写入一次然后偶尔向前读取它进一步假设线程 2 连续读取 X 如果

x86 intel cpuarchitecture memorybarriers lockless

CPU的速度是否受到从内存中获取指令的速度的限制？

在学习汇编时我意识到我应该将经常访问的数据放入寄存器而不是内存中因为内存要慢得多问题是既然指令首先是从内存中获取的那么CPU如何能够比内存运行得更快呢 CPU通常会花费大量时间等待内存中的指令吗 EDIT 要运行程序我们需要将其

performance memory CPU cpuarchitecture

对于 Intel Core i3/i7，数据从缓存集中逐出后的去向

Intel 中包含 L1 L2 缓存并且 L1 L2 缓存是 8 路关联性意味着一组中存在 8 个不同的缓存线缓存行作为一个整体进行操作这意味着如果我想从缓存行中删除几个字节则整个缓存行将被删除而不仅仅是我要删除的那些字节我对

x86 intel cpuarchitecture processor cpucache

是否有编译器标志表明缺少armv7s架构

随着iPhone 5和其他armv7s设备的出现现有的闭源第3方框架例如Flurry 存在兼容性问题这些框架是在没有这种新架构的情况下构建的一种选择是等到他们发布新版本但我希望可能有一个编译器标志或我可以在我的 Xcode 项

ios xcode compilerconstruction Linker cpuarchitecture