解释了将双精度数舍入为 32 位整数的快速方法

2024-04-09

读书时Lua http://en.wikipedia.org/wiki/Lua_%28programming_language%29的源码中，我注意到Lua使用了一个宏来进行舍入double值转为 32 位int价值观。该宏定义在Llimits.h头文件 http://www.lua.org/source/5.2/llimits.h.html内容如下：

union i_cast {double d; int i[2]};
#define double2int(i, d, t) \
    {volatile union i_cast u; u.d = (d) + 6755399441055744.0; \
    (i) = (t)u.i[ENDIANLOC];}

Here ENDIANLOC是根据字节顺序 http://en.wikipedia.org/wiki/Endianness：0 表示小端，1 表示大端架构； Lua 小心地处理字节顺序。这t参数被替换为整数类型，例如int or unsigned int.

我做了一些研究，发现该宏有一种更简单的格式，它使用相同的技术：

#define double2int(i, d) \
    {double t = ((d) + 6755399441055744.0); i = *((int *)(&t));}

或者，以 C++ 风格：

inline int double2int(double d)
{
    d += 6755399441055744.0;
    return reinterpret_cast<int&>(d);
}

这个技巧可以在任何机器上使用IEEE 754 https://en.wikipedia.org/wiki/IEEE_floating_point（这意味着今天几乎每台机器）。它适用于正数和负数，四舍五入如下银行家法则 https://en.wikipedia.org/wiki/Rounding#Round_half_to_even。（这并不奇怪，因为它遵循 IEEE 754。）

我写了一个小程序来测试它：

int main()
{
    double d = -12345678.9;
    int i;
    double2int(i, d)
    printf("%d\n", i);
    return 0;
}

它输出-12345679，正如预期的那样。

I would like to understand how this tricky macro works in detail. The magic number 6755399441055744.0 is actually 2⁵¹ + 2⁵², or 1.5 × 2⁵², and 1.5 in binary can be represented as 1.1. When any 32-bit integer is added to this magic number—

好吧，我从这里迷路了。这个技巧如何发挥作用？

Update

As @Mysticial points out, this method does not limit itself to a 32-bit int, it can also be expanded to a 64-bit int as long as the number is in the range of 2⁵². (Although the macro needs some modification.)
有些材料说这种方法不能用于Direct3D http://en.wikipedia.org/wiki/Microsoft_Direct3D.
当使用 Microsoft x86 汇编器时，有一个用汇编代码编写的更快的宏（以下也摘自 Lua 源代码）：
```
 #define double2int(i,n)  __asm {__asm fld n   __asm fistp i}
```
There is a similar magic number for single precision numbers: 1.5 × 2²³.

的值double浮点类型表示如下：

可以看作两个32位整数；现在int包含代码的所有版本（假设它是 32 位int) 就是图中右边的那个，所以你最后所做的只是取尾数的最低 32 位。

Now, to the magic number; as you correctly stated, 6755399441055744 is 2⁵¹ + 2⁵²; adding such a number forces the double to go into the “sweet range” between 2⁵² and 2⁵³, which, as explained by Wikipedia https://en.wikipedia.org/wiki/Double_precision_floating-point_format#IEEE_754_double-precision_binary_floating-point_format:_binary64, has an interesting property:

Between 2⁵² = 4,503,599,627,370,496 and 2⁵³ = 9,007,199,254,740,992, the representable numbers are exactly the integers.

这是因为尾数为 52 位宽。

The other interesting fact about adding 2⁵¹ + 2⁵² is that it affects the mantissa only in the two highest bits—which are discarded anyway, since we are taking only its lowest 32 bits.

最后但并非最不重要的一点：标志。

IEEE 754 浮点使用幅度和符号表示，而“普通”机器上的整数使用 2 的补码算术；这里是如何处理的？

We talked only about positive integers; now suppose we are dealing with a negative number in the range representable by a 32-bit int, so less (in absolute value) than (−2³¹ + 1); call it −a. Such a number is obviously made positive by adding the magic number, and the resulting value is 2⁵² + 2⁵¹ + (−a).

Now, what do we get if we interpret the mantissa in 2’s complement representation? It must be the result of 2’s complement sum of (2⁵² + 2⁵¹) and (−a). Again, the first term affects only the upper two bits, what remains in the bits 0–50 is the 2’s complement representation of (−a) (again, minus the upper two bits).

由于将 2 的补码数减少到更小的宽度只需删除左侧的额外位即可完成，因此采用较低的 32 位可以在 32 位 2 的补码算术中正确给出 (−a)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

解释了将双精度数舍入为 32 位整数的快速方法的相关文章

Nullable 是不可能的，为什么不呢？ [复制]

这个问题在这里已经有答案了如果这是一个愚蠢的问题请原谅我正在尝试更好地理解 Net 中的 Nullable 类型从我从 Microsoft 源代码使用 ReSharper 中注意到的内容我了解到 Nullable 是一个结构而
如何调整 Windows 窗体以适应任何屏幕分辨率？

我知道这是重复的问题但我检查了所有其他相关问题他们的答案没有帮助结果仍然与屏幕截图 2 中所示相同我是 C Windows 窗体新手如截图1所示我有Form1有一些控件每组控件都放在一个面板中我在 PC1 中设计了应用程序
DataGridView 列中的数字文本框

我有一个DataGridView 我想要它的第一列或任何所需的列其中有textboxes在其中成为NUMERIC ONLY 我目前正在使用这段代码 private void dataGridViewItems EditingContro
PrivateObject 找不到属性

我的结构基本上如下所示 abstract class A protected string Identificator get set private void DoSomething DoSomethingSpecific protect
关闭整数的最右边设置位

我只需要关闭最右边的设置位即可我的方法是找到最右边位的位置然后离开该位我编写这段代码是为了这样做 int POS int n int p 0 while n if n 2 0 p else break n n 2 return p i
为什么 std::function 不是有效的模板参数，而函数指针却是？

我已经定义了名为的类模板CallBackAtInit其唯一目的是在初始化时调用函数构造函数该函数在模板参数中指定问题是模板不接受std function作为参数但它们接受函数指针为什么这是我的代码 include
如果在代码中添加元素，“FindName”将不起作用

在 WPF 应用程序中如果在 XAML 中声明 ContentControl
将 2 个字节转换为整数

我收到一个 2 个字节的端口号最低有效字节在前我想将其转换为整数以便我可以使用它我做了这个 char buf 2 Where the received bytes are char port 2 port 0 buf 1 port
如何在 EF Core 2.1 中定义外键关系

我的 DAL 使用 EF Core 2 1 这就是我的模型的样子一名用户只能拥有一种角色 Role entity kind of master public class Role public int RoleId get set pub
WinForms - 加载表单时如何使用 PaintEventArgs 运行函数？

我试图理解图形在 Graphics FromImage 文档中它有这样的示例 private void FromImageImage PaintEventArgs e Create image Image imageFile Image
用数组或向量实现多维数组

我想使用单个数组或向量实现多维数组可以像通常的多维数组一样访问它例如 a 1 2 3 我陷入困境的是如何实施操作员如果数组的维数为 1 则 a 1 应该返回位于索引 1 处的元素但是如果维数大于一怎么办对于嵌套向量例如 3 维
如何调用与现有方法同名的扩展方法？ [复制]

这个问题在这里已经有答案了我有这样的代码 public class TestA public string ColA get set public string ColB get set public string ColC get se
与 Entity Framework Core 2.0 的一对零关系

我正在使用 C 和 NET Framework 4 7 将 Entity Framework 6 1 3 Code First 库迁移到 Entity Framework Core 我一直在用 Google 搜索 Entity Framew
当 Verb="runas" 时设置 ProcessStartInfo.EnvironmentVariables

我正在开发一个 C 应用程序我需要创建变量并将其传递给新进程我正在使用ProcessStartInfo EnvironmentVariables 新进程必须提升运行因此我使用 Verb runas var startInfo new
在二进制数据文件的标头中放入什么

我有一个模拟可以读取我们创建的大型二进制数据文件 10 到 100 GB 出于速度原因我们使用二进制这些文件依赖于系统是从我们运行的每个系统上的文本文件转换而来的所以我不关心可移植性当前的文件是 POD 结构的许多实例使用 f
对多个对象使用事件处理程序

我有 20 件物品List
MSVC编译器下使用最大成员初始化联合

我正在尝试初始化一个LARGE INTEGER在 C 库中为 0 确切地说是 C 03 以前初始化是 static LARGE INTEGER freq 0 在 MinGW 下它产生了一个警告缺少成员 LARGE INTEGER Hig
如何知道 HTTP 请求标头值是否存在

我确信这很简单但是却让我感到厌烦我在 Web 应用程序中使用了一个组件它在 Web 请求期间通过添加标头 XYZComponent true 来标识自身我遇到的问题是如何在视图中检查此组件以下内容不起作用 if Request
IDisposable 的显式实现

虽然有很多关于IDisposable在 SO 上找到我还没有找到答案我通常遵循这样的做法当我的一个班级拥有一个IDisposable对象然后它也实现IDisposable并打电话Dispose在拥有的对象上然而最近我遇到了一个类它
即使在急切加载之后，belongs_to 关联也会单独加载

我有以下关联 class Picture lt ActiveRecord Base belongs to user end class User lt ActiveRecord Base has many pictures end 在我的

随机推荐

NavigationView如何处理动态标题内容

我有一个非常标准的 NavigationView 当我在标题中使用静态布局如下所示时效果非常好
约束布局 - 具有最大宽度的两个视图

我想创建一个布局使用约束布局如下所示在不同的语言中 Button1 可能比 Button2 大我怎样才能做到这一点我只能在包含两个按钮的约束内使用 LinearLayout 来实现此目的但我尝试仅使用布局 Thanks Upda
如果主体参数以“@”开头，则发出 PowerShell POST 请求

我想在 PowerShell 中发出 POST 请求以下是 Postman 中的正文详细信息 type login username email protected cdn cgi l email protection password
生成数字数组中有效的数字组合

我正在尝试从数字数组中生成所有有效的数字组合假设我们有以下内容 let arr 1 2 9 4 7 我们需要输出这样的内容 1 2 9 4 7 1 2 9 47 1 2 94 7 1 2 947 1 29 4 7 1 29 47 1 29
我无法在我的 Visual C Express Edition 2008 中汇编电影 (MMX) 指令

当我尝试编译时movd指令显示错误为 error A2085 instruction or register not accepted in current CPU mode 我的代码如下 386 model flat c code add
我怎样才能让我的verilog移位器更通用？

这里我有一个移位器但现在它最多只能工作 3 位我一直在寻找但不知道如何让它工作最多 8 位 module shifter a b out input 7 0 a b output 7 0 out wire 7 0 out1 out2
扩展 Eloquent 的类的构造函数

我刚刚启动了一个新网站我想使用 Eloquent 在为数据库播种的过程中我注意到如果我在扩展 eloquent 的模型上包含任何类型的构造函数则会添加空行例如运行此播种器
如何解决三向多态关联？

首先我要说我正在使用 MySQL 不是事务型并且这是无法更改的另外为了简洁和清晰起见我简化了此处的表格在此示例中课程由其内部属性和外部属性及其自己的属性阅读组成阅读有其自己的关键依赖属性和三个不同的外部属性阅读源我
如何在 SQL Server 2008 中存储特定列的列值？

基本上我正在映射字段正如你所看到的GridView 2我选择了特定的列名称让我们考虑第一条记录即1 id Column0 For id我已选择Column0 所以在数据库中我想在 id 列下存储列值 1 2 3 4 像下面这样 id
使用属性和不访问 ivars 之间的区别

使用属性或直接访问 ivars 的特定性能和行为差异对于全局变量使用它有什么区别 interface myClass UIImageView myView void loadView super loadView myView UIIm
如何动态添加 mixin 作为基类而不出现 MRO 错误？

说我有课A B and C Class A and B都是 Class 的 mixin 类C class A object pass class B object pass class C object A B pass 这在实例化 C 类
在angularjs中克隆html元素

我正在尝试在 angularjs 中实现拖放系统我希望在拖动开始时克隆拖动的对象但是我不知道如何在 angularjs 中克隆元素及其范围和链接控制器有什么建议么不建议使用 Angular 来克隆 DOM 元素通常是通过拖放完成的
如何比较两个 pandas 数据帧并删除一个文件上的重复项而不附加其他文件中的数据[重复]

这个问题在这里已经有答案了我正在尝试使用 pandas 数据框比较两个 csv 文件其中一个是每天都会附加数据的主表 test master csv 第二个是每日报告 test daily csv 其中包含我想要附加到 test mas
使用 slick/scala 进行流式传输

我正在研究 scala slick 流并试图了解它是如何工作的这是我的测试代码 val bigdata TableQuery BigData val x db stream bigdata result transactionally
Relay vs Redux vs Apollo with GraphQL 和 React-Native [已关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我必须从头开始一个新的网络本机项目中型应用程序由于存在过多的 JS 框架和实现尤其是在过去几年中我对我常用的堆栈产生了第二个怀疑
axis2+rampart：必须了解标头安全检查失败

在服务器内部错误的情况下我对 axis2 rampart WS Security 响应有问题当服务器返回 200 OK 时一切似乎都正常 Rampart 检查响应是否具有正确的时间戳签名并解密函数响应 XML 但是当服务器返回 50
Neo4j：检索连接到 Neo4j Rest 中的节点或通过 Cypher 的所有节点和关系

我想检索所有节点以及连接到节点的关系我尝试通过两种方式做到这一点 1st通过Neo4j REST API http docs neo4j org chunked milestone server java rest client exam
cURL 错误 60：Laravel 5.4 中的 SSL 证书

完全错误 RequestException in CurlFactory php line 187 cURL error 60 SSL certificate problem unable to get local issuer certi
iOS - 加速度计的高通滤波器方程

有人可以解释一下如何得出下面的方程来对加速度计值进行高通滤波吗我不需要数学推导只需要直观的解释就足够了 define kFilteringFactor 0 1 UIAccelerationValue rollingX rollingY
解释了将双精度数舍入为 32 位整数的快速方法

读书时Lua http en wikipedia org wiki Lua 28programming language 29的源码中我注意到Lua使用了一个宏来进行舍入double值转为 32 位int价值观该宏定义在Llimits

解释了将双精度数舍入为 32 位整数的快速方法

Update

解释了将双精度数舍入为 32 位整数的快速方法 的相关文章

随机推荐

热门标签

解释了将双精度数舍入为 32 位整数的快速方法的相关文章