将双精度数字舍入为以位数给定的较低精度的有效方法

2024-03-21

在 C# 中，我想将双精度舍入到较低的精度，以便可以将它们存储在关联数组中不同大小的存储桶中。与通常的舍入不同，我想舍入到多个有效位。因此，大数字的绝对变化将比小数字变化大得多，但它们往往会按比例变化。因此，如果我想四舍五入到 10 个二进制数字，我会找到十个最高有效位，并将所有较低位清零，可能会添加一个小数字进行四舍五入。

我更喜欢将“中间”数字四舍五入。

如果它是整数类型，这将是一个可能的算法：

  1. Find: zero-based index of the most significant binary digit set H.
  2. Compute: B = H - P, 
       where P is the number of significant digits of precision to round
       and B is the binary digit to start rounding, where B = 0 is the ones place, 
       B = 1 is the twos place, etc. 
  3. Add: x = x + 2^B 
       This will force a carry if necessary (we round halfway values up).
  4. Zero out: x = x mod 2^(B+1). 
       This clears the B place and all lower digits.

问题是找到一种有效的方法来找到最高位集。如果我使用整数，有一些很酷的技巧可以找到 MSB。如果可以的话，我不想打电话给 Round(Log2(x)) 。该函数将被调用数百万次。

注意：我已经读过这个问题：

将双精度值舍入为（稍微）较低精度的好方法是什么？ https://stackoverflow.com/questions/14150136/what-is-a-good-way-to-round-double-precision-values-to-a-somewhat-lower-precis

它适用于 C++。我正在使用 C#。

UPDATE:

这是我正在使用的代码（根据回答者提供的内容进行修改）：

/// <summary>
/// Round numbers to a specified number of significant binary digits.
/// 
/// For example, to 3 places, numbers from zero to seven are unchanged, because they only require 3 binary digits,
/// but larger numbers lose precision:
/// 
///      8    1000 => 1000   8
///      9    1001 => 1010  10
///     10    1010 => 1010  10
///     11    1011 => 1100  12
///     12    1100 => 1100  12
///     13    1101 => 1110  14
///     14    1110 => 1110  14
///     15    1111 =>10000  16
///     16   10000 =>10000  16
///     
/// This is different from rounding in that we are specifying the place where rounding occurs as the distance to the right
/// in binary digits from the highest bit set, not the distance to the left from the zero bit.
/// </summary>
/// <param name="d">Number to be rounded.</param>
/// <param name="digits">Number of binary digits of precision to preserve. </param>
public static double AdjustPrecision(this double d, int digits)
{
    // TODO: Not sure if this will work for both normalized and denormalized doubles. Needs more research.
    var shift = 53 - digits; // IEEE 754 doubles have 53 bits of significand, but one bit is "implied" and not stored.
    ulong significandMask = (0xffffffffffffffffUL >> shift) << shift;
    var local_d = d;
    unsafe
    {
        // double -> fixed point (sorta)
        ulong toLong = *(ulong*)(&local_d);
        // mask off your least-sig bits
        var modLong = toLong & significandMask;
        // fixed point -> float (sorta)
        local_d = *(double*)(&modLong);
    }
    return local_d;
}

更新 2：Dekker 算法

感谢另一位受访者，我从 Dekker 的算法中得出了这一点。它四舍五入到最接近的值，而不是像上面的代码那样截断，并且它仅使用安全代码：

private static double[] PowersOfTwoPlusOne;

static NumericalAlgorithms()
{
    PowersOfTwoPlusOne = new double[54];
    for (var i = 0; i < PowersOfTwoPlusOne.Length; i++)
    {
        if (i == 0)
            PowersOfTwoPlusOne[i] = 1; // Special case.
        else
        {
            long two_to_i_plus_one = (1L << i) + 1L;
            PowersOfTwoPlusOne[i] = (double)two_to_i_plus_one;
        }
    }
}

public static double AdjustPrecisionSafely(this double d, int digits)
{
    double t = d * PowersOfTwoPlusOne[53 - digits];
    double adjusted = t - (t - d);
    return adjusted;
}

更新 2：时间安排

我进行了测试，发现 Dekker 的算法速度快两倍！

测试调用次数：100,000,000
不安全时间 = 1.922（秒）
安全时间 = 0.799（秒）

Dekker’s algorithm will split a floating-point number into high and low parts. If there are s bits in the significand (53 in IEEE 754 64-bit binary), then *x0 receives the high s-b bits, which is what you requested, and *x1 receives the remaining bits, which you may discard. In the code below, Scale should have the value 2^b. If b is known at compile time, e.g., the constant 43, you can replace Scale with 0x1p43. Otherwise, you must produce 2^b in some way.

这需要舍入到最近的模式。 IEEE 754 算法就足够了，但其他合理的算法也可以。它将平局舍入为偶数，这不是您所要求的（向上平局）。有必要吗？

这假设x * (Scale + 1)不溢出。运算必须以双精度（不大于）进行计算。

void Split(double *x0, double *x1, double x)
{
    double d = x * (Scale + 1);
    double t = d - x;
    *x0 = d - t;
    *x1 = x - *x0;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将双精度数字舍入为以位数给定的较低精度的有效方法的相关文章

JSON.Net 反序列化返回“null”

我正在使用 JSON Net 反序列化 JSON 字符串 JSON 字符串是 string testJson Fruits Apple color red size round Orange Pro
WebClient.DownloadDataAsync 冻结了我的 UI

我在 Form 构造函数中的 InitializeComponent 之后有以下代码 using WebClient client new WebClient client DownloadDataCompleted new Downloa
锁定 ASP.NET 应用程序变量

我在 ASP NET 应用程序中使用第三方 Web 服务对第 3 方 Web 服务的调用必须同步但 ASP NET 显然是多线程的并且可能会发出多个页面请求从而导致对第 3 方 Web 服务的同时调用对 Web 服务的调用封装在自
C free() 是如何工作的？ [复制]

这个问题在这里已经有答案了可能的重复 malloc 和 free 如何工作 https stackoverflow com questions 1119134 how malloc and free work include
MFC CList 支持复制分配吗？

我在 MSVC 中查找了 CList 定义afxtempl h http www cppdoc com example mfc classdoc MFC AFXTEMPL H html并记录在MSDN http msdn microsoft
司机和提供商之间的区别

数据库中的驱动程序和提供程序有什么区别有没有解释一下不胜感激样本 ADO NET driver for MySQL vs providerName System Data EntityClient 来自 MSDN 论坛驱动程序是安装
如何以编程方式播放 16 位 pcm 数组 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个包含 16 位 pcm 值的短数组我希望能够在不添加任何标题也不将任何文件保存到内存的情况下播放它我知道我可能需要一个提供
有什么方法可以重载 C# 中的扩展方法吗？

我有以下模型模式 public abstract class PARENTCLASS public class CHILD A CLASS PARENTCLASS public static class EXTENSION public s
静态类与类的实例

我有一个静态类用于访问我的公共属性整个应用程序的全局属性和我在应用程序运行期间使用的方法例如我在静态类中设置了一些属性并且在应用程序运行时我可以从属性中获取值但我可以使用单例模式创建非静态类并以相同的方式使用它问题对于我的
如何使用 Roslyn 通过扩展方法、静态类中的方法以及带有 ref/out 参数的方法来访问调用

我正在致力于创建一个开源项目用于创建 NET UML 序列图该项目利用名为 js sequence diagrams 的 javascript 库我不确定 Roslyn 是适合这项工作的工具但我想我应该尝试一下所以我整理了一些概念
你好，我最近正在开发我的新游戏，我遇到了*无限跳跃*的问题

所以基本上当我按跳跃空格键时我会跳跃但是如果我连续按空格键它只是跳啊跳啊跳等等我不想要我只想它跳一次 code if Input GetKeyDown space isGrounded velocity y Mathf Sqrt ju
时间：2019-03-17 标签：c++fstream并发访问

如果从不同的进程线程同时访问文件会发生什么据我所知没有锁定文件的标准方法只有操作系统特定的功能就我而言文件将被经常读取而很少写入现在如果A打开一个文件进行读取 ifstream 并开始读取块和B打开相同的文件进行写入 ofs
将错误代码映射到 C++ 中的字符串

将错误代码从枚举映射到字符串的更有效方法是什么在 C 中例如现在我正在做这样的事情 std string ErrorCodeToString enum errorCode switch errorCode case ERROR ONE
如何使用 CSI.exe 脚本参数

当你运行csi exe 安装了 Visual Studio 2015 update 2 您将得到以下语法 Microsoft R Visual C Interactive Compiler version 1 2 0 51106 Copyr
EnumDisplayDevices 与 WMI Win32_DesktopMonitor，如何检测活动监视器？

对于我当前的 C 项目我需要为在大量计算机上连接并处于活动状态的每个监视器检测一个唯一的字符串研究指出了两种选择使用 WMI 并查询 Win32 DesktopMonitor 以获取所有活动监视器使用 PNPDeviceID 来唯一
C 中使用 getrandom 实现随机浮点数

我试图生成一个介于 0 和 1 之间的随机浮点数无论是在 0 1 还是 0 1 对我来说都不重要网上关于此的每个问题似乎都涉及rand 呼叫播种time NULL 但我希望能够每秒多次调用我的程序并每次都获得不同的随机数这引导我找
从 NumPy 数组到 Mat 的 C++ 转换 (OpenCV)

我正在围绕 ArUco 增强现实库基于 OpenCV 编写一个薄包装器我试图构建的界面非常简单 Python 将图像传递给 C 代码 C 代码检测标记并将其位置和其他信息作为字典元组返回给 Python 但是我不知道如何在 Pytho
“必须声明标量变量”错误[重复]

这个问题在这里已经有答案了必须声明标量变量 Id SqlConnection con new SqlConnection connectionstring con Open SqlCommand cmd new SqlCommand cm
这种尺寸对齐是如何工作的

对于所提供的评论我无法理解以下代码这段代码的作用是什么以及等效的代码是什么8 aligned segment size must be 4 aligned attr gt options ssize 3 Here ssize is o
将 Swagger 与命名空间版本的 WebApi 结合使用

我已经找到了如何使用基于名称空间的 WebAPI 版本这个班 https aspnet codeplex com SourceControl changeset view dd207952fa86 Samples WebApi Namesp

随机推荐

Angularjs - 元素上的多个指令，其中一个是隔离范围

想知道是否有人可以解释当前的行为我有一个具有隔离范围的指令称之为 dirA 然后我在上面添加了另一个指令 dirB 期望第二个指令获取isolate指令创建的每个范围 dirB 获取控制器范围为什么它不能获得 dirA 为该元素创建的
Rails - 使用父级的范围父级验证嵌套属性的唯一性

我在 Rails 中对具有父级的嵌套属性进行范围唯一性验证时遇到问题背景我有一个包含 3 个模型的 Rails 4 应用程序 app models account rb class Account lt ActiveRecord Bas
在 C# 中实现这 3 个类的最佳方式：Vector、Direction（单位向量）、Point

所有点都是向量所有向量都是点所有方向都是向量并非所有向量都是方向这不应该意味着不允许双向转换我希望最好将运算符全部覆盖一次因为它们都是完全相同的在 C 中我可以定义 class Vector float x y z 并执行
Couchbase 几秒后超时

我有大约 100 200k 个小文档其中包含 base64 编码的图像非常小的图像我正在尝试将所有这些文档插入 Couchbase 但在前 28k 个文档总大小约为 185 Mb 后我不断收到此错误 Error Client Sid
npm 包上的“at”(@) 前缀是什么意思？

In the Angular 组件路由器文档 https docs angularjs org guide component router我刚刚偶然发现了一个我以前从未见过的 npm 命令我不明白发生了什么 npm install an
Delphi：如何使用 $OVERFLOWCHECKS OFF 禁用溢出检查？

我有一些代码会导致下溢 var t1 t2 delta DWORD begin t1 0xffffff00 t2 0x00000037 delta t2 t1 减法本身does生成上溢下溢但我不希望 Delphi 抛出EIntOverf
如何从 Slack 获取用户 ID 到机器人服务

我正在使用 Azure LUIS 创建一个简单的机器人这是我的第一个机器人经过一些研究后我取得了一些不错的进展现在还与 Slack 集成作为测试它的渠道机器人功能运行良好但我希望识别用户的身份这样我就可以个性化机器人对话并从
Python - 在 Flask 中将查询结果从服务器返回到客户端

我拥有的我在 Flask 中有一个客户端服务器客户端将 JSON 格式的查询发送到服务器服务器创建一个 JSON 文件还有另一个工具可以接受此查询在数据库上执行它并将结果写入 results txt 文件服务器定期检查结果
如何在不隐藏控制框的情况下隐藏 WPF 功能区窗口（启用 Aero）中的标题栏？

我目前使用 WPF Ribbon Window 并在当前窗口中启用 Aero 如下图所示我喜欢隐藏标题模式测试仪因为没有足够的空间来显示它但我还是需要原装windows控制盒以及当前标题即使它会被隐藏将显示在任务管理器和其他相关
for 循环进行多个扩展并对每个文件执行一些操作

我试图在 bash 中编写一个 for 循环来获取扩展名为 jpg jpeg png 的文件这是我的尝试但不起作用 for file in arg jpg jpeg png do echo arg something jpg gt z
抽象工厂模式讲解

我正在研究设计模式并遇到Abstract Factory Pattern根据定义是抽象工厂模式说只需定义一个接口或用于创建相关或依赖对象系列的抽象类但没有指定它们的具体子类这意味着抽象工厂让一个类返回类的工厂但我无法彻底理解
使用 Swift 4.2.1 编译的模块无法被 Swift 5.0 编译器导入

我正在尝试按照说明将第三方应用程序集成到项目中https github com Paytm Payments Paytm iOS App Kit tree master Swift BitCodeDisabled PaytmNativeSD
实体框架 CTP5 代码优先：将一个类与另一个类的多个集合映射

使用 EF CTP5 Code First 我尝试映射一个类模型该模型在一个类中包含指向另一个类的多个集合这是我的意思的一个例子 public class Company public int CompanyId get set pub
php中的empty()、isset()和is_null()函数有什么区别？

我做了很多研究但无法找到这三者之间的区别所以我做了一个简短的例子希望对我们有所帮助这是所有这三个的表格表示 Case Empty isset is null 1 a NULL 1 0 1 2 Not exists 1 0 1 War
如何启用 :tsearch 字典进行 pg_search 多重搜索？

我正在将 pg search 添加到 Rails 应用程序中我正在按照 github 上的说明进行操作铁路广播公司 http railscasts com episodes 343 full text search in postgres
Web Components（原生UI）之间如何通信？

我正在尝试为我的一个 UI 项目使用本机 Web 组件对于这个项目我没有使用任何框架或库例如 Polymer 等我想知道是否有最好的方法或其他方式在两个项目之间进行通信像我们在 AngularJS Angular 中所做的那样的 W
Flexslider - 动画：“幻灯片”，animationLoop：“true” - 冲突

我有一个问题弹性滑块2 http www woothemes com flexslider在某些特定情况下我将它用作内容滑块我需要的是让动画幻灯片而不是淡入淡出并循环播放幻灯片我有 3 张幻灯片其中包含 div 内容和更多列表以
致命错误：调用成员函数 getKeyName()

我是 joomla 的新手我创建了一个 joomla 组件当我单击管理中的新按钮时我收到这样的错误致命错误在 C xampp htdocs Joomla1 libraries joomla application componen
现代 Unix/Linux 系统上的密码是否仍限制为 8 个字符？

多年前 Unix 密码的长度限制为 8 个字符或者如果密码长度超过 8 个字符那么多余的字符也不会产生任何影响大多数现代 Unix Linux 系统上仍然是这种情况吗如果是这样大约什么时候在大多数系统上可以使用更长的密码有没有一
将双精度数字舍入为以位数给定的较低精度的有效方法

在 C 中我想将双精度舍入到较低的精度以便可以将它们存储在关联数组中不同大小的存储桶中与通常的舍入不同我想舍入到多个有效位因此大数字的绝对变化将比小数字变化大得多但它们往往会按比例变化因此如果我想四舍五入到 10 个二进制

将双精度数字舍入为以位数给定的较低精度的有效方法

将双精度数字舍入为以位数给定的较低精度的有效方法 的相关文章

随机推荐

热门标签

将双精度数字舍入为以位数给定的较低精度的有效方法的相关文章