为什么`(map digitalToInt) . show`这么快？

2024-03-07

转换非负数Integer其数字列表通常是这样完成的：

import Data.Char

digits :: Integer -> [Int]
digits = (map digitToInt) . show

我试图找到一种更直接的方法来执行任务，而不涉及字符串转换，但我无法想出更快的方法。

到目前为止我一直在尝试的事情：

基线：

digits :: Int -> [Int]
digits = (map digitToInt) . show

从 StackOverflow 上的另一个问题得到这个：

digits2 :: Int -> [Int]
digits2 = map (`mod` 10) . reverse . takeWhile (> 0) . iterate (`div` 10)

尝试推出我自己的：

digits3 :: Int -> [Int]
digits3 = reverse . revDigits3

revDigits3 :: Int -> [Int]
revDigits3 n = case divMod n 10 of
               (0, digit) -> [digit]
               (rest, digit) -> digit:(revDigits3 rest)

这个的灵感来自于showInt in Numeric:

digits4 n0 = go n0 [] where
    go n cs
        | n < 10    =  n:cs
        | otherwise =  go q (r:cs)
        where
        (q,r) = n `quotRem` 10

现在是基准。注意：我强制使用filter.

λ>:set +s
λ>length $ filter (>5) $ concat $ map (digits) [1..1000000]
2400000
(1.58 secs, 771212628 bytes)

这是参考。现在为digits2:

λ>length $ filter (>5) $ concat $ map (digits2) [1..1000000]
2400000
(5.47 secs, 1256170448 bytes)

That's 3.46时间更长。

λ>length $ filter (>5) $ concat $ map (digits3) [1..1000000]
2400000
(7.74 secs, 1365486528 bytes)

digits3 is 4.89时间变慢。只是为了好玩，我尝试仅使用 revDigits3 并避免reverse.

λ>length $ filter (>5) $ concat $ map (revDigits3) [1..1000000]
2400000
(8.28 secs, 1277538760 bytes)

奇怪的是，这甚至更慢，5.24慢几倍。

最后一张：

λ>length $ filter (>5) $ concat $ map (digits4) [1..1000000]
2400000
(16.48 secs, 1779445968 bytes)

This is 10.43时间变慢。

我的印象是，仅使用算术和缺点会优于涉及字符串转换的任何内容。显然，有些东西我无法理解。

那么有什么窍门呢？为什么是digits很快？

我正在使用 GHC 6.12.3。

鉴于我还无法添加评论，我将做更多工作并分析所有评论。我把分析放在最上面；不过，相关数据如下。（注意：所有这些都是在 6.12.3 中完成的 - 还没有 GHC 7 魔法。）

分析：

版本1：show 对于整数来说非常好，尤其是像我们这样短的整数。实际上，在 GHC 中制作字符串往往是不错的；然而，读取字符串并将大字符串写入文件（或标准输出，尽管您不想这样做）是您的代码绝对可以抓取的地方。我怀疑为什么这么快背后的很多细节都是由于 Ints 显示中的巧妙优化。

版本2：编译时，这是其中最慢的一个。一些问题：反向论证的严格性。这意味着在计算下一个元素时，您无法从对列表的第一部分执行计算中受益；您必须计算所有它们，翻转它们，然后对列表的元素进行计算（即 (`mod` 10) ）。虽然这看起来很小，但它可能会导致更大的内存使用量（请注意此处分配的 5GB 堆内存）和更慢的计算速度。（长话短说：不要使用反向。）

版本3：还记得我刚才说过不要使用反向吗？事实证明，如果你把它拿出来，总执行时间会下降到 1.79 秒——仅比基线慢一点。这里唯一的问题是，当你深入了解数字时，你会以错误的方向构建列表的主干（本质上，你是通过递归“进入”列表，而不是“进入”列表）列表）。

版本 4：这是一个非常巧妙的实现。您可以从几件好事中受益：首先，quotRem 应该使用欧几里得算法，该算法的较大参数是对数的。（也许它更快，但我不相信有什么比欧几里得更快的常数因子。）此外，您可以像上次讨论的那样对列表进行操作，这样您就不必在处理时解决任何列表重击问题。 go - 当您返回解析列表时，列表已经完全构建完毕。如您所见，性能由此受益。

这段代码可能是 GHCi 中最慢的，因为 GHC 中使用 -O3 标志执行的许多优化都是为了使列表更快，而 GHCi 不会这样做。

Lessons:以正确的方式将 cons 放入列表中，注意可能减慢计算速度的中间严格性，并做一些跑腿工作来查看代码性能的细粒度统计数据。还要使用 -O3 标志进行编译：只要你不这样做，所有那些花费大量时间使 GHC 超快的人都会对你大眼瞪小眼。

Data:

我只是将所有四个函数粘贴到一个 .hs 文件中，然后根据需要进行更改以反映正在使用的函数。另外，我将限制提高到 5e6，因为在某些情况下，编译的代码在 1e6 上运行时间不到半秒，这可能会导致我们正在进行的测量出现粒度问题。

编译器选项：使用ghc --make -O3 [文件名].hs让 GHC 做一些优化。我们将使用以下命令将统计数据转储到标准错误数字+RTS -sstderr.

在数字 1 的情况下，转储到 -stderr 会得到如下所示的输出：

digits1 +RTS -sstderr
12000000
   2,885,827,628 bytes allocated in the heap
         446,080 bytes copied during GC
           3,224 bytes maximum residency (1 sample(s))
          12,100 bytes maximum slop
               1 MB total memory in use (0 MB lost due to fragmentation)

  Generation 0:  5504 collections,     0 parallel,  0.06s,  0.03s elapsed
  Generation 1:     1 collections,     0 parallel,  0.00s,  0.00s elapsed

  INIT  time    0.00s  (  0.00s elapsed)
  MUT   time    1.61s  (  1.66s elapsed)
  GC    time    0.06s  (  0.03s elapsed)
  EXIT  time    0.00s  (  0.00s elapsed)
  Total time    1.67s  (  1.69s elapsed)

  %GC time       3.7%  (1.5% elapsed)

  Alloc rate    1,795,998,050 bytes per MUT second

  Productivity  96.3% of total user, 95.2% of total elapsed

这里有三个关键统计数据：

使用的总内存：仅 1MB 意味着该版本非常节省空间。
总时间：1.61 秒现在没有任何意义，但我们将看看它与其他实现相比如何。
生产力：这只是 100% 减去垃圾收集；因为我们已经完成了 96.3%，这意味着我们没有创建大量留在内存中的对象。

好吧，让我们继续讨论版本 2。

digits2 +RTS -sstderr
12000000
   5,512,869,824 bytes allocated in the heap
       1,312,416 bytes copied during GC
           3,336 bytes maximum residency (1 sample(s))
          13,048 bytes maximum slop
               1 MB total memory in use (0 MB lost due to fragmentation)

  Generation 0: 10515 collections,     0 parallel,  0.06s,  0.04s elapsed
  Generation 1:     1 collections,     0 parallel,  0.00s,  0.00s elapsed

  INIT  time    0.00s  (  0.00s elapsed)
  MUT   time    3.20s  (  3.25s elapsed)
  GC    time    0.06s  (  0.04s elapsed)
  EXIT  time    0.00s  (  0.00s elapsed)
  Total time    3.26s  (  3.29s elapsed)

  %GC time       1.9%  (1.2% elapsed)

  Alloc rate    1,723,838,984 bytes per MUT second

  Productivity  98.1% of total user, 97.1% of total elapsed

好吧，我们看到了一个有趣的模式。

使用相同数量的内存。这意味着这是一个非常好的实现，尽管这可能意味着我们需要测试更高的样本输入以查看是否可以找到差异。
需要两倍的时间。我们稍后会回过头来猜测为什么会这样。
它实际上稍微更有效率，但考虑到 GC 并不是这两个程序的很大一部分，这对我们没有任何重大帮助。

版本3：

digits3 +RTS -sstderr
12000000
   3,231,154,752 bytes allocated in the heap
         832,724 bytes copied during GC
           3,292 bytes maximum residency (1 sample(s))
          12,100 bytes maximum slop
               1 MB total memory in use (0 MB lost due to fragmentation)

  Generation 0:  6163 collections,     0 parallel,  0.02s,  0.02s elapsed
  Generation 1:     1 collections,     0 parallel,  0.00s,  0.00s elapsed

  INIT  time    0.00s  (  0.00s elapsed)
  MUT   time    2.09s  (  2.08s elapsed)
  GC    time    0.02s  (  0.02s elapsed)
  EXIT  time    0.00s  (  0.00s elapsed)
  Total time    2.11s  (  2.10s elapsed)

  %GC time       0.7%  (1.0% elapsed)

  Alloc rate    1,545,701,615 bytes per MUT second

  Productivity  99.3% of total user, 99.3% of total elapsed

好吧，我们看到了一些奇怪的模式。

我们的总内存使用量仍为 1MB。所以我们没有遇到任何内存效率低下的问题，这很好。
我们还没有完全达到“digits1”，但我们已经很容易击败“digits2”了。
GC 很少。（请记住，任何超过 95% 的生产率都非常好，因此我们在这里并没有真正处理任何太重要的事情。）

最后是版本 4：

digits4 +RTS -sstderr
12000000
   1,347,856,636 bytes allocated in the heap
         270,692 bytes copied during GC
           3,180 bytes maximum residency (1 sample(s))
          12,100 bytes maximum slop
               1 MB total memory in use (0 MB lost due to fragmentation)

  Generation 0:  2570 collections,     0 parallel,  0.00s,  0.01s elapsed
  Generation 1:     1 collections,     0 parallel,  0.00s,  0.00s elapsed

  INIT  time    0.00s  (  0.00s elapsed)
  MUT   time    1.09s  (  1.08s elapsed)
  GC    time    0.00s  (  0.01s elapsed)
  EXIT  time    0.00s  (  0.00s elapsed)
  Total time    1.09s  (  1.09s elapsed)

  %GC time       0.0%  (0.8% elapsed)

  Alloc rate    1,234,293,036 bytes per MUT second

  Productivity 100.0% of total user, 100.5% of total elapsed

哇扎！让我们来分解一下：

总共仍然是 1MB。这几乎肯定是这些实现的一个特性，因为它们在 5e5 和 5e7 的输入上保持在 1MB。如果你愿意的话，这是懒惰的证明。
我们削减了大约 32% 的原始时间，这非常令人印象深刻。
我怀疑这里的百分比反映了 -sstderr 监控的粒度，而不是对超光速粒子的任何计算。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么`(map digitalToInt) . show`这么快？的相关文章

Laravel 上传前如何压缩图像？

我正在制作一个图片库网站用户可以在其中上传任何图像它们将显示在前端我需要在不影响图像质量的情况下压缩图像以减小图像大小以便页面加载速度不会影响那么大我使用以下代码来上传图像 rules array file gt require
我的用例可以合并到单个查询中而不影响性能吗？

我主要着眼于改善表现查询的内容以及是否能够解决单一查询对于我的用例之一解释如下涉及到2张表 Table 1 EMPLOYEE column1 column2 email1 email2 column5 column6 Table 2 E
Android Drawable 绘图性能？

在我看来我有一个简单的 ARGB 可绘制对象大约需要 2 毫秒才能绘制但我可以在 0 5 毫秒内绘制与位图相同的文件只是一些快速代码我真的不能认为它是一个选项优化可绘制对象的绘制速度的最佳方法是什么这取决于可绘制的数量以及每个
快速像素绘图库

我的应用程序以每像素的方式生成动画因此我需要有效地绘制它们我尝试过不同的策略库但结果并不令人满意尤其是在更高分辨率的情况下这是我尝试过的 SDL 好的但是慢 OpenGL 像素操作效率低下 xlib 更好但仍然太慢 svg
Android复杂布局线性和相对

I have to implement a layout like shown in the diagram and I do not know the best combination to achieve the required de
IronPython 中批量求值表达式的性能

在 C 4 0 应用程序中我有一个具有相同长度的强类型 IList 的字典一个基于动态强类型列的表我希望用户根据将在所有行上聚合的可用列提供一个或多个 python 表达式在静态上下文中它将是 IDictionary
在 Haskell 中获取玫瑰树的根

最近我开始学习 Haskell 并在以下练习中遇到困难 Write functions root Rose a gt a and children Rose a gt Rose a that return the value stored
记录 Google Cloud SQL PostgreSQL 实例上的慢速查询

我工作的公司使用 Google Cloud SQL 来管理生产中的 SQL 数据库我们遇到了性能问题我认为查看监控高于特定阈值例如 250 毫秒的所有查询是一个好主意除其他外通过查看PostgreSQL 文档 https ww
Parsec.Expr 具有不同优先级的重复前缀

Parsec Expr buildExpressionParser 的文档说相同优先级的前缀和后缀运算符只能出现一次即如果为前缀否定则不允许使用 2 但是我想解析这样的字符串具体来说考虑以下语法 sentence ident
自定义 monad 的 MonadTransControl 实例

的文档monad control提供有关如何创建实例的示例MonadTransControl using defaultLiftWith and defaultRestoreT 该示例适用于以下情况newtype newtype Count
如何有效地扫描每次迭代交替的 2 位掩码

给定 2 个位掩码应交替访问 0 1 0 1 我尝试获得运行时高效的解决方案但找不到比以下示例更好的方法 uint32 t mask 2 uint8 t mask index 0 uint32 t f tzcnt u32 mask ma
如何在 Haskell Pipes 中将两个 Consumer 合并为一个？

我使用Haskell流处理库pipes https hackage haskell org package pipes编写一个命令行工具每个命令行操作都可以将结果输出到stdout并记录到stderr with pipes API I n
每个 mmap/access/munmap 两次 TLB 未命中

for int i 0 i lt 100000 i int page mmap NULL PAGE SIZE PROT READ PROT WRITE MAP ANONYMOUS MAP PRIVATE 1 0 page 0 0 munma
性能多次插入或多值单次插入

从性能角度时间和服务器负载来看最好是进行多个插入或单个插入多个值我在 stackoverflow 上发现每次插入最多可以有 1000 个值集我说的是两种情况要插入大约 1000 3000 个值有时我会在 mySQL 数据库中插
Blob 的簇生长

考虑以下来自 Mathworks 的图像我已经用标签标记了斑点 L num bwlabel I 如何迭代连接所有斑点即从一个斑点开始找到离它最近的一个考虑最左边的两个斑点可以从一个斑点的许多点绘制许多条线来连接到另一个斑点blob
在哪里可以找到Python内置序列类型的时间和空间复杂度

我一直无法找到此信息的来源无法亲自查看 Python 源代码来确定这些对象是如何工作的有谁知道我可以在网上找到这个吗结帐时间复杂度 http wiki python org moin TimeComplexitypy dot org
perfmon 性能计数器是否基于与 xperf 使用的 ETW 事件“幕后”相同的东西？

我最近开始熟悉 perfmon 和 xperf Perfmon 使用性能计数器 xperf 使用 ETW Windows 事件跟踪 Perfmon 具有提供数据的对象而 xperf 使用提供者组作为这个领域的新手我想问是否有人可以
网页优化：为什么组合文件速度更快？

我读过将所有 css 文件合并为一个大文件或将所有脚本文件合并为一个脚本文件可以减少 HTTP 请求的数量从而加快下载速度但我不明白这一点我认为如果你有多个文件最多有一个限制我相信在现代浏览器上是 10 个浏览器会并行下载
Mysql 更快的 INSERT

好的我有大约 175k 个 INSERT 语句相当大的 INSERT 语句例如 INSERT INTO gast ID Identiteitskaartnummer Naam Voornaam Adres Postcode Stad
如何让 do 块提前返回？

我正在尝试使用 Haskell 抓取网页并将结果编译到一个对象中如果出于某种原因我无法从页面获取所有项目我想停止尝试处理页面并提前返回例如 scrapePage String gt IO scrapePage url do doc

随机推荐

适用于 Android 的本机 OpenCV 示例抛出 UnsatisfiedLinkError

我尝试在模拟器上运行 opencv android 示例带有本机代码的示例例如示例教程 2 高级 1 添加本机 OpenCV 失败我有一个Win7 x86系统我可以构建本机库但如果运行示例我总是会遇到以下异常 10 04 08
每个线程组的概率

如果我的测试计划中有 3 个线程组如何为每个组设置恒定概率请求权重我是 JMeter 的新手您能在屏幕截图上显示您的设置吗只需将每组的线程数设置为测试总线程数的一个因子即可如果有 100 个 VU 则 g1 设置为 50 g2
我如何使用 iOS 中的 Fabric 框架从我的应用程序中注销 Twitter

在我的 iOS 应用程序中我使用集成 Twitter 登录织物框架 TWTR作曲家第一次登录并在 Twitter 上发布推文时它工作正常但我无法在我的应用程序中从 Twitter 注销当我第二次尝试登录时 twitterlogin
LINQ 和递归

考虑以下 public class Box public BoxSize Size get set public IEnumerable
无法在 django 模板中使用 unicode 字符串

我在 django 模板中使用了 B M N TO N 字符串它引发了错误 utf8 编解码器无法解码位置 569 中的字节 0xd4 无效的连续字节但是当我使用 BO MON TOAN 字符串时它不会引发错误所以我在模板中使用了
红宝石：能被4整除

这工作正常但我想让它更漂亮并容纳所有能被 4 整除的值 if i 4 i 8 i 12 i 16 i 20 i 24 i 28 i 32 end 有什么聪明简短的方法可以做到这一点吗尝试这个 if i 4 0 这被称为模运算符 h
对于 C++ 插件系统来说什么是安全的？

C 中的插件系统很困难因为 ABI 没有正确定义并且每个编译器或其版本都遵循自己的规则然而 Windows 上的 COM 表明创建一个最小的插件系统是可能的该系统允许具有不同编译器的程序员使用简单的接口为主机应用程序创建插件让
使用声明的可变基类无法在 MSVC 中编译

我正在尝试实现一个可变访问者类 template
如何以Python方式将 scipy.optimize.OptimizeResult 结果对象保存到文件中以便以后轻松访问？

从 scipy optimize OptimizeResult 保存结果对象的最佳方法是什么以便可以从保存的文件轻松访问其参数我目前正在将结果保存为字符串但这样当我需要再次引用它时我需要解析整个字符串来识别参数数组或函数值等对象
我可以欺骗 libc (GLIBC_2.13) 加载它没有的符号（来自 GLIBC_2.15）吗？

在我尝试让 Steam for Linux 在 Debian 上运行时我遇到了一个问题 libcef Chromium 嵌入式框架可以很好地工作GLIBC 2 13 Debian 测试中的eglibc 可以提供但是需要一个讨厌的额外功
NVIDIA GPU 的 CUDA 核心和 OpenCL 计算单元之间有什么关系？

我的电脑有一块 GeForce GTX 960M NVIDIA 声称它有 640 个 CUDA 核心然而当我运行 clGetDeviceInfo 来查找计算机中的计算单元数量时它打印出 5 见下图听起来 CUDA 核心与 OpenC
Facebook Messenger 如何与 Wit.ai Bot Engine 连接？

在 Facebook 的文档中他们提到了 wit ai Bot Engine 但我在网上找不到任何地方解释如何将您在 Wit 中构建的故事与 Facebook Messenger 应用程序连接起来 Wit ai 需要一个输入用户输入句
SVG旋转变换矩阵

我从 SVG 文件中的元素解析了一个转换属性例如rotate 45 30 50 我想将其转换为矩阵形式我搜索了它我所能找到的只是rotate a 没有坐标看起来像这样 cos a sin a sin a cos a 0 0 谁能告诉
C# Linq 合并两个字典[重复]

这个问题在这里已经有答案了如何使以下方法更具函数式 linq 风格 public static Dictionary
使用 python 和 opencv 检测图像中的文本区域

我想使用 python 2 7 和 opencv 2 4 9 检测图像的文本区域并在其周围画一个矩形区域就像下面的示例图片所示我对图像处理很陌生所以任何想法如何做到这一点将不胜感激有多种方法可以检测图像中的文本我建议看看这个问题
如何在 Rust 中反序列化（使用 serde）可选 json 参数，可以是字符串或字符串数组

我是 Rust 新手我正在尝试使用 serde 库反序列化 JSON 数据我有以下 JSON 结构 foo bar speech something or foo bar speech something something else
Scala 中的 Future[Either[AppError, Option[User]]]

正如标题所提到的使用这样的数据结构有意义吗我来一一解释一下 Future 代表异步计算要么传达已知错误选项传达该值可能不存在看到这个的时候我有点害怕使用这种类型组合是一个好的做法吗让我们看一下解决方案空间 Success
这两个使用 IQueryable 和 .AsParallel 的代码片段是否等效？

我正在编写一些非常基本的 TPL 代码并且遇到了一种情况我很好奇以下两个片段是否等效 myEnumerable AsParallel Select e gt do some work that takes awhile return n
CouchDb 视图 - 列表中的键

我想查询 CouchDB 并且我有一个特定的需求我的查询应该返回与此条件相对应的文档的名称字段 id 等于或包含在文档归档列表中例如字段输出如下 output doc s100 doc s101 doc s102 doc s103
为什么`(map digitalToInt) . show`这么快？

转换非负数Integer其数字列表通常是这样完成的 import Data Char digits Integer gt Int digits map digitToInt show 我试图找到一种更直接的方法来执行任务而不涉及字符串转换

为什么`(map digitalToInt) . show`这么快？

为什么`(map digitalToInt) . show`这么快？ 的相关文章

随机推荐

热门标签

为什么`(map digitalToInt) . show`这么快？的相关文章