Java 中的“快速”整数幂

2024-01-07

[简短回答：糟糕的基准测试方法。你可能认为我现在已经明白了。]

该问题被表述为“找到一种快速计算x^y的方法，其中x和y是正整数”。典型的“快速”算法如下所示：

public long fastPower(int x, int y) {
  // Replaced my code with the "better" version described below,
  // but this version isn't measurably faster than what I had before
  long base = x; // otherwise, we may overflow at x *= x.
  long result = y % 2 == 1 ? x : 1;
  while (y > 1) {
    base *= base;
    y >>= 1;
    if (y % 2 == 1) result *= base;
  }

  return result;
}

我想看看这比调用 Math.pow() 或使用简单的方法（例如将 x 乘以 y 次）快多少，如下所示：

public long naivePower(int x, int y) {
  long result = 1;
  for (int i = 0; i < y; i++) {
    result *= x;
  }
  return result;
}

编辑：好的，有人（正确地）向我指出我的基准测试代码没有消耗结果，这完全让一切都失败了。一旦我开始使用结果，我仍然发现简单方法比“快速”方法快约 25%。

原文：

I was very surprised to find that the naive approach was 4x faster than the "fast" version, which was itself about 3x faster than the Math.pow() version.

我的测试使用 10,000,000 次试验（然后是 1 亿次，只是为了绝对确保 JIT 有时间预热），每个试验都使用随机值（以防止调用被优化掉）2

据我所知，对于小指数，天真的版本预计会更快。 “快速”版本有两个分支而不是一个，并且通常会执行两倍于天真的分支的算术/存储操作 - 但我预计对于大指数，这仍然会导致快速方法节省一半的操作最好的情况和最坏的情况大致相同。

任何人都知道为什么简单的方法会比“快速”版本快得多，即使数据偏向“快速”版本（即更大的指数）？该代码中的额外分支是否会在运行时造成如此大的差异？

基准测试代码（是的，我知道我应该使用一些框架来进行“官方”基准测试，但这是一个玩具问题）-更新以热身并使用结果：

PowerIf[] powers = new PowerIf[] {
  new EasyPower(), // just calls Math.pow() and cast to int
  new NaivePower(),
  new FastPower()
};

Random rand = new Random(0); // same seed for each run
int randCount = 10000;
int[] bases = new int[randCount];
int[] exponents = new int[randCount];
for (int i = 0; i < randCount; i++) {
  bases[i] = 2 + rand.nextInt(2);
  exponents[i] = 25 + rand.nextInt(5);
}

int count = 1000000000;

for (int trial = 0; trial < powers.length; trial++) {
  long total = 0;
  for (int i = 0; i < count; i++) { // warm up
    final int x = bases[i % randCount];
    final int y = exponents[i % randCount];
    total += powers[trial].power(x, y);
  }
  long start = System.currentTimeMillis();
  for (int i = 0; i < count; i++) {
    final int x = bases[i % randCount];
    final int y = exponents[i % randCount];
    total += powers[trial].power(x, y);
  }
  long end = System.currentTimeMillis();
  System.out.printf("%25s: %d ms%n", powers[trial].toString(), (end - start)); 
  System.out.println(total);
}

产生输出：



                EasyPower: 7908 ms
-407261252961037760
               NaivePower: 1993 ms
-407261252961037760
                FastPower: 2394 ms
-407261252961037760

使用随机数和试验的参数确实会改变输出特性，但测试之间的比率始终与所示的相同。

你的问题有两个fastPower:

最好更换y % 2 == 0 with (y & 1) == 0;按位运算速度更快。
你的代码总是递减y并执行额外的乘法，包括以下情况y甚至。最好将这部分放入else clause.

不管怎样，我猜你的基准测试方法并不完美。 4 倍的性能差异听起来很奇怪，在没有看到完整代码的情况下无法解释。

应用上述改进后，我已经验证使用JMH http://openjdk.java.net/projects/code-tools/jmh/基准测试fastPower确实比naivePower系数为 1.3 倍至 2 倍。

package bench;

import org.openjdk.jmh.annotations.*;

@State(Scope.Benchmark)
public class FastPow {
    @Param("3")
    int x;
    @Param({"25", "28", "31", "32"})
    int y;

    @Benchmark
    public long fast() {
        return fastPower(x, y);
    }

    @Benchmark
    public long naive() {
        return naivePower(x, y);
    }

    public static long fastPower(long x, int y) {
        long result = 1;
        while (y > 0) {
            if ((y & 1) == 0) {
                x *= x;
                y >>>= 1;
            } else {
                result *= x;
                y--;
            }
        }
        return result;
    }

    public static long naivePower(long x, int y) {
        long result = 1;
        for (int i = 0; i < y; i++) {
            result *= x;
        }
        return result;
    }
}

Results:

Benchmark      (x)  (y)   Mode  Cnt    Score   Error   Units
FastPow.fast     3   25  thrpt   10  103,406 ± 0,664  ops/us
FastPow.fast     3   28  thrpt   10  103,520 ± 0,351  ops/us
FastPow.fast     3   31  thrpt   10   85,390 ± 0,286  ops/us
FastPow.fast     3   32  thrpt   10  115,868 ± 0,294  ops/us
FastPow.naive    3   25  thrpt   10   76,331 ± 0,660  ops/us
FastPow.naive    3   28  thrpt   10   69,527 ± 0,464  ops/us
FastPow.naive    3   31  thrpt   10   54,407 ± 0,231  ops/us
FastPow.naive    3   32  thrpt   10   56,127 ± 0,207  ops/us

Note:整数乘法是相当快的运算，有时甚至比额外的比较更快 https://stackoverflow.com/questions/35531369/why-is-ab-0-faster-than-a-0-b-0-in-java。不要期望通过适合的值带来巨大的性能改进long。快速功率算法的优势将在BigInteger具有更大的指数。

Update

自从作者发布了基准测试以来，我必须承认令人惊讶的性能结果来自常见的基准测试陷阱。我在保留原始方法的同时改进了基准测试，现在它表明FastPower确实比NaivePower, see here https://gist.github.com/apangin/91c07684635893e3f1d5.

改进版主要有哪些变化？

不同的算法应在不同的 JVM 实例中单独测试，以防止配置文件污染。
必须多次调用基准测试才能进行正确的编译/重新编译，直到达到稳定状态。
应将一个基准测试放在单独的方法中，以避免堆栈替换问题。
y % 2被替换为y & 1因为 HotSpot 不会自动执行此优化。
最小化主基准测试循环中不相关操作的影响。

手动编写微基准是一项艰巨的任务。这就是为什么强烈建议使用适当的基准测试框架，例如JMH http://openjdk.java.net/projects/code-tools/jmh/.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java 中的“快速”整数幂的相关文章

CXF Swagger2功能添加安全定义

我想使用 org apache cxf jaxrs swagger Swagger2Feature 将安全定义添加到我的其余服务中但是我看不到任何相关方法或任何有关如何执行此操作的资源下面是我想使用 swagger2feature 生成
如何在 Java 中禁用 System.out 以提高速度

我正在用 Java 编写一个模拟重力的程序其中有一堆日志语句到 System out 我的程序运行速度非常慢我认为日志记录可能是部分原因有什么方法可以禁用 System out 以便我的程序在打印时不会变慢或者我是否必须手动检查并
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
Java 页面爬行和解析之 Crawler4j 与 Jsoup

我想获取页面的内容并提取其中的特定部分据我所知此类任务至少有两种解决方案爬虫4j https github com yasserg crawler4j and Jsoup http jsoup org 它们都能够检索页面的内容并提取其
Prim 的迷宫生成算法：获取相邻单元格

我基于 Prim 算法编写了一个迷宫生成器程序该算法是 Prim 算法的随机版本从充满墙壁的网格开始选择一个单元格将其标记为迷宫的一部分将单元格的墙壁添加到墙壁列表中 While there are walls in the li
序列化对象以进行单元测试

假设在单元测试中我需要一个对象其中所有 50 个字段都设置了一些值我不想手动设置所有这些字段因为这需要时间而且很烦人不知何故我需要获得一个实例其中所有字段都由一些非空值初始化我有一个想法如果我要调试一些代码在某个时候我会得
在具有相同属性名称的不同数据类型上使用 ModelMapper

我有两节课说Animal AnimalDto我想用ModelMapper将 Entity 转换为 DTO 反之亦然但是对于具有相似名称的一些属性这些类应该具有不同的数据类型我该如何实现这一目标动物 java public class
从 android 简单上传到 S3

我在网上搜索了从 android 上传简单文件到 s3 的方法但找不到任何有效的方法我认为这是因为缺乏具体步骤 1 https mobile awsblog com post Tx1V588RKX5XPQB TransferManage
检查 protobuf 消息 - 如何按名称获取字段值？

我似乎无法找到一种方法来验证 protobuf 消息中字段的值而无需显式调用其 getter 我看到周围的例子使用Descriptors FieldDescriptor实例到达消息映射内部但它们要么基于迭代器要么由字段号驱动一旦我有
尝试使用 Ruby Java Bridge (RJB) gem 时出现错误“无法创建 Java VM”

我正在尝试实现 Ruby Java Bridge RJB gem 来与 JVM 通信以便我可以运行 Open NLP gem 我在 Windows 8 上安装并运行了 Java 所有迹象至少我所知道的都表明 Java 已安装并可运行
将 Long 转换为 DateTime 从 C# 日期到 Java 日期

我一直尝试用Java读取二进制文件而二进制文件是用C 编写的其中一些数据包含日期时间数据当 DateTime 数据写入文件以二进制形式时它使用DateTime ToBinary on C 为了读取 DateTime 数据它将首
Java直接内存：在自定义类中使用sun.misc.Cleaner

在 Java 中 NIO 直接缓冲区分配的内存通过以下方式释放 sun misc Cleaner实例一些比对象终结更有效的特殊幻像引用这种清洁器机制是否仅针对直接缓冲区子类硬编码在 JVM 中或者是否也可以在自定义组件中使用清洁器例
Java中未绑定通配符泛型的用途和要点是什么？

我不明白未绑定通配符泛型有什么用具有上限的绑定通配符泛型 stuff for Object item stuff System out println item Since PrintStream println 可以处理所有引用类型通
应用程序关闭时的倒计时问题

我制作了一个 CountDownTimer 代码我希望 CountDownTimer 在完成时重新启动即使应用程序已关闭但它仅在应用程序正在运行或重新启动应用程序时重新启动因此如果我在倒计时为 00 10 分钟秒时关闭应用程序
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
Android JNI C 简单追加函数

我想制作一个简单的函数返回两个字符串的值基本上 java public native String getAppendedString String name c jstring Java com example hellojni He
针对约 225 万行的单表选择查询的优化技术？

我有一个在 InnoDB 引擎上运行的 MySQL 表名为squares大约有 2 250 000 行表结构如下 squares square id int 7 unsigned NOT NULL ref coord lat doubl
将2-3-4树转换为红黑树

我正在尝试将 2 3 4 树转换为 java 中的红黑树但我无法弄清楚它我将这两个基本类编写如下以使问题简单明了但不知道从这里到哪里去 public class TwoThreeFour
java8 Collectors.toMap() 限制？

我正在尝试使用java8Collectors toMap on a Stream of ZipEntry 这可能不是最好的想法因为在处理过程中可能会发生异常但我想这应该是可能的我现在收到一个我不明白的编译错误我猜是类型推理引擎这是
javax.persistence.Table.indexes()[Ljavax/persistence/Index 中的 NoSuchMethodError

我有一个 Play Framework 应用程序并且我was使用 Hibernate 4 2 5 Final 通过 Maven 依赖项管理器检索我决定升级到 Hibernate 4 3 0 Final 成功重新编译我的应用程序并运行它

随机推荐

使用 ExoPlayer 将 YouTube 直播视频 (DASH) 流式传输到 Android 应用程序

我正在制作一个可以将实时 YouTube 视频流式传输到我的应用程序的应用程序我想使用 ExoPlayer 我浏览了 ExoPlayer 的演示应用程序他们在 DASH 流中使用的 URL 是这样的 uri http www youtu
如何在 Python / Matplotlib 中根据特征值和特征向量绘制椭圆？

给定一个二维数据集我想在数据周围绘制一个椭圆为此我首先计算了协方差矩阵及其相关的特征值 cov np cov X T eigenvalues eigenvectors np linalg eig cov 我现在想使用 matplotl
Django REST Framework 序列化器 - 访问现有外键

我在用Django 休息框架 http www django rest framework org api guide serializers在我的应用程序中我需要创建包含外键的新模型实例这些引用另一个表中的现有对象因此我不希望创建这
将参数传递给 NSTimer 调用的方法

如何将参数传递给 NSTimer 调用的方法我的计时器看起来像这样 NSTimer scheduledTimerWithTimeInterval 4 target self selector selector updateBusLocat
Cx 冻结错误 - Python 34

我有一个 Cx Freeze 安装文件我正在尝试使其工作令人非常沮丧的是used适当冷冻但是现在我收到以下错误编辑显示的错误不是通过控制台的 Python 异常而是尝试启动通过冻结生成的结果 exe 文件时的崩溃报告文件 no
为什么在 while 循环中使用 itrerator 对象时需要进行类型转换？ [复制]

这个问题在这里已经有答案了我现在正在学习java 在编写遍历代码时ArrayList using Iterator在使用迭代器的对象之前我必须使用类名next 功能有人能帮我解决这个问题吗 import java util publi
使用“在模型中保存起始值”选项来帮助 Dymola 中的收敛

I build a model in dymola Even though there are some errors during the initialization process but the calculation succee
Python 文档字符串模板化

为什么动态格式化文档字符串不起作用是否有可接受的解决方法来执行此操作在函数定义时 gt gt gt DEFAULT BAR moe s tavern gt gt gt def foo bar DEFAULT BAR hello this
IONIC 键盘隐藏在输入焦点上

我正在编写一个 Ionic 应用程序该应用程序将用于医疗保健领域的物流目的用于此应用程序的设备具有内置条形码扫描仪并在 android 4 1 1 上运行该扫描仪在输入字段中输入数据并通过按输入键提交数据由于扫描仪在某些情况下
将本地存储从 Cordova 应用迁移到 Android 应用

我们在 Playstore 中有一个使用 Cordova 开发的应用程序现在我们已经在原生 Android 中重建了整个应用程序现在我们希望在不注销的情况下将用户从以前的应用程序升级到新应用程序为此如何将Cordova window
根据累计和和组创建新组

我希望根据两个条件创建一个新组我希望在 Value 的累计总和达到 10 之前将所有案例分组在一起并且我希望在每个人中完成此操作我已经设法让它分别适用于每个条件但不能同时使用 for 循环和 dplyr 但是我需要同时应用这两个条
如何使用 IntelliJ 将外部库的源代码和 javadoc 添加到 gradle？

我已经使用 IntelliJ 和 Gradle 建立了一个 Java 项目我的根项目中有一个 build gradle 文件我可以编译并运行我的应用程序然而我正在使用一个Java 库它附带了源代码和javadoc zip 文件如
如何删除 div 和页面顶部之间的空间？

这可能已经被问过一百万零一次了但如果有人能向我解释 div 的行为我将不胜感激我有一个容器 div 我将其对齐在页面的中心页面的顶部和顶部之间有一个间隙我希望它与页面顶部齐平我假设有某种我需要删除的边距或填充但我无法想象它可能
OSX Mac App Store：如何安装守护进程 shell 脚本

我想为 Mac App Store 编写一个涉及安装守护程序的应用程序守护进程可以是一个非常简单的 Hello World shell 脚本可以是 Bourne shell 或 Python 它应该在每次机器启动时自动运行我尝试使用安
如何在谷歌应用程序引擎中的留言簿中的每个帖子下添加日期和时间

这是代码 import cgi import datetime import wsgiref handlers from google appengine ext import db from google appengine api im
单击按钮时一个片段到另一个片段

我已经学会了如何在单击按钮时将片段活动从一个更改为另一个所有都是片段活动但现在我遇到了同一片段上多个按钮的问题只有第一个按钮 id 有效我有多个按钮每个按钮都有不同的片段活动需要帮忙 package com test fragm
将特定标头添加到 bitbake wget fetcher

我需要设置一个特定的标头以使用以下命令从资源中获取存档wgetfetcher 类似于 wget header PRIVATE ACCESS TOKEN blablablablabla https some resource 如何使用该获取器
如何在 iOS Swift 中将数据数组回调到另一个 viewController

在createCardVC中我使用carbonKit库来显示标签栏最初使用静态数据加载的数据数组但现在我尝试使用来自 webView javascript postMessage 的数据数组当 createCardVC 加载时第
C++11 递归可变参数模板

我想了解递归可变参数模板是如何工作的 include
Java 中的“快速”整数幂

简短回答糟糕的基准测试方法你可能认为我现在已经明白了该问题被表述为找到一种快速计算x y的方法其中x和y是正整数典型的快速算法如下所示 public long fastPower int x int y Replaced m

Java 中的“快速”整数幂

Update

Java 中的“快速”整数幂 的相关文章

随机推荐

热门标签

Java 中的“快速”整数幂的相关文章