提高 Fortran 代码性能的提示和技巧 [关闭]

2024-01-07

作为我博士学位的一部分。研究方面，我正在研究大气和海洋环流数值模型的开发。这些涉及到约 10^6 个网格点、超过约 10^4 个时间步长的偏微分方程数值求解系统。因此，当在数十个 CPU 上的 MPI 中运行时，典型的模型仿真需要数小时到几天才能完成。当然，尽可能提高模型效率很重要，同时确保结果逐字节相同。

虽然我对 Fortran 编程感到非常满意，并且知道很多使代码更高效的技巧，但我觉得仍然有改进的空间，以及我不知道的技巧。

目前，我确保使用尽可能少的除法，并尽量不使用文字常量（我很早就被教导要这样做，例如在实际计算中使用 half=0.5 而不是 0.5），使用尽可能少的超越函数尽可能等

还有哪些其他性能敏感因素？目前，我想知道几个：

1）数学运算的顺序重要吗？例如，如果我有：

a=1E-7 ; b=2E4 ; c=3E13
d=a*b*c

d 会根据乘法顺序以不同的效率进行计算吗？如今，这必须是特定于编译器的，但是有直接的答案吗？我注意到 d 根据顺序（精度限制）获得（略有）不同的值，但这会影响效率吗？

2）将大量（例如数十个）数组作为参数传递给子例程与从子例程内的模块访问这些数组？

3) Fortran 95 结构（FORALL 和 WHERE）与 DO 和 IF 比较？我知道这些在 90 年代很重要，当时代码矢量化是一件大事，但是现在现代编译器能够矢量化显式 DO 循环有什么区别吗？（我在工作中使用 PGI、Intel 和 IBM 编译器）

4) 数字的整数次方与乘法？例如。：

b=a**4

b=a*a*a*a

我被教导要尽可能使用后者。这会影响效率和/或精度吗？（可能也依赖于编译器）

请讨论和/或添加您所知道的有关提高 Fortran 代码效率的任何技巧和技巧。外面还有什么？如果您知道上述每个编译器与此问题相关的具体操作，请也将其包括在内。

补充：请注意，我本身没有任何瓶颈或性能问题。我想问是否有任何在操作意义上优化代码的通用规则。

谢谢！

抱歉，但你提到的所有技巧都是……荒谬的。更准确地说，它们在实践中没有任何意义。例如：

使用 half(=0.5) 而不是 0.5 有什么好处？
同上计算a**4 or a*a*a*a. (a*a)** 2也将是另一种可能性。我个人的品味是**4，因为一个好的编译器会自动选择最佳方式。

For **，唯一重要的一点是之间的区别a ** 4 and a ** 4.，后者消耗更多的CPU时间。但如果没有在实际模拟中进行测量，即使这一点也没有任何意义。

事实上，你的做法是错误的。尽可能地开发您的代码。之后，客观地衡量代码不同部分的成本。事先不进行测量就进行优化是毫无意义的。

如果某个部分的 CPU 占用率很高，例如 50%，请不要忘记，仅优化该部分无法将整个代码的成本除以大于两倍的系数。无论如何，从最昂贵的部分（瓶颈）开始优化工作。

还不要忘记，主要的改进通常来自更好的算法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

提高 Fortran 代码性能的提示和技巧 [关闭] 的相关文章

指定 gfortran 应该在其中查找模块的目录

我目前基于模块来编译程序例如主程序foo这取决于模块bar 如下 gfortran c bar f90 gfortran o foo exe foo f90 bar o 当foo f90 and bar f90位于同一目录中如何指定 g
gcc 不太可能使用宏

我正在编写一段关键代码其逻辑大致如下 if expression is true do something with extremely low latency before the nuke blows up This branch i
快速 log2(float x) 实现 C++

我需要在 C 中非常快速地实现 log2 float x 函数我发现了一个非常有趣的实现而且速度非常快 include
为什么 std::atomic 比 volatile bool 慢很多？

多年来我一直使用 volatile bool 来控制线程执行并且效果很好 in my class declaration volatile bool stop In the thread function while stop do th
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
未使用的功能会产生什么后果

我想知道在代码中使用未使用的函数会产生什么如果有什么后果如果您查找并删除所有未使用的函数和变量性能是否会有明显的改进或者删除未使用的函数和变量只是一个好习惯未使用的功能不会损害性能他们让维护代码的人的工作变得更加困难现代 ID
在一条语句中对多个变量进行相同的赋值

有没有一种方法可以为不同的变量分配相同的值而无需在单个语句中构造数组例如如果我有变量a b c d and e 我可以分配类似的东西吗 a b c d e 10 0 我知道我可以用一行来做 a 10 0 b 10 0 c 10 0 d
双端队列与队列速度

我正在研究 LeetCode 上的一个问题 Here https leetcode com problems moving average from data stream 当我完成这个问题后我想出了 class MovingAverag
C# 的快速线程安全随机数生成器

我需要在多个正在运行的线程中快速生成随机浮点数我尝试过使用System Random 但它对于我的需求来说太慢了并且它在多个线程中返回相同的数字当我在单线程中运行应用程序时它工作正常此外我需要确保生成的数字在 0 到 100 之
用 C 更快地读取文件

嗯我想知道是否有一种比使用 fscanf 更快地读取文件的方法例如假设我有这个文本 4 55 k 52 o 24 l 523 i 首先我想读取第一个数字它给出了接下来的行数令这个数称为N N 之后我想读取 N 行其中有一个整数
HTML5 Canvas 性能：加载图像与绘图

我正计划使用 javascript canvas 编写一个游戏我只有一个问题在加载图像与仅使用 canvas 的方法进行绘图方面我应该考虑什么样的性能考虑因素因为我的游戏将使用非常简单的几何图形圆形正方形直线所以任何一种方法
增量SQL查询

我的应用程序有一组固定的 SQL 查询这些查询以轮询模式运行每 10 秒一次由于数据库的大小 gt 100 GB 和设计超级规范化我遇到了性能问题每当数据库上发生更改查询结果的 CRUD 事件时是否可以对给定查询进行增量更改
性能计数器的性能影响是什么

当考虑使用性能计数器作为我公司的基于 NET 的站点时我想知道使用它们的开销有多大我是否想让我的网站不断更新其计数器或者我最好只在测量时更新设置性能计数器的开销通常不够高无需担心设置共享内存区域和一些 NET 对象以及 CLR
setInterval() 如何影响性能？

我们正在使用 Twitter Bootstrap 作为框架构建一个 Web 应用程序但在显示隐藏工具提示时遇到问题除了尝试找到实际问题的解决方案之外我还有一个关于我们同时使用的解决方法的问题从性能角度来看使用 setInterv
Emacs 行编号性能

我试过了linum and nlinum 两者对于超过 100k 行的文件的性能都很糟糕 for x in 1 100000 do echo x done gt 100k txt emacs q 100k txt M x load libr
有效地生成所有排列

我需要尽快生成所有排列 https en wikipedia org wiki Permutation整数的0 1 2 n 1并得到结果作为NumPy https numpy org 形状数组 factorial n n 或者迭代此类数组的
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
为什么 Java 11 中对于空白字符串 String.strip() 比 String.trim() 快 5 倍

我遇到过一个有趣的场景因为某些原因strip 针对空白字符串仅包含空格明显快于trim 在Java 11中基准 public class Test public static final String TEST STRING 3 w
在 C/C++ 中获得正模数的最快方法

通常在我的内部循环中我需要以环绕方式索引数组因此例如如果数组大小为 100 并且我的代码要求元素 2 则应该给它元素 98 高级语言例如 Python 可以简单地使用my array index array size 但由于某
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得

随机推荐

Netty Channel.write 线程安全吗？

我有一个 Netty 应用程序我希望有多个线程写入通道我只是想知道 Channel write 是否线程安全从代码中可以看出 ChannelOutboundBuffer addMessage 方法本身不是线程安全的然而写入通道是
如何在 Asyncio 中列出文件？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我希望能够在不阻塞的情况下获取文件列表但我没有在文档 https docs python org 3 library asyncio
Kafka消费者配置/性能问题

我正在尝试使用 kafka 作为 AWS SQS 的替代品其动机主要是为了提高性能其中 kafka 将消除一次拉取 10 条消息且上限为 256kb 的限制这是我的用例的高级场景我有一堆爬虫正在发送文档以进行索引有效负载的大小平均
单元测试构造函数时使用多个断言？

我正在尝试使用 2 个构造函数对一个类进行单元测试每个构造函数都有多个设置公共属性的参数我的问题是我是否应该只有 2 个具有多个断言的单元测试来检查每个属性是否已设置或者是否对每个构造函数的每个参数进行测试 Public Perso
有没有办法在CSS中创建canvas元素的3D圆柱体？

我想将画布呈现为一个圆锥体你可以像轮子一样双向旋转这对于 JS CSS3 来说是可能的吗您应该看看这个新的 CSS3 功能自定义滤镜 CSS 着色器这里有一些非常好的演示比我能更好地描述整个事情如何在 Chrome 上启用它
具有多个参数的函数方差

在我们的代码中尝试过类似的操作但失败了 Func
如何从启用了“以管理员身份运行”的基于 WiX 的安装程序安装桌面快捷方式（到批处理文件）？

我正在从基于 WiX 的安装程序安装桌面快捷方式到批处理文件如何在启用以管理员身份运行设置的情况下自动配置此快捷方式目标操作系统是Windows Server 2008 R2 并且安装程序正在以提升的权限运行 Update 感谢
Porter Stemmer 算法未返回预期输出？当修改为def时

我正在使用PorterStemmer http tartarus org martin PorterStemmer Python 端口 http tartarus org martin PorterStemmer python txt 波特
实体框架 SaveChanges() 与 SaveChangesAsync() 和 Find() 与 FindAsync()

我一直在寻找上述两对之间的差异但没有找到任何文章清楚地解释它以及何时使用其中之一那么有什么区别SaveChanges and SaveChangesAsync 而之间Find and FindAsync 在服务器端当我们使用Async
Kivy按钮文本对齐问题

我正在尝试在 Kivy 中开发一个电子邮件应用程序基本上只是作为学习框架内部和外部的练习我正在尝试创建初始窗口但遇到了一些绊脚石这个想法是它只会在收件箱中显示电子邮件列表就像移动设备上的任何基本电子邮件应用程序一样我遇到的问题
在 MySQL 中使用 UPDATE 和 JOIN 时出现语法错误“near FROM”？

UPDATE bestall SET view t1 v rawview t1 rv FROM bestall INNER JOIN beststat as t1 ON bestall bestid t1 bestid 这个查询给出了附近的
如何编写一个 zipWith 方法，该方法返回与传递给它的集合类型相同的集合？

我已经达到了这样的程度 implicit def collectionExtras A xs Iterable A new def zipWith B C That ys Iterable B f A B gt C implicit cbf
首先在 EF 代码中混合 Fluent API 和 DataAnnotations

虽然我们主要对代码优先的 POCO 使用流畅的配置但我们发现对表名 PK 等使用数据注释很有用因为它使没有引用的非 EF 组件变得更容易到 ObjectContext 来与这些实体进行交互根据我们的经验这两种配置风格似乎可以自由混合
从 Jenkins Multijob 迁移到 Pipeline 插件

目前我们正在使用 Jenkins CI 1 643 我相信以及 Multijob 插件和 Job DSL 使用 Job DSL 生成作业集合以及包含特定顺序的所有其他作业构建分析单元测试集成测试等的多作业我有兴趣升级到 Je
maven插件安装：安装文件错误

我使用 install install file 将 jar 安装到我的本地存储库我的 pom xml 编写如下
将无序列表制作为下拉菜单

如果我在 WordPress 上显示此代码将其转换为跳转菜单的最简单方法是什么 ul class toc odd level 1 li a href 1 It s finally here a li li a href 2 Improve
Python 中的线程需要更长的时间而不是使其更快？

我编写了 3 个不同的代码来比较有线程和没有线程基本上测量通过使用线程节省了多少时间结果没有任何意义这是我的代码 import time def Function global x x 0 while x lt 300000000 x
在多宿主 Windows 10 计算机上接收 UDP 多播消息

我有一个C NET侦听 UDP 多播消息的客户端我需要在单个网络接口上接收消息有时我看不到收到的消息当我禁用其他接口时它可以工作我尝试使用本网站上类似问题的代码将套接字选项设置为特定接口但是我不确定这是否只影响发送多播消息而不
在 PHP 中学习 mvc 的最佳方法是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我对 mvc 完全陌生如何学习走这条路了解 MVC Google 一下参见维基百科文章选择一个框架我建议 CodeIgni
提高 Fortran 代码性能的提示和技巧 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi

提高 Fortran 代码性能的提示和技巧 [关闭]

提高 Fortran 代码性能的提示和技巧 [关闭] 的相关文章

随机推荐

热门标签