OpenCL 双精度与 CPU 双精度不同

2024-02-15

我正在 Linux 中使用 GeForce GT 610 卡进行 OpenCL 编程。我的CPU和GPU双精度结果不一致。我可以在这里发布部分代码，但我首先想知道是否有其他人遇到过这个问题。当我运行多次迭代的循环时，GPU 和 CPU 双精度结果之间的差异变得很明显。该代码确实没有什么特别的，但如果有人感兴趣，我可以将其发布在这里。多谢。这是我的代码。请原谅 __ 和错误的格式，因为我是新来的:) 如您所见，我有两个循环，我的 CPU 代码本质上几乎是相同的版本。

#ifdef cl_khr_fp64
#pragma OPENCL EXTENSION cl_khr_fp64 : enable
#elif defined(cl_amd_fp64)
#pragma OPENCL EXTENSION cl_amd_fp64 : enable
#else
#error "Double precision floating point not supported by OpenCL implementation."

#endif

__kernel void simpar(__global double* fp, __global double* fp1,
  __global double* fp3, __global double* fp5,
 __global double* fp6, __global double* fp7,
 __global double* fp8, __global double* fp8Plus,
 __global double* x, __global double* v, __global double* acc,
 __global double* keBuf, __global double* peBuf,
 unsigned int prntstps, unsigned int nprntstps, double dt
 ) {
unsigned int m,i,j,k,l,t;
unsigned int chainlngth=100;
double dxi, twodxi, dxipl1, dximn1, fac, fac1, fac2, fac13, fac23;
double ke,pe,tke,tpe,te,dx;
double hdt, hdt2;
double alpha=0.16;
double beta=0.7;
double cmass;
double peTemp;
nprntstps=1001;
dt=0.01;
prntstps=100;
double alphaby4=beta/4.0;
hdt=0.5*dt;
hdt2=dt*0.5*dt;
double Xlocal,Vlocal,Acclocal;
unsigned int global_id=get_global_id(0);
if (global_id<chainlngth){
Xlocal=x[global_id];
Vlocal=v[global_id];
Acclocal=acc[global_id];
for (m=0;m<nprntstps;m++){

for(l=0;l<prntstps;l++){
               Xlocal =Xlocal+dt *Vlocal+hdt2*Acclocal; 
               x[global_id]=Xlocal;
               barrier(CLK_LOCAL_MEM_FENCE);

              Vlocal =Vlocal+ hdt * Acclocal; 
              barrier(CLK_LOCAL_MEM_FENCE);

            j = global_id - 1;
            k = global_id + 1;
            if (j == -1) {
                    dximn1 = 0.0;
            } else {
                    dximn1 = x[j];
            }
            if (k == chainlngth) {
                    dxipl1 = 0.0;
            } else {
                    dxipl1 = x[k];
            }
            dxi = Xlocal;
            twodxi = 2.0 * dxi;
            fac = dxipl1 + dximn1 - twodxi;
            fac1 = dxipl1 - dxi;
            fac2 = dxi - dximn1;
            fac13 = fac1 * fac1 * fac1;
            fac23 = fac2 * fac2 * fac2;
            Acclocal = alpha * fac + beta * (fac13 - fac23);

            barrier(CLK_GLOBAL_MEM_FENCE);

            Vlocal += hdt * Acclocal;
            v[global_id]=Vlocal;
            acc[global_id]=Acclocal;
            barrier(CLK_GLOBAL_MEM_FENCE);
       }
            barrier(CLK_GLOBAL_MEM_FENCE);

            tke = tpe = te = dx = 0.0;
            ke=0.5*Vlocal*Vlocal;//Vlocal*Vlocal;
           barrier(CLK_GLOBAL_MEM_FENCE);
            fp6[(m*100)+global_id]=ke;
            keBuf[global_id]=ke;
            ke=0.0; 
            barrier(CLK_GLOBAL_MEM_FENCE);


            j = global_id - 1;
            k = global_id + 1;
            if (j == -1) {
                    dximn1 = 0.0;
            } else {
                    dximn1 = x[j];
            }
            if (k == chainlngth) {
                    dxipl1 = 0.0;
            } else {
                    dxipl1 = x[k];
            }
            dxi = Xlocal;
            twodxi = 2.0 * dxi;
            fac = dxipl1 + dximn1 - twodxi;
            fac1 = dxipl1 - dxi;
            fac2 = dxi - dximn1;
            fac13 = fac1 * fac1 * fac1;
            fac23 = fac2 * fac2 * fac2;
            Acclocal = alpha * fac + beta * (fac13 - fac23);

            barrier(CLK_GLOBAL_MEM_FENCE);

            Vlocal += hdt * Acclocal;
            v[global_id]=Vlocal;
            acc[global_id]=Acclocal;
            barrier(CLK_GLOBAL_MEM_FENCE);
       }
            barrier(CLK_GLOBAL_MEM_FENCE);

            tke = tpe = te = dx = 0.0;
            ke=0.5*Vlocal*Vlocal;//Vlocal*Vlocal;
           barrier(CLK_GLOBAL_MEM_FENCE);
            fp6[(m*100)+global_id]=ke;
            keBuf[global_id]=ke;
            ke=0.0; 
            barrier(CLK_GLOBAL_MEM_FENCE);
            j = global_id - 1;
            k = global_id + 1;
            if (j == -1) {
                    dximn1 = 0.0;
            } else {
                    dximn1 = x[j];
            }
            if (k == chainlngth) {
                    dxipl1 = 0.0;
            } else {
                    dxipl1 = x[k];
            }
            dxi = Xlocal;
            twodxi = 2.0 * dxi;
            fac = dxipl1 + dximn1 - twodxi;
            fac1 = dxipl1 - dxi;
            fac2 = dxi - dximn1;
            fac13 = fac1 * fac1 * fac1;
            fac23 = fac2 * fac2 * fac2;
            Acclocal = alpha * fac + beta * (fac13 - fac23);

            barrier(CLK_GLOBAL_MEM_FENCE);

            Vlocal += hdt * Acclocal;
            v[global_id]=Vlocal;
            acc[global_id]=Acclocal;
            barrier(CLK_GLOBAL_MEM_FENCE);
       }
            barrier(CLK_GLOBAL_MEM_FENCE);

            tke = tpe = te = dx = 0.0;
            ke=0.5*Vlocal*Vlocal;//Vlocal*Vlocal;
           barrier(CLK_GLOBAL_MEM_FENCE);
            fp6[(m*100)+global_id]=ke;
            keBuf[global_id]=ke;
            ke=0.0; 
            barrier(CLK_GLOBAL_MEM_FENCE);
     if (global_id ==0){
             for(t=0;t<100;t++)
                  tke+=keBuf[t];
            }

            barrier(CLK_GLOBAL_MEM_FENCE); 
            k = global_id-1;
            if (k == -1) {
                dx = Xlocal;
            }else{
              dx = Xlocal-x[k];
            }

              fac = dx * dx;
              peTemp = alpha * 0.5 * fac + alphaby4 * fac * fac;
              fp8[global_id*m]=peTemp;
              if (global_id == 0)
                    tpe+=peTemp;

              barrier(CLK_GLOBAL_MEM_FENCE);  
              cmass=0.0;  
              dx = -x[100-1];
              fac = dx*dx;

              pe=alpha*0.5*fac+alphaby4*fac*fac;
              if (global_id==0){
              fp8Plus[m]=pe;
              tpe+=peBuf[0];
              fp5[m*2]=i;
              fp5[m*2+1]=cmass;
              te=tke+tpe;
              fp[m*2]=m;
              fp[m*2+1]=te;

             }
   barrier(CLK_GLOBAL_MEM_FENCE);
              //cmass /=100;
             fp1[(m*chainlngth)+global_id]=Xlocal-cmass; 
             // barrier(CLK_GLOBAL_MEM_FENCE);
              fp3[(m*chainlngth)+global_id]=Vlocal;
             // barrier(CLK_GLOBAL_MEM_FENCE);
             fp7[(m*chainlngth)+global_id]=Acclocal;

              barrier(CLK_GLOBAL_MEM_FENCE);
  }
 }

}

实际上，这在某种程度上是预期的行为。

在较旧的 x86 CPU 上，浮点数的长度为 80 位（Intel 的“长双” http://en.wikipedia.org/wiki/Long_double），并且仅在需要时截断为 64 位。当浮点运算的 SIMD 单元/指令到达 x86 CPU 时，浮点双精度默认变为 64 位；但是，80 位仍然是可能的，具体取决于您的编译器设置。关于这一点，有很多值得阅读的内容：维基百科：浮点 http://en.wikipedia.org/wiki/Floating_point.

检查 OpenCL 的编译器设置and浮点“魔术”上的主机代码，以获得更好的结果一致性。计算absolute http://mathworld.wolfram.com/AbsoluteError.html and 相对误差 http://mathworld.wolfram.com/RelativeError.html您的值并检查此误差范围对于您的应用程序是否安全。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

OpenCL 双精度与 CPU 双精度不同的相关文章

确定 OpenCL 工作组大小的限制因素？

我正在尝试在资源较少的嵌入式 GPU 上运行一些为桌面显卡编写的 OpenCL 内核特别是桌面版本假设始终支持至少 256 个工作组大小但基于 Mali T628 ARM 的 GPU 仅保证 64 工作组大小事实上一些内核报告CL
性能：boost.compute vs. opencl C++ 包装器

以下代码分别使用 boost compute 和 opencl C 包装器将两个向量相加结果显示 boost compute 几乎比 opencl c 包装器慢 20 倍我想知道我是否错过了使用 boost compute 或者它确实很
OpenCL 中的矩阵求逆

我正在尝试使用 OpenCL 加速一些计算算法的一部分包括反转矩阵是否有任何开源库或免费可用的代码来计算用 OpenCL 或 CUDA 编写的矩阵的 lu 分解 lapack dgetrf 和 dgetri 或一般求逆该矩阵是实数且为
内存复制速度对比 CPU<->GPU

我现在正在学习 boost compute openCL 包装库我的复制过程非常慢如果我们将 CPU 到 CPU 的复制速度调整为 1 那么 GPU 到 CPU GPU 到 GPU CPU 到 GPU 复制的速度有多快我不需要精确的数
使用 GPU PyOpenCL 优化 python 代码的不同方法：内核 GPU/PyOpenCL 内的 extern 函数

我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后我可以全局可视化不同贪婪函数的重新
OpenGL-OpenCL 互操作传输时间 + 位图纹理

两部分问题我正在开展一个学校项目使用生命游戏作为实验 gpgpu 的工具我使用 OpenCL 和 OpenGL 进行实时可视化目标是让这个东西尽可能大更快经过分析我发现帧时间主要由 CL 获取和释放 GL 缓冲区决定并且时间
有关 OpenCL 内核编程的教程或书籍？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我认为这个问题足够具体只是为了说清楚我不是在寻找参考而是在寻找教程我对内核编程方面特别感兴趣市
如何在 OpenCL 中验证波前/扭曲大小？

我使用的是 AMD Radeon HD 7700 GPU 我想使用以下内核来验证波前尺寸是否为 64 kernel void kernel test warpsize global T dataSet uint size size t id
高清处理器显卡 (HD4000) 无法作为英特尔 OpenCL SDK 中的设备加载

我使用 i7 3770K Ivy Bridge 和 HD 4000 并且我已经安装了最新的驱动程序和最新的OpenCL SDK http software intel com en us articles vcsource tools op
在 OpenCL 内核中动态创建本地数组

我有一个 OpenCL 内核需要将一个数组作为多个数组进行处理其中每个子数组总和都保存在本地缓存数组中例如想象一下捕鸟数组 1 2 3 4 10 30 1 23 每个工作组都有一个数组在示例中我们有 2 个工作组每个工作项处理两
opencl支持布尔变量吗？

openCL 支持布尔变量吗我目前正在使用 JOCL java 编写我的 openCL 调用代码但我没有看到任何有关布尔值的信息 tl dr 是的但是你应该在内核函数签名中避免它是的但a的大小bool is not定义的因此它
如何在 Docker 容器内运行 OpenCL + OpenGL？

目的是在 Docker 容器内运行 OpenCL OpenGL 互操作应用程序但我还没有成功 Intro 我有配备 NVidia 显卡的笔记本电脑因此我认为利用 NVidia Dockerfiles 1 2 将是一个很好的起点以下
有一个不错的 OpenCL 入门套件吗？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我有一些经验OpenGL它是可编程管道我愿意给OpenCL不过尝试一下有人可以提出一个很好的集成套件来使用OpenCL 我只知道石英作曲家看起来
空的 openCL 程序抛出弃用警告

我下载了 AMD APP 3 0 SDK 一旦包含 include
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
在内核 OpenCL 中实现 FIFO 的最佳方法

目标在 OpenCL 中实现下图所示 OpenCl 内核所需的主要内容是将系数数组和临时数组相乘然后最后将所有这些值累加为 1 这可能是最耗时的操作并行性在这里非常有帮助我正在为内核使用一个辅助函数来执行乘法和加法我希望这个函数也
Linux 上的 OpenCL 编译

我是 OpenCL 的新手从昨天开始我尝试使用 OpenCL 进行并行编程而不是使用我更熟悉且以前体验过的 CUDA 现在我有 NVIDIA GTX 580 GPU Ubuntu Linux 12 04 操作系统和 CUDA SDK
是否可以在 OpenCL 中并行运行求和计算？

我是 OpenCL 的新手不过我了解 C C 基础知识和 OOP 我的问题如下是否可以以某种方式并行运行求和计算任务理论上可能吗下面我将描述我尝试做的事情任务例如是 double values new double 1000 l
在 OpenCL 中将函数作为参数传递

是否可以在 OpenCL 1 2 中将函数指针传递给内核我知道可以用C实现但不知道如何在OpenCL的C中实现编辑我想做这篇文章中描述的同样的事情在 C 中如何将函数作为参数传递 https stackoverflow com q
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open

随机推荐

如何将一些数据从一个控制器传递到另一个对等控制器[重复]

这个问题在这里已经有答案了我有以下两个对等控制器这些没有父级 div div div The value of xxx is xxx div angular module test controller QuestionsStatusC
Postgres：行级安全性不适用于视图

当通过视图访问受行级安全保护的表时该表是通过视图的所有者来访问的这使得 RLS 毫无用处我想要的是让用户的 RLS 与用户 test user 连接这包括表和访问表的视图该策略使用为事务设置的参数我发现当 test user 不
如何将 MySQL 中的列默认值分配给另一列的值？

我想向 MySQL 数据库中的表添加一个新列该新列应该获取同一表中另一列的值这可能吗如果是这样你会怎么做从 MySQL 5 0 2 开始您可以编写链接到TRIGGER http dev mysql com doc refman
在 nuget init.ps1 中，如何检测是作为安装运行还是作为控制台初始化运行

所以init ps1https docs nuget org create creating and publishing a package automatically running powershell scripts during
django 表单未在模板中呈现。输入字段不显示

我无法在模板中看到 django 表单它没有被正确渲染我已经尝试过解决这个问题但表格没有显示在一个新项目中尝试了相同的代码来测试效果很好但在这里不起作用这个 form as p 没有显示任何内容即没有输入字段供我输入详细信息
如何在现有的 Android Studio 项目中添加另一个项目？

我从网上获得了一些图像裁剪演示并且我正在尝试将该 lib 项目导入到我现有的 android studio 项目中我不明白如何在我的项目中导入 lib 项目这是从网上获取的演示看到它突出显示了文件夹名称cropper 这个演示来自网
如何在 React Native 中使用 setNativeProps 的 useRef 钩子？

我正在尝试将 React Native 的类组件转换为涉及的功能组件useRef 以下是类组件 import React Component from react import AppRegistry StyleSheet Text Vie
如何在没有任何透明度/淡入淡出效果的情况下执行kCATransitionPush动画[重复]

这个问题在这里已经有答案了可能的重复 iPhone CATransition 在任何动画的开始和结束处添加淡入淡出 https stackoverflow com questions 2375850 iphone catransition
使用 git lfs 存储的 MP4 文件无法在 Github Pages 中播放

我的存储库中有一个 mp4 文件用 git lfs 存储我希望能够在我的网站上播放当我打开带有 github 页面的网站时视频不可见有什么想法吗原始答案 2019 您可以查看中提出的解决方法git lfs git lfs 问题
如何在 Java 中快速检索目录列表？

假设有一个非常简单的程序列出给定目录的所有子目录听起来很简单吗除了在 Java 中列出所有子目录的唯一方法是使用文件名过滤器 http java sun com javase 6 docs api java io FilenameFi
php-fpm 和 nginx 会话问题

过去一周左右我一直遇到这个问题我一直在开发一个严重依赖会话的 PHP 项目由于某种原因过去几天我们在保存会话方面遇到了麻烦知道为什么吗这是错误 Warning Unknown open tmp sess mmd0ru5pl2h2h
Kendo 数据源参数映射

我是剑道新手我在模型绑定方面遇到问题当我用 firebug 调试时它显示options models 是不明确的因此 parrameterMap 中的 if 条件始终为 false 并且网格不会填充数据但是当我删除 parrame
Scientific Linux 上的 Grail（网络浏览器）安装

我不确定 Grail 浏览器现在是否是一个好的选择但是我想尝试一下因为我在 Firefox Fermi 上运行图形时遇到一些问题接下来是我尝试 grail 0 6 tgz 后获得的结果 python grail py Tracebac
是否有本地 Google App Engine 数据查看器？

我想离线使用谷歌的在线GAE数据查看器是否有一些 python 代码可以显示我所有的本地数据甚至模式是的去http localhost 8000 ah admin http localhost 8000 ah admin 假设您正在使
如何从服务器端 Blazor Net Core 5.0 调用 API 控制器操作？

我创建了一个标准 Blazor 服务器应用程序然后我添加了一个具有读写操作的 API 控制器现在我想从索引页调用一个操作但它不起作用应用程序运行没有错误但没有返回预期的结果状态等待激活方法空结果尚未计算我在控制器操
OpenNLP：类文件版本 55.0 错误，应为 52.0

我在 IntelliJ IDEA 版本 17 0 6 中使用 Open NLP 版本 apache opennlp 2 2 0 库但收到以下消息 java cannot access opennlp tools namefind Name
Castle ActiveRecord：映射到 C# 中的类中的 IUserType

对于我当前的项目我在 C 中使用 Castle 的 ActiveRecord 对于我的一个表我确实需要使用自定义类型类处理愚蠢的时间到时间跨度转换为了保持我的代码干净我喜欢定义派生自的类IUserType在对象映射类内但我找不到
如果 Moshi 中的值不匹配，如何回退到枚举

我有一个枚举类如果值与其中任何一个都不匹配则希望它回退到特定的枚举值我发现了一个关于使用 EnumJsonAdapter 的 Moshi 问题但我没有看到任何可供我使用的公共类我使用的是莫西 1 8 0 关于如何实现此目标的任何想
为什么我的 rdd 中的 println 会打印元素字符串？

当我尝试打印 RDD 的内容时它会打印如下所示的内容如何打印内容谢谢 scala gt lines res15 org apache spark rdd RDD Array String MapPartitionsRDD 3 at f
OpenCL 双精度与 CPU 双精度不同

我正在 Linux 中使用 GeForce GT 610 卡进行 OpenCL 编程我的CPU和GPU双精度结果不一致我可以在这里发布部分代码但我首先想知道是否有其他人遇到过这个问题当我运行多次迭代的循环时 GPU 和 CPU 双精

OpenCL 双精度与 CPU 双精度不同

OpenCL 双精度与 CPU 双精度不同 的相关文章

随机推荐

热门标签

OpenCL 双精度与 CPU 双精度不同的相关文章