将 Octave 转换为使用 CuBLAS

2024-01-14

我想将 Octave 转换为使用 CuBLAS 进行矩阵乘法。该视频似乎表明这就像输入 28 个字符一样简单：

使用 CUDA 库加速应用程序 http://youtu.be/P2Ew4Ljyi6Y?t=1m59s

实际上，情况比这更复杂一些。有谁知道必须做哪些额外的工作才能使该视频中所做的修改编译？

UPDATE

这是我正在尝试的方法

在 dMatrix.cc 中添加

#include <cublas.h>

在 dMatrix.cc 中更改所有出现的情况（保留大小写）

dgemm

cublas_dgemm

在我的构建终端集中

export CC=nvcc
export CFLAGS="-lcublas -lcudart"
export CPPFLAGS="-I/usr/local/cuda/include"
export LDFLAGS="-L/usr/local/cuda/lib64"

我收到的错误是：

libtool: link: g++ -I/usr/include/freetype2 -Wall -W -Wshadow -Wold-style-cast 
-Wformat -Wpointer-arith -Wwrite-strings -Wcast-align -Wcast-qual -g -O2
-o .libs/octave octave-main.o  -L/usr/local/cuda/lib64 
../libgui/.libs/liboctgui.so ../libinterp/.libs/liboctinterp.so 
../liboctave/.libs/liboctave.so -lutil -lm -lpthread -Wl,-rpath
-Wl,/usr/local/lib/octave/3.7.5

../liboctave/.libs/liboctave.so: undefined reference to `cublas_dgemm_'

EDIT2:中描述的方法这个视频 http://youtu.be/P2Ew4Ljyi6Y?t=1m59s需要使用 fortran“thunking 库”cublas 的绑定 http://docs.nvidia.com/cuda/cublas/index.html#appendix-b-cublas-fortran-bindings。这些步骤对我有用：

下载八度 3.6.3 从here ftp://ftp.gnu.org/gnu/octave/octave-3.6.3.tar.gz:
```
wget ftp://ftp.gnu.org/gnu/octave/octave-3.6.3.tar.gz
```
从存档中提取所有文件：
```
tar -xzvf octave-3.6.3.tar.gz
```
切换到刚刚创建的octave目录：
```
cd octave-3.6.3
```
为你的“thunking cublas 库”创建一个目录
```
mkdir mycublas
```
更改到该目录
```
cd mycublas
```

建立“thunking cublas 图书馆”

g++ -c -fPIC -I/usr/local/cuda/include -I/usr/local/cuda/src -DCUBLAS_GFORTRAN -o fortran_thunking.o /usr/local/cuda/src/fortran_thunking.c
ar rvs libmycublas.a fortran_thunking.o

切换回主构建目录
```
cd ..
```
运行八度音程configure带有附加选项：
```
./configure --disable-docs LDFLAGS="-L/usr/local/cuda/lib64 -lcublas -lcudart -L/home/user2/octave/octave-3.6.3/mycublas -lmycublas"
```
请注意，在上面的命令行中，您需要更改第二个目录-L切换到与您的路径相匹配的mycublas您在步骤 4 中创建的目录
现在编辑octave-3.6.3/liboctave/dMatrix.cc根据给出的说明视频 http://youtu.be/P2Ew4Ljyi6Y?t=1m59s。替换每个实例应该足够了dgemm with cublas_dgemm和每个实例DGEMM with CUBLAS_DGEMM。在我使用的 Octave 3.6.3 版本中，每个都有 3 个这样的实例（小写和大写）。
现在您可以构建八度音阶：
```
make
```
（确保您位于octave-3.6.3目录）

至此，对我来说，Octave 构建成功了。我没有追求make install尽管我认为这会起作用。我只是使用运行八度./run-octave脚本中的octave-3.6.3目录。

上述步骤假设正确且标准的 CUDA 5.0 安装。我将尝试回答特定于 CUDA 的问题或问题，但是在您的平台上安装常规 Octave 可能会出现许多问题。我不是八度专家，我无法回应这些。本次测试我使用的是CentOS 6.2。

如前所述，该方法涉及修改octave 的C 源文件。

GTC 2013 GPU 技术大会上的 S3527 会议详细介绍了另一种方法。这次会议实际上是一次实验室实践练习。不幸的是，相关材料并不方便获得。然而，那里的方法没有涉及对 GNU Octave 源代码的任何修改，而是使用LD_PRELOAD Linux 的能力 http://www.linuxjournal.com/article/7795拦截 BLAS 库调用并重定向（适当的）到 cublas 库。

一种更新、更好的方法（使用 NVBLAS 拦截库）在这篇博客文章 https://devblogs.nvidia.com/parallelforall/drop-in-acceleration-gnu-octave/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Octave 转换为使用 CuBLAS 的相关文章

如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
matlab中的分箱

我一直无法在 matlab 或 Octave 中找到函数来完成我想要的操作我有一个两列的矩阵 m x 和 y 值我知道我可以通过执行 m 1 或 m 2 来提取列我想将其分成可能大小相等的较小矩阵并绘制这些矩阵的平均值换句话说
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
作为动画的八度情节点

我有以下八度脚本 TOTAL POINTS 100 figure 1 for i 1 TOTAL POINTS randX rand 1 randY rand 1 scatter randX randY hold on endfor 当我运
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
最小化 MC 模拟期间存储的 cuRAND 状态数量

我目前正在 CUDA 中编写蒙特卡罗模拟因此我需要生成lots使用随机数cuRAND图书馆每个线程处理一个巨大的元素floatarray 示例中省略并在每次内核调用时生成 1 或 2 个随机数通常的方法参见下面的示例似乎是为每
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
如何使用 GNU Octave 中的范围设置 x 或 y 轴的控制？

x 的长度 1000 y 的长度 1000 plot x y xlabel p ylabel Q p title Custom plot set gca xtick 0 00000 0 20000 0 40000 0 60000 0 800
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
CUDA 5.0错误LNK2001：cuda方法无法解析的外部符号

我的链接器有错误 1 gt ManifestResourceCompile 1 gt All outputs are up to date 1 gt kernel cu obj error LNK2001 unresolved extern
Matlab的uicontrol在Octave中的实现？

我正在尝试在 Octave 中运行我们实验室中使用的图形程序的 m Matlab 代码 Octave 告诉我代码中使用的函数 uicontrol 没有定义经过一番搜索我发现 JHandles 包有一个 uicontrol GUI 功能的
如何调整x轴和y轴的大小

如何调整 x 轴和 y 轴的大小我想要什么更具体 3900 60 30 0 60 120 180 3600 我做了什么 a 0 0 1 10000 plot a 我应该写什么才能按预期调整 x 和 y 轴的大小 EDIT 我不想 390
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
为什么 cudaGLSetGLDevice 失败，即使它是在 main 函数的第一行中调用的

我想使用 OpenGL 和 CUDA 之间的互操作性我知道正如一些教程所说第一步是选择设备但是当我在主函数的第一行中调用 cudaGLSetGLDevice 0 时程序退出并显示信息 cudaSafeCall 运行时 API 错

随机推荐

在 Selenium 中每个元素使用多个定位器的优点/缺点？

我正在测试一个仍在开发中的网站通常元素的 id 类文本或 DOM 中的位置会发生变化然后我一直使用的定位器将不再能够找到该元素但这些功能仍然可以正常运行我不希望在没有实际回归的情况下多次测试失败因此我没有为每个元素使用单个定
CSS 页脚基于最小高度固定位置

我看过这里和各种教程但无法达到我需要的效果因此如果页面内容高度低于 600 像素我希望页脚固定在该高度的容器下方但是如果内容将容器高度增加到超过 600 像素则页脚应被容器向下推到页面上我尝试使用 min height 来使
根据一列将一张表拆分为多个表[重复]

这个问题在这里已经有答案了给定一个表 dataFrame x name day earnings revenue Oliver 1 100 44 Oliver 2 200 69 John 1 144 11 John 2 415 54 Jo
即使我使用 -ldl 链接，Cmake 也未定义对符号 'dlsym@@GLIBC_2.2.5 的引用

我收到未定义的引用dlsym GLIBC 2 2 5即使在库之前和之后链接它之后也是如此然而在链接输出中它似乎是在之前链接的但我想在所有库之前链接应该有效 bin g 9 CMakeFiles http downloader dir
我该如何解决这个问题？我无法编译我的 flutter web

我该如何解决这个问题颤动构建网络具有良好零安全性的建筑目标 dart2js 失败异常警告 dart2js 入口点脚本已弃用请使用 dart 编译 js 反而 C Users DELL AppData Local Pub Cach
TestNG - 在测试类之间共享状态

我有一个testng questions tagged testng我通过 testng xml 文件运行的测试类套件这很好用所有测试都是串行运行的因此不存在并行执行障碍我现在的目标是获取一个测试类中的测试方法生成的状态例如 cu
为什么我的视图的列可以为空？

我在 Windows 上运行 PostgreSQL 9 2 我有一个现有的表其中包含一些不可为空的列 CREATE TABLE testtable bkid serial NOT NULL bklabel character varyin
Rails heroku 无效配置选项

当我部署到heroku并运行时heroku run rake db migrate我收到错误 ArgumentError invalid configuration option aws access key id 配置初始化程序 aws
如何使用已删除的私钥停止 SSH 工作

在 Ubuntu 14 04 上我有一个私钥 ssh id rsa 我已经在我想要连接的服务器上安装了公钥实际上当我运行以下命令时我确实按预期连接 ssh email protected cdn cgi l email protec
SQL Server 表：@、# 和 ## 之间有什么区别？

在SQL Server中表表和表有什么区别 table指本地仅创建它的用户可见临时表 table指全局所有用户可见临时表 variableName指的是可以根据其类型保存值的变量
sos.dll 返回的对象大小与内存中进程大小不匹配

我使用以下 sos 命令来枚举正在运行的 asp 应用程序托管在 Windows xp 4 GB 计算机上中特定类型的所有实例 foreach obj dumpheap type my type short start of addre
Android：来自 IntentService 的 Toast 永远保留在屏幕上

我检查了这个问题 https stackoverflow com questions 12200925 toast doesnt disappear from screen 但它似乎没有回答我的问题这个问题涉及的少得多我正在从主进程中的
Android 如何在 Android 2.3 及更高版本的 MediaPlayer 中播放shoutcast AAC、AAC+、MP3？

我正在开发一个 MP3 播放器我想添加收音机功能几乎所有关于此问题的 StackOverflow 帖子都是 2010 年的这对于这个主题来说非常烦人因为我找不到解决方案我知道这是商业解决方案例如 AAC 播放器解码器等你能给
Todo 任务未出现在 Visual Studio 2012 的任务列表中

我最近升级到 Visual Studio 2012 除了以 todo 开头的注释不再显示在任务列表中之外没有任何问题我完全不知道从哪里开始寻找这个问题的解决方案因为所有关键字都太笼统了我遇到了其他类似的问题答案是包含 todo 注
WordPress 所有主题插件 js 文件都添加了这个脚本，我怎样才能删除它

function var a navigator b document e screen f window g a userAgent h a platform i b cookie j f location hostname k f lo
REST GET 忽略参数，PHP Symfony 3 Mpdf

在 Symfony 3 框架上使用 Mpdf 和 tfox symfony 包为 PDF 处理器开发 REST API 我创建了两个 GET 请求一个没有用于测试的参数另一个带有我想要读取然后转换为 PDF 的参数 HTML 文件的
从 r 中的另一个数据帧查找值

我有一个名为的大数据框df以及一些身份证件我有另一个数据框 id list 以及一组匹配的 ID 及其每个 ID 的关联特征两个数据帧中的 ID 均未按顺序排序实际上我想从更大的数据框中查找df to the id list并添加两列
获取 C# 方法体内使用的类型

有没有办法获取 C 方法中使用的所有类型例如 public int foo string str Bar bar new Bar string x test TEST t bar GetTEST 将返回条形图字符串和测试我现在能得到
在事件中使用 Context/Toast 时出现不需要的重组 - Jetpack Compose

在 Jetpack Compose 应用程序中我有两个与此处类似的可组合项 Composable fun Main println Composed Main val context LocalContext current var te
将 Octave 转换为使用 CuBLAS

我想将 Octave 转换为使用 CuBLAS 进行矩阵乘法该视频似乎表明这就像输入 28 个字符一样简单使用 CUDA 库加速应用程序 http youtu be P2Ew4Ljyi6Y t 1m59s 实际上情况比这更复杂一些有

将 Octave 转换为使用 CuBLAS

UPDATE

将 Octave 转换为使用 CuBLAS 的相关文章

随机推荐

热门标签