GPU

GPU 如何将线程分组为扭曲/波前？

我的理解是 warp 是通过任务调度程序在运行时定义的一组线程 CUDA 的一个性能关键部分是 warp 内线程的分歧有没有办法很好地猜测硬件将如何构造 warp在线程块内例如我启动了一个线程块中包含 1024 个线程的内核扭曲是如

GPU GPGPU gpuwarp

OpenCL 找不到平台？

我正在尝试将 C API 用于 OpenCL 我已经安装了 NVIDIA 驱动程序并且已经测试可以运行提供的简单向量加法程序here http www thebigblob com getting started with opencl

c opencl GPU

曾几何时，> 比 < 更快……等等，什么？

我在读很棒的 OpenGL 教程 https paroj github io gltut Positioning Tut05 20Overlap 20and 20Depth 20Buffering html 这真的很棒相信我我当前的主题

c Optimization OpenGL CPU GPU

无法选择具有以下功能的设备驱动程序“”：[[gpu]]

我正在尝试在 WSL 2 上安装 Cuda 我按照以下说明进行操作this https ubuntu com blog getting started with cuda on ubuntu on wsl 2 执行完每个步骤后我尝试通过执

Ubuntu GPU windowssubsystemforlinux

OpenACC + MPI Fortran 程序入门

我有一个工作串行代码和一个通过 OpenACC 并行化的工作并行单 GPU 代码现在我尝试通过在多个 GPU 上运行采用 mpi openacc 范例来增加并行性我用 Fortran 90 编写代码并使用 Nvidia 的 HPC

Fortran GPU MPI OpenACC nvidiahpccompilers

Skia 或 Direct2D 如何使用 GPU 渲染线条或多边形？

这是一道了解2d矢量图形GPU加速渲染原理的题使用 Skia 或 Direct2D 您可以绘制例如圆角矩形贝塞尔曲线多边形还有模糊等效果 Skia Direct2D 提供基于 CPU 和 GPU 的渲染 For the CPU渲染

graphics GPU Rendering Direct2D skia

如何在 Docker 容器中启动具有 GPU 访问权限的 AWS Sagemaker 训练作业？

我有一些使用张量流训练神经网络的 python 代码我已经基于运行 python 脚本的 tensorflow tensorflow latest gpu py3 图像创建了一个 docker 图像当我启动 EC2 p2 xlarge

amazonwebservices Docker tensorflow GPU amazonsagemaker

OpenCL：SIMT执行模型的基本问题

SIMT 架构的一些概念和设计我仍然不清楚根据我所看到和阅读的内容不同的代码路径和 if 一起是一个相当糟糕的主意因为许多线程可能会同步执行那么这究竟意味着什么呢怎么样 kernel void foo int flag if fl

opencl parallelprocessing GPU GPGPU

gpuDevice() 工具包版本始终为 5.5

无论我如何重新安装CUDA驱动程序和工具包当输入gpuDevice 时它总是显示 CUDADevice with properties Name Quadro K2000M Index 1 ComputeCapability 3 0 S

MATLAB CUDA GPU

在 Cuda 中减少任意数量的元素

如何实现以下链接中给出的代码的版本 7 http www cuvilib com Reduction pdf http www cuvilib com Reduction pdf对于大小为任意数字即不是 2 的幂的输入数组版本 7 已

CUDA GPU reduce

是否可以在应用程序之间共享 Cuda 上下文？

我想在两个独立的 Linux 进程之间传递 Cuda 上下文使用我已经设置的 POSIX 消息队列 Using cuCtxPopCurrent and cuCtxPushCurrent 我可以获得上下文指针但是这个指针是在我调用该函数的

Linux CUDA GPU interprocess cudacontext

AMD 相当于 NvOptimusEnablement

对于 Intel NVIDIA 双 GPU Optimus 设置应用程序可以导出NvOptimusEnablement如中所解释的Optimus渲染策略 pdf http developer download nvidia com dev

GPU amdgpu

没有名为“_pywrap_tensorflow_internal”的模块（仍然没有工作解决方案）

我有同样的问题类似的问题 https stackoverflow com questions 44080677 no module named pywrap tensorflow internal并尝试了建议的解决方案但没有成功您可以在

python Windows GPU tensorflow

Keras / Tensorflow 的 GPU 使用率低？

我在配备 nvidia Tesla K20c GPU 的计算机上使用带有张量流后端的 keras CUDA 8 我正在训练一个相对简单的卷积神经网络在训练期间我运行终端程序nvidia smi检查 GPU 使用情况正如您在以下输出中看到

tensorflow GPU Keras

如何找到 CUDA 的 epsilon、min 和 max 常量？

我正在寻找 CUDA 设备的 epsilon 两个数字之间的最小步长 min 最小量值和 max 最大量值的值即 FLT EPSILON DBL EPSILON FLT MIN DBL MIN 和 FLT MAX DBL MAX 中定

CUDA floatingpoint double constants GPU

与 MATLAB 相比，使用 cuSolver 时 SVD 非常慢

我正在尝试使用gesvd函数来自cuSOLVER我发现它比svdMATLAB 中的函数对于这两种情况都使用double数组或gpuArray C 代码使用cuSolver include

c MATLAB CUDA GPU SVD

如何使用tensor-flow实现GPU并行？

我正在写一个使用张量流编辑距离的基于GPU的字符串匹配程序特征通过了解匹配部分我将提取详细信息然后将其存储到数据表中该数据表最终将保存为 csv 文件详细信息如下我有 2 个清单这较小的列表叫做测试字符串其中包含约9 word

python tensorflow multiprocessing GPU joblib

如何确定 seq2seq 张量流 RNN 训练模型的最大批量大小

目前我使用默认的 64 作为 seq2seq 张量流模型的批量大小最大批量大小层大小等是多少我可以使用具有 12 GB RAM 的单个 Titan X GPU 和 Haswell E xeon 128GB RAM 输入数据被转换为嵌

machinelearning tensorflow GPU recurrentneuralnetwork

使用 Keras 1.2.2 和 MXnet 后端重置 GPU 内存

我正在使用 AWS p2 x8large 并尝试使用 k 折交叉验证来评估我的模型第一次重复后我的 GPU 内存已满当我尝试再次训练时我收到了 cuda 内存问题我的问题是如何在循环内重置 GPU 内存我使用了 K clear

Keras GPU mxnet pyhook

如何自动启动、执行和停止EC2？

我想每天在 GPU 机器上测试一次我的 Python 库我决定使用AWS EC2进行测试但是gpu机器的费用很高所以我想在测试结束后停止实例因此我想每天自动执行以下操作一次启动 EC2 实例手动设置执行命令测试 gt 将日

amazonwebservices Testing amazonec2 continuousintegration GPU