GPU

是否可以使用 GPU 来加速 Python 中的哈希？

我最近读了 Jeff 的博客文章标题为速度哈希 http www codinghorror com blog 2012 04 speed hashing html 其中他提到您可以通过利用 GPU 的强大功能来非常快速地对事物进行哈希处

python Hash GPU

将数据上传到共享内存中用于卷积核

我在理解评论中提到的批量加载时遇到一些困难为了计算像素中的卷积大小为 5 的掩模必须以该特定像素为中心图像被分成图块应用卷积掩模后的这些图块是最终输出图块其大小为TILE WIDTH TILE WIDTH 对于属于输出图块边界的像

CUDA GPU gpusharedmemory

C (Windows) - GPU 使用率（负载百分比）

根据互联网上的许多来源可以使用 D3DKMTQueryStatistics 获取 GPU 使用情况负载如何在DirectX中查询GPU使用情况 https stackoverflow com questions 16376218 ho

c Windows GPU

GPU 如何将线程分组为扭曲/波前？

我的理解是 warp 是通过任务调度程序在运行时定义的一组线程 CUDA 的一个性能关键部分是 warp 内线程的分歧有没有办法很好地猜测硬件将如何构造 warp在线程块内例如我启动了一个线程块中包含 1024 个线程的内核扭曲是如

GPU GPGPU gpuwarp

OpenCL 找不到平台？

我正在尝试将 C API 用于 OpenCL 我已经安装了 NVIDIA 驱动程序并且已经测试可以运行提供的简单向量加法程序here http www thebigblob com getting started with opencl

c opencl GPU

曾几何时，> 比 < 更快……等等，什么？

我在读很棒的 OpenGL 教程 https paroj github io gltut Positioning Tut05 20Overlap 20and 20Depth 20Buffering html 这真的很棒相信我我当前的主题

c Optimization OpenGL CPU GPU

无法选择具有以下功能的设备驱动程序“”：[[gpu]]

我正在尝试在 WSL 2 上安装 Cuda 我按照以下说明进行操作this https ubuntu com blog getting started with cuda on ubuntu on wsl 2 执行完每个步骤后我尝试通过执

Ubuntu GPU windowssubsystemforlinux

OpenACC + MPI Fortran 程序入门

我有一个工作串行代码和一个通过 OpenACC 并行化的工作并行单 GPU 代码现在我尝试通过在多个 GPU 上运行采用 mpi openacc 范例来增加并行性我用 Fortran 90 编写代码并使用 Nvidia 的 HPC

Fortran GPU MPI OpenACC nvidiahpccompilers

Skia 或 Direct2D 如何使用 GPU 渲染线条或多边形？

这是一道了解2d矢量图形GPU加速渲染原理的题使用 Skia 或 Direct2D 您可以绘制例如圆角矩形贝塞尔曲线多边形还有模糊等效果 Skia Direct2D 提供基于 CPU 和 GPU 的渲染 For the CPU渲染

graphics GPU Rendering Direct2D skia

如何在 Docker 容器中启动具有 GPU 访问权限的 AWS Sagemaker 训练作业？

我有一些使用张量流训练神经网络的 python 代码我已经基于运行 python 脚本的 tensorflow tensorflow latest gpu py3 图像创建了一个 docker 图像当我启动 EC2 p2 xlarge

amazonwebservices Docker tensorflow GPU amazonsagemaker

OpenCL：SIMT执行模型的基本问题

SIMT 架构的一些概念和设计我仍然不清楚根据我所看到和阅读的内容不同的代码路径和 if 一起是一个相当糟糕的主意因为许多线程可能会同步执行那么这究竟意味着什么呢怎么样 kernel void foo int flag if fl

opencl parallelprocessing GPU GPGPU

gpuDevice() 工具包版本始终为 5.5

无论我如何重新安装CUDA驱动程序和工具包当输入gpuDevice 时它总是显示 CUDADevice with properties Name Quadro K2000M Index 1 ComputeCapability 3 0 S

MATLAB CUDA GPU

在 Cuda 中减少任意数量的元素

如何实现以下链接中给出的代码的版本 7 http www cuvilib com Reduction pdf http www cuvilib com Reduction pdf对于大小为任意数字即不是 2 的幂的输入数组版本 7 已

CUDA GPU reduce

是否可以在应用程序之间共享 Cuda 上下文？

我想在两个独立的 Linux 进程之间传递 Cuda 上下文使用我已经设置的 POSIX 消息队列 Using cuCtxPopCurrent and cuCtxPushCurrent 我可以获得上下文指针但是这个指针是在我调用该函数的

Linux CUDA GPU interprocess cudacontext

AMD 相当于 NvOptimusEnablement

对于 Intel NVIDIA 双 GPU Optimus 设置应用程序可以导出NvOptimusEnablement如中所解释的Optimus渲染策略 pdf http developer download nvidia com dev

GPU amdgpu

没有名为“_pywrap_tensorflow_internal”的模块（仍然没有工作解决方案）

我有同样的问题类似的问题 https stackoverflow com questions 44080677 no module named pywrap tensorflow internal并尝试了建议的解决方案但没有成功您可以在

python Windows GPU tensorflow

Keras / Tensorflow 的 GPU 使用率低？

我在配备 nvidia Tesla K20c GPU 的计算机上使用带有张量流后端的 keras CUDA 8 我正在训练一个相对简单的卷积神经网络在训练期间我运行终端程序nvidia smi检查 GPU 使用情况正如您在以下输出中看到

tensorflow GPU Keras

如何找到 CUDA 的 epsilon、min 和 max 常量？

我正在寻找 CUDA 设备的 epsilon 两个数字之间的最小步长 min 最小量值和 max 最大量值的值即 FLT EPSILON DBL EPSILON FLT MIN DBL MIN 和 FLT MAX DBL MAX 中定

CUDA floatingpoint double constants GPU

与 MATLAB 相比，使用 cuSolver 时 SVD 非常慢

我正在尝试使用gesvd函数来自cuSOLVER我发现它比svdMATLAB 中的函数对于这两种情况都使用double数组或gpuArray C 代码使用cuSolver include

c MATLAB CUDA GPU SVD

如何使用tensor-flow实现GPU并行？

我正在写一个使用张量流编辑距离的基于GPU的字符串匹配程序特征通过了解匹配部分我将提取详细信息然后将其存储到数据表中该数据表最终将保存为 csv 文件详细信息如下我有 2 个清单这较小的列表叫做测试字符串其中包含约9 word

python tensorflow multiprocessing GPU joblib