• 我已经阅读了 CUDA 编程指南 但我错过了一件事 假设我在全局内存中有 32 位 int 数组 我想通过合并访问将其复制到共享内存 全局数组的索引从 0 到 1024 假设我有 4 个块 每个块有 256 个线程 shared int s