扩展示例以了解 CUDA、Numba、Cupy 等

2024-02-18

大多数在线提供的 Numba、CuPy 等示例都是简单的数组添加，显示了从 cpu 单核/线程到 GPU 的加速。并且命令文档大多缺乏好的示例。这篇文章旨在提供一个更全面的示例。

提供了初始代码here https://eraserpeel.wordpress.com/2015/05/08/cellular-automata-part-1-setting-up-the-pyglet-window/。它是经典元胞自动机的简单模型。最初，它甚至不使用 numpy，只是使用普通的 python 和 Pyglet 模块进行可视化。

我的目标是将此代码扩展到特定问题（这将是非常大的），但首先我认为最好已经针对 GPU 使用进行优化。

game_of_life.py 是这样的：

import random as rnd
import pyglet
#import numpy as np
#from numba import vectorize, cuda, jit

class GameOfLife: 
 
    def __init__(self, window_width, window_height, cell_size, percent_fill):
        self.grid_width = int(window_width / cell_size) # cell_size 
        self.grid_height = int(window_height / cell_size) # 
        self.cell_size = cell_size
        self.percent_fill = percent_fill
        self.cells = []
        self.generate_cells()
  
    def generate_cells(self):
        for row in range(0, self.grid_height): 
            self.cells.append([])
            for col in range(0, self.grid_width):
                if rnd.random() < self.percent_fill:
                    self.cells[row].append(1)
                else:
                    self.cells[row].append(0)
                
    def run_rules(self): 
        temp = []
        for row in range(0, self.grid_height):
            temp.append([])
            for col in range(0, self.grid_width):
                cell_sum = sum([self.get_cell_value(row - 1, col),
                                self.get_cell_value(row - 1, col - 1),
                                self.get_cell_value(row,     col - 1),
                                self.get_cell_value(row + 1, col - 1),
                                self.get_cell_value(row + 1, col),
                                self.get_cell_value(row + 1, col + 1),
                                self.get_cell_value(row,     col + 1),
                                self.get_cell_value(row - 1, col + 1)])
                
                if self.cells[row][col] == 0 and cell_sum == 3:
                    temp[row].append(1)
                elif self.cells[row][col] == 1 and (cell_sum == 3 or cell_sum == 2):
                    temp[row].append(1)
                else:                 
                    temp[row].append(0)
        
        self.cells = temp

    def get_cell_value(self, row, col): 
        if row >= 0 and row < self.grid_height and col >= 0 and col < self.grid_width:
           return self.cells[row][col]
        return 0

    def draw(self): 
        for row in range(0, self.grid_height):
            for col in range(0, self.grid_width):
                if self.cells[row][col] == 1:
                    #(0, 0) (0, 20) (20, 0) (20, 20)
                    square_coords = (row * self.cell_size,                  col * self.cell_size,
                                     row * self.cell_size,                  col * self.cell_size + self.cell_size,
                                     row * self.cell_size + self.cell_size, col * self.cell_size,
                                     row * self.cell_size + self.cell_size, col * self.cell_size + self.cell_size)
                    pyglet.graphics.draw_indexed(4, pyglet.gl.GL_TRIANGLES,
                                         [0, 1, 2, 1, 2, 3],
                                         ('v2i', square_coords))

首先，我可以使用 numpy 在末尾添加generate_cells this self.cells = np.asarray(self.cells)并在结束时run_rules this self.cells = np.asarray(temp)，因为之前这样做不会带来加速，如所示here https://stackoverflow.com/questions/22392497/how-to-add-a-new-row-to-an-empty-numpy-array（实际上更改为 numpy 并没有带来明显的加速）

例如，关于 GPU，我添加了@jit在每个功能之前，并且变得非常慢。也尝试过使用@vectorize(['float32(float32, float32)'], target='cuda')，但这提出了一个问题：如何使用@vectorize在只有self作为输入参数？

我也尝试用 numpy 代替 cupy，比如self.cells = cupy.asarray(self.cells)，但也变得很慢。

按照 GPU 使用扩展示例的初步想法，解决该问题的正确方法是什么？放置修改/矢量化/并行化/numba/cupy 等的正确位置在哪里？最重要的是，为什么？

附加信息：除了提供的代码之外，这里是 main.py 文件：

import pyglet
from game_of_life import GameOfLife 
 
class Window(pyglet.window.Window):
 
    def __init__(self):
        super().__init__(800,800)
        self.gameOfLife = GameOfLife(self.get_size()[0],
                                     self.get_size()[1],
                                     15,  # the lesser this value, more computation intensive will be
                                     0.5) 

        pyglet.clock.schedule_interval(self.update, 1.0/24.0) # 24 frames per second
 
    def on_draw(self):
        self.clear()
        self.gameOfLife.draw()
        
    def update(self, dt):
        self.gameOfLife.run_rules()
 
if __name__ == '__main__':
    window = Window()
    pyglet.app.run()

我不太明白你的例子，但我只需要GPU计算。经过几天的痛苦，我可能明白了它的用法，所以我给你展示一下，希望对你有帮助。另外，需要指出的是，在使用“...kernel(cuts, cuts”时，我会放两个。因为第一个传入时指定了类型，所以会被核心用作遍历元素无法被索引读取，所以我使用第二个来计算空闲索引数据。

```
binsort_kernel = cp.ElementwiseKernel(
'int32 I,raw T cut,raw T ind,int32 row,int32 col,int32 q','raw T out,raw T bin,raw T num',    
'''
int i_x = i / col;                
int i_y = i % col;                
int b_f = i_x*col;                
int b_l = b_f+col;                
int n_x = i_x * q;                
int inx = i_x%row*col;            
////////////////////////////////////////////////////////////////////////////////////////
int r_x = 0; int adi = 0; int adb = 0;  
////////////////////////////////////////////////////////////////////////////////////////
if (i_y == 0)
{
for(size_t j=b_f; j<b_l; j++){
    if (cut[j]<q){                
        r_x = inx + j -b_f;       
        adb = n_x + cut[j];       
        adi = bin[adb] + num[adb];
        out[adi] = ind[r_x];      
        num[adb]+= 1;             
    }}
}
////////////////////////////////////////////////////////////////////////////////////////
''','binsort')

binsort_kernel(cuts,cuts,ind,row,col,q,iout,bins,bnum)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

扩展示例以了解 CUDA、Numba、Cupy 等的相关文章

默认情况下在 Jupyter 笔记本中配置第一个单元

有没有办法为 Jupyter 笔记本中的特定 python 内核配置默认的第一个单元我同意默认的 python 导入违背了良好的编码实践那么我可以配置笔记本使新的 python 笔记本的第一个单元始终是 import numpy a
Python中使用cv2获取当前视频播放位置

我正在尝试使用 CV2 和 Python 从播放视频中获取当前播放时间位置如果可能以毫秒为单位目前我正在使用此示例代码来播放视频文件 import cv2 import numpy as np file name 2 mp4 wind
Python 按文件夹模块导入

我有一个目录结构 example py templates init py a py b py a py and b py只有一个类名称与文件相同因为它们是猎豹模板纯粹出于风格原因我希望能够在中导入和使用这些类example py像
Python 可以使用单独的媒体播放器打开 mp3 文件吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否可以开一个mp3Python 中的文件可以使用Popen 我并不是要在程序中运行它我的意思是作为媒体播放器中的一个单独窗口或其
Weasyprint 在调用 write_pdf 时获得未定义的属性：“AttributeError：‘PosixPath’对象没有属性‘read_text’”

我正在 ubuntu 18 04 上运行 weasyprint 项目并尝试创建一个 pdf 当我尝试设置页脚图像时问题就开始了我正在 python 3 6 7 上运行这是我调用 weasyprint 的代码 import sys i
肥皂服务的良好框架是什么？

我正在寻找一个用于肥皂的好框架service 我更喜欢使用Pythonic框架但是在查看了soaplib rpclib 太不稳定 SOAPy 不适用于2 7 和ZSI 太令人困惑之后我不确定这是否可能我对使用另一种语言感到满意尽
如何最好地将包含列表或元组的 Pandas 列提取到多个列中[重复]

这个问题在这里已经有答案了我不小心用错误重复的链接关闭了这个问题这是正确的 Pandas 将列表的列拆分为多列 https stackoverflow com questions 35491274 pandas split column
在 Ubuntu 上使用 Python 获取显示器分辨率

对于 Ubuntu win32api 中是否有与 GetSystemMetrics 相当的代码我需要获取显示器的宽度和高度以像素为单位我可以建议一些可以使用的方法不过我还没有使用过 xlib 版本 1 xlib Python 程序的
如何抑制 pyinstaller 生成的可执行文件窗口中的所有警告

我已经使用 pyinstaller 从 python 文件生成了可执行文件该程序按其应有的方式工作但在我想隐藏的窗口中出现了一条警告消息当 python 文件在 IDE 中运行时以下行会抑制所有警告消息 warnings filte
为图例中的点设置固定大小

我正在制作一些散点图我想将图例中的点的大小设置为固定的相等值现在我有这个 import matplotlib pyplot as plt import numpy as np def rand data return np random
如何将时间间隔划分为不同长度的部分？

我有一个从 0 到t 我想把这个区间分成一个以2 25 2 25 1 5为周期的累积序列方法如下 input start 0 stop 19 output sequence 0 2 25 4 5 6 8 25 10 5 12 14 25
多线程写入文件

前几天刚开始使用 python 对多线程的整个概念还很陌生我在多线程时写入文件时遇到问题如果我按照常规方式执行此操作它会不断覆盖正在写入的内容使用 5 个线程写入文件的正确方法是什么不降低性能的最佳方法是在所有线程之间使用队列每
Python unittest - 与assertRaises相反？

我想编写一个测试来确定在给定情况下不会引发异常测试是否有异常很简单is上调 sInvalidPath AlwaysSuppliesAnInvalidPath self assertRaises PathIsNotAValidOne MyO
import numpy 和 import numpy as np 之间的区别

我明白如果可能的话应该使用 import numpy as np 这有助于避免由于命名空间引起的任何冲突但我注意到虽然下面的命令有效 import numpy f2py as myf2py 以下不 import numpy as np
具有条件的重复行 pandas dataframe python

我的数据框有问题我的 df 是 product power brand product 1 3 x 1500W brand A product 2 2x1000W 1x100W product 3 1x1500W 1x500W brand
仅对某些行的不同大小的两个 pandas 数据帧的列进行求和

我有两个 pandas 数据框如下所示 df1 n column1 0 5 0 0 0 1 6 0 0 0 2 7 0 0 0 3 8 0 0 0 4 9 0 0 0 5 10 0 0 0 df2 n column2 0 6 0 1 0
Beautiful Soup 获取动态表数据

我有以下代码 url https www basketball reference com leagues NBA 2017 standings html all expanded standings html urlopen url so
Python 类方法的示例用例是什么？

我读了Python 中的类方法有什么用 https stackoverflow com questions 38238 what are class methods in python for但那篇文章中的例子很复杂我正在寻找 Pytho
安排 Asyncio 任务每 X 秒执行一次？

我正在尝试创建一个 python 不和谐机器人它将每隔 X 秒检查一次活跃会员并根据会员的在线时间奖励积分我正在使用 asyncio 来处理聊天命令这一切都正常我的问题是找到一种方法来安排每隔 X 秒异步检查一次活动成员我已经阅
将 pandas 数据框中的多列更改为日期时间

我有一个 13 列和 55 000 行的数据框我正在尝试将其中 5 行转换为日期时间现在它们返回类型对象我需要转换这些数据以进行机器学习我知道如果我这样做 data birth date pd to datetime data b

随机推荐

帮助解决错误“‘对象’不包含‘文本’的定义”

问题是这样的这适用于使用 C 和 LINQ to SQL 的 WPF 应用程序当用户想要查看客户列表时他她开始在文本框中输入名称 textchanged 事件使用输入文本来定义筛选列表的 LINQ 语句的 where 子句我目前有
正则表达式/计算机理论 - 按字母顺序构造正则表达式

在我的语法计算机理论课中我试图按字母顺序 a z 创建正则表达式 l a b x y z i o u e c 这就是我使用 kleene 闭合想到的 aeiou x y z i o u e 随着 kleene 关闭那是零或更多所以应
maven 使用 jar 和其他一些文件创建 zip

我不懂maven 更好地使用ant 但是我已经设法创建jar 有或没有依赖项我已经设法将bat runner脚本复制到jar附近但现在我想用这个jar和这个bat创建zip 所以我使用汇编插件并得到 BUUUM 卡达姆在我的配置中
将 IHtmlContent/TagBuilder 转换为 C# 中的字符串

我正在使用 ASP NET 5 我需要将 IHtmlContent 转换为 String IIHtmlContent是的一部分ASP NET 5 Microsoft AspNet Html Abstractions命名空间是一个接口Tag
MVC 应用程序部署； System.Data.SqlClient.SqlException：找不到存储过程“ELMAH_GetErrorsXml”

我已经部署了 MVC 应用程序但错误处理不起作用我使用 SQLite 数据库当我尝试导航到 Elmah 中的错误消息时我收到此异常 System Data SqlClient SqlException 找不到存储过程 ELMAH G
当在带有 python 的 selenium webdriver 中使用带有显式等待的 link_text 时出现 TimeOutException

我正在使用 selenium webdriver 和 python 我想根据它们指向的链接使用显式等待定位元素为了实现这一目标我正在使用 element WebDriverWait driver 20 until EC presence
开玩笑 - 如何测试组件是否不存在？

如何检查组件是否不存在即特定组件是否尚未渲染 contains https airbnb io enzyme docs api ReactWrapper contains html接收 React 节点或节点数组作为参数相反使用 fi
Xcode 8、iOS 8 模拟器崩溃：“dyld：惰性符号绑定失败：找不到符号：_objc_unsafeClaimAutoreleasedReturnValue”

更新到 Xcode 8 在 iOS 8 模拟器中运行我的应用程序但 iOS9 和 iOS10 没有问题但会崩溃 dyld 惰性符号绑定失败找不到符号 objc unsafeClaimAutoreleasedReturnValue 引用
在不同 SQL 服务器上将日期时间转换为小数时的差异

在两个不同的 SQL 服务器上我运行以下查询 declare myDatetime as datetime 2017 07 04 23 42 32 400 select CAST myDatetime AS DECIMAL 20 5 我得到
直接发送文本文件到网络打印机

我当前正在工作的代码通过编写临时文件将原始数据发送到打印机然后使用File Copy 将其发送到打印机 File Copy 支持两个本地端口例如LPT1和共享打印机例如 FRONTCOUNTER LabelPrinter 但是现在我
在 OSX/Unix 上启动不继承文件/端口的子进程

我想在 OS X 上启动一个子进程以便子进程不会继承当前进程的打开文件端口关于如何实现这一目标有什么建议吗我可以使用 system 函数调用的 Shell 命令也可以工作我只是不知道有什么好的 Shell 命令可以实现此功能 Th
需要解释“~0”与“2**64”（带和不带“使用整数”）

我编写了一些测试程序打印的值 0 and 2 64 usr bin perl use warnings use strict use integer print 0 n print 2 64 n Without use integer程序输
通过 iframe 将浏览器中的 PDF URL 发送到打印机

对于当前的非 IE 浏览器 Chrome Firefox Opera Safari 我想将 PDF 文档发送到打印机并给出该 PDF 的 URL 为了避免弹出多余的窗口我目前正在使用但我想在打印完成后关闭iframe 否则某些浏览器在尝
从共享对象调用主可执行文件中的函数

我必须从加载了 LD PRELOAD 的共享库调用主可执行文件中的函数可执行文件导出所有符号并包含调试信息不幸的是我无法访问它的源代码目前我在尝试加载该共享库时遇到未定义的符号错误有没有办法做到这一点附目标平台是FreeBSD
为什么不能通过表达式引用类型？

无论我多么努力地尝试以下代码它似乎都无法编译 P 有人可以告诉我我做错了什么吗 public class LUOverVoltage public string Name get set public enum OVType OVLH O
Google Map API 使弯曲时的线条更加平滑

我正在使用 Google Map API 在我的应用程序中获取地图上的线路我使用以下代码从数据库加载线路的节点 Add polyline walks voda List
无法自动装配字段：Spring-Hibernate

以下是我在尝试将 Hibernate 与 Spring MVC 项目集成并添加 Autowired 功能时遇到的异常例外严重将上下文初始化事件发送到侦听器时发生异常类的实例 org springframework web conte
将秒转换为 yyyy-mm-dd hh:mm:ss PostgreSQL

我是 PostgreSQL sql 的新手现在正在处理一个已经存在的数据库我在表中有一个名为 value 的列它包含以秒为单位的日期时间戳所以我正在寻找可以将 Postgres 数据库中的秒数转换为 yyyy mm dd hh mm
Android 在共享首选项中存储用户会话

我想在 Android 上创建一个用户会话这样我就不必每次都登录共享首选项中应该存储哪些内容以便我的服务器每次收到用户的请求时都可以进行身份验证我可以确保人们不会侵入我的系统用户可以在我的应用程序中通过以下方式登录 Facebo
扩展示例以了解 CUDA、Numba、Cupy 等

大多数在线提供的 Numba CuPy 等示例都是简单的数组添加显示了从 cpu 单核线程到 GPU 的加速并且命令文档大多缺乏好的示例这篇文章旨在提供一个更全面的示例提供了初始代码here https eraserpeel wo

扩展示例以了解 CUDA、Numba、Cupy 等

扩展示例以了解 CUDA、Numba、Cupy 等 的相关文章

随机推荐

热门标签

扩展示例以了解 CUDA、Numba、Cupy 等的相关文章