高性能计算与嵌入式AI

【模型压缩】网络层与算子融合

由于深度学习网络层数深结构复杂生成的算子数量众多带了巨大的计算资源在和时间的消耗业界对于加速算子的计算展开了一定研究比较经典的方法是将多个算子重新组合成一个新的算子同时对生成的代码进行底层的性能优化融合成新算子后计算相对于多个

高性能计算与嵌入式AI 笔记 人工智能 深度学习 边缘计算

动态体素化实现动态体素化DV克服了硬体素化HV的一些缺点动态体素化DV保留了分组grouping阶段相反它没有采样固定的点数或体素容量它保留了点和体素之间的完全映射因此体素数和每个体素中的点数都是动态的依赖于具体的映射函数

自动驾驶与3D视觉 高性能计算与嵌入式AI python 深度学习 Pytorch

量化简介量化是指以低于浮点精度的位宽执行计算和存储张量的技术量化模型以降低的精度而不是全精度浮点值对张量执行部分或全部运算这允许更紧凑的模型表示以及在许多硬件平台上使用高性能矢量化操作与典型的 FP32 模型相比 PyTorch

高性能计算与嵌入式AI Pytorch 人工智能 python

FX Graph Mode量化模式训练后量化有多种量化类型仅权重动态和静态配置通过qconfig mapping prepare fx函数的参数完成 FXPTQ API 示例 import torch from torch ao

高性能计算与嵌入式AI Pytorch 人工智能 python

1 CUDA核函数在GPU上调用的函数成为CUDA核函数 Kernel function 核函数会被GPU上的多个线程执行每个线程都会执行核函数里的代码当然由于线程编号的不同执行的代码路径可能会有所不同 1 函数的最前面是声明标识符

高性能计算与嵌入式AI Java 开发语言