Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
【模型压缩】网络层与算子融合
由于深度学习网络层数深 结构复杂 生成的算子数量众多 带了巨大的计算资源在和时间的消耗 业界对于加速算子的计算展开了一定研究 比较经典的方法是将多个算子重新组合成一个新的算子 同时对生成的代码进行底层的性能优化 融合成新算子后计算相对于多个
高性能计算与嵌入式AI
笔记
人工智能
深度学习
边缘计算
【CUDA编程】 动态体素化实现
动态体素化实现 动态体素化DV克服了硬体素化HV的一些缺点 动态体素化DV保留了分组grouping阶段 相反 它没有采样固定的点数或体素容量 它保留了点和体素之间的完全映射 因此 体素数和每个体素中的点数都是动态的 依赖于具体的映射函数
自动驾驶与3D视觉
高性能计算与嵌入式AI
python
深度学习
Pytorch
pytorch量化库使用(1)
量化简介 量化是指以低于浮点精度的位宽执行计算和存储张量的技术 量化模型以降低的精度而不是全精度 浮点 值对张量执行部分或全部运算 这允许更紧凑的模型表示以及在许多硬件平台上使用高性能矢量化操作 与典型的 FP32 模型相比 PyTorch
高性能计算与嵌入式AI
Pytorch
人工智能
python
pytorch量化库使用(2)
FX Graph Mode量化模式 训练后量化有多种量化类型 仅权重 动态和静态 配置通过qconfig mapping prepare fx函数的参数 完成 FXPTQ API 示例 import torch from torch ao
高性能计算与嵌入式AI
Pytorch
人工智能
python
【CUDA入门笔记】CUDA内核与线程配置
1 CUDA核函数 在GPU上调用的函数成为CUDA核函数 Kernel function 核函数会被GPU上的多个线程执行 每个线程都会执行核函数里的代码 当然由于线程编号的不同 执行的代码路径可能会有所不同 1 函数的最前面是声明标识符
高性能计算与嵌入式AI
Java
开发语言