交叉编译pytorch的aarch64版本

2023-05-16

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、基础环境
二、编译流程
- 1.下载源码并配置TOOLCHAIN_FILE内容
- 2.预编译出protoc库和sleef库
- 3.anaconda建立虚拟环境
- 4.编译pytorch源码
总结
- 参考链接

前言

记录一下交叉编译pytorch的历程。网上看了很多资料，按照网上提供的一些方法编译过程还是出现很多问题。自己用时大半个月完成编译，将自己的方法放出来，帮助更多的人。文章参考链接放到最后。

提示：以下是本篇文章正文内容，下面案例可供参考

一、基础环境

Ubuntu版本：20.04
Cmake版本：3.25.0
Anaconda版本：22.9.0
Python版本：3.8
交叉编译器：gcc-linaro-7.5.0-2019.12-x86_64_aarch64-linux-gnu

二、编译流程

1.下载源码并配置TOOLCHAIN_FILE内容

1.git clone --recursive https://github.com/pytorch/pytorch
2.cd pytorch/
3.git submodule sync
4.git submodule update --init --recursive
5.gedit arm_linux_setup.cmake  ##添加以下内容：
     set(CMAKE_SYSTEM_NAME Linux)
     set(CMAKE_SYSTEM_PROCESSOR aarch64)
     set(CMAKE_TRY_COMPILE_TARGET_TYPE "STATIC_LIBRARY")
     set(tools /usr/local/arm/gcc-linaro-7.5.0-2019.12-x86_64_aarch64-linux-gnu)
     set(CMAKE_C_COMPILER ${tools}/bin/aarch64-linux-gnu-gcc-7.5.0)
     set(CMAKE_CXX_COMPILER ${tools}/bin/aarch64-linux-gnu-g++)

2.预编译出protoc库和sleef库

1../scripts/build_host_protoc.sh
2.cd ./third_party/sleef
3.mkdir _host && cd _host
4.cmake .. -G"Unix Makefiles" -DCMAKE_INSTALL_PREFIX=_install -DCMAKE_BUILD_TYPE=Release -DBUILD_TESTS=OFF

3.anaconda建立虚拟环境

1.conda create -y --name pytorch-build python=3.8
2.conda activate pytorch-build
3.conda install -y astunparse numpy ninja pyyaml mkl mkl-includesetuptools cmake cffi typing_extensions future six requests dataclasses pkg-config libuv

4.编译pytorch源码

1.mkdir pytorch-build-arm64    ##pytorch-build-arm64目录与pytorch目录在同一级
2.cd pytorch-build-arm64
3.cmake -DBUILD_SHARED_LIBS:BOOL=ON -DCMAKE_TOOLCHAIN_FILE=/pytorch/arm_linux_setup.cmake -DUSE_MKLDNN=OFF -DUSE_QNNPACK=OFF -DUSE_PYTORCH_QNNPACK=OFF -DBUILD_TEST=OFF -DUSE_NNPACK=OFF -DCAFFE2_CUSTOM_PROTOC_EXECUTABLE=/pytorch/build_host_protoc/bin/protoc -DNATIVE_BUILD_DIR=/pytorch/third_party/sleef/_host/ -DCMAKE_BUILD_TYPE:STRING=Release -DPYTHON_EXECUTABLE:PATH=`which python3` -DCMAKE_INSTALL_PREFIX:PATH=../pytorch-install-arm64 ../pytorch
4.cmake --build . --target install

总结

在这里插入图片描述

参考链接

https://sanzo.top/Default/pytorch-build/
https://fatalfeel.blogspot.com/2013/12/libtorch-cross-compile-on-aarch64-linux.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

AArch64

交叉编译

交叉编译pytorch的aarch64版本的相关文章

在 Pytorch 中获取负片（倒置）图像

我想直接从数据加载器获取图像的负片并将其作为张量提供有我可以使用的库吗我试过火炬transforms并没有找到任何不要费力只需使用255 image它会给你一个负面的形象试试吧
用我自己的值初始化pytorch卷积层

我想知道是否有办法用我自己的值初始化 pytorch 卷积过滤器例如我有一个元组 0 8423 0 3778 3 1070 2 6518 我想用这些值初始化 2X2 过滤器我该怎么做我查找了一些答案但他们大多使用火炬正态分布和其他
如何检查 PyTorch 是否正在使用 GPU？

如何检查 PyTorch 是否正在使用 GPU 这nvidia smi命令可以检测 GPU 活动但我想直接从 Python 脚本内部检查它这些功能应该有助于 gt gt gt import torch gt gt gt torch cu
Pytorch 数据加载器：错误的文件描述符和 EOF > 0

问题描述在使用由自定义数据集制作的 Pytorch 数据加载器进行神经网络训练期间我遇到了奇怪的行为数据加载器设置为workers 4 pin memory False 大多数时候训练都顺利完成有时训练会随机停止并出现以下错误
Pytorch 分析器显示两个不同网络的卷积平均执行时间不同

我有两个网络我正在对它们进行分析以查看哪些操作占用了大部分时间我注意到CUDA time avg为了aten conv2d不同网络的操作有所不同这也增加了一个数量级在我的第一个网络中它是22us 而对于第二个网络则是3ms 我的第
PoseWarping：如何矢量化此 for 循环（z 缓冲区）

我正在尝试使用地面真实深度图姿势信息和相机矩阵将帧从视图 1 扭曲到视图 2 我已经能够删除大部分 for 循环并将其矢量化除了一个 for 循环扭曲时由于遮挡视图 1 中的多个像素可能会映射到视图 2 中的单个位置在这种情况下
使用 pytorch 获取可用 GPU 内存总量

我正在使用 google colab 免费 Gpu 进行实验并想知道有多少 GPU 内存可供使用 torch cuda memory allocated 返回当前占用的 GPU 内存但我们如何使用 PyTorch 确定总可用内存 PyT
在pytorch中使用tensorboard，但得到空白页面？

我在pytorch 1 3 1中使用tensorboard 并且我在张量板的 pytorch 文档 https pytorch org docs stable tensorboard html 运行后tensorboard logdir r
删除 Torch 张量中的行

我有一个火炬张量如下 a tensor 0 2215 0 5859 0 4782 0 7411 0 3078 0 3854 0 3981 0 5200 0 1363 0 4060 0 2030 0 4940 0 1640 0 6025 0
PyTorch 教程错误训练分类器

我刚刚开始 PyTorch 教程使用 PyTorch 进行深度学习 60 分钟闪电战我应该补充一点我之前没有编写过任何 python 但其他语言如 Java 现在我的代码看起来像 import torch import torchvi
为什么 RNN 需要两个偏置向量？

In Pytorch RNN 实现 http pytorch org docs master nn html highlight rnn torch nn RNN 有两个偏差 b ih and b hh 为什么是这样它与使用一种偏差有什么
从打包序列中获取每个序列的最后一项

我试图通过 GRU 放置打包和填充的序列并检索每个序列最后一项的输出当然我的意思不是 1项目但实际上是最后一个未填充的项目我们预先知道序列的长度因此应该很容易为每个序列提取length 1 item 我尝试了以下方法 impor
pytorch 中的 autograd 可以处理同一模块中层的重复使用吗？

我有一层layer in an nn Module并在一次中使用两次或多次forward步这个的输出layer稍后输入到相同的layer pytorch可以吗autograd正确计算该层权重的梯度 def forward x x self
如何使用Python计算多类分割任务的dice系数？

我想知道如何计算多类分割的骰子系数这是计算二元分割任务的骰子系数的脚本如何循环每个类并计算每个类的骰子先感谢您 import numpy def dice coeff im1 im2 empty score 1 0 im1 numpy
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
PyTorch 中的交叉熵

交叉熵公式但为什么下面给出loss 0 7437代替loss 0 since 1 log 1 0 import torch import torch nn as nn from torch autograd import Variable
在 Pytorch 中估计高斯模型的混合

我实际上想估计一个以高斯混合作为基本分布的归一化流所以我有点被火炬困住了但是您可以通过估计 torch 中高斯模型的混合来在代码中重现我的错误我的代码如下 import numpy as np import matplotlib p
如何计算cifar10数据的平均值和标准差

Pytorch 使用以下值作为 cifar10 数据的平均值和标准差变换 Normalize 0 5 0 5 0 5 0 5 0 5 0 5 我需要理解计算背后的概念因为这些数据是 3 通道图像我不明白什么是相加的什么是除什么的等等
将 Pytorch LSTM 的状态参数转换为 Keras LSTM

我试图将现有的经过训练的 PyTorch 模型移植到 Keras 中在移植过程中我陷入了LSTM层 LSTM 网络的 Keras 实现似乎具有三种状态类型的状态矩阵而 Pytorch 实现则具有四种状态矩阵例如对于hidden l
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time

随机推荐

Activity启动流程(二)

应用进程绑定到AMSAMS发送启动Activity的请求ActivityThread的Handler处理启动Activity的请求一应用进程绑定到AMS 1 时序图 2 详细过程在前面一篇我们知道当Zygote进程孵化出应用进程后会执
AudioRecord

数字音频数字音频通常分为三步 xff1a 采样量化编码采样 xff1a 就是将获取的信号给数字化 xff0c 其中有个概念就是采样频率 xff0c 而人耳能听到的频率范围只有20Hz 20kHz xff0c 所以一般设置的都是44
GCC编译C/C++程序（一步完成）

使用 GCC 编译器编译 C 或者 C 43 43 程序 xff0c 也必须要经历这 4 个过程但考虑在实际使用中 xff0c 用户可能并不关心程序的执行结果 xff0c 只想快速得到最终的可执行程序 xff0c 因此 gcc 和 g 4
GCC -E选项：对源程序做预处理操作

存储在 demo c 文件中 include lt stdio h gt int main puts 34 hello world 34 return 0 通过为 gcc 指令添加 E 选项 xff0c 即可控制 GCC 编译器仅对源代码做
GCC -S选项：编译非汇编文件

root 64 bogon demo cat demo c include lt stdio h gt int main puts 34 Hello World 34 return 0 root 64 bogon demo gcc E de
GCC -c选项：生成目标文件

root 64 bogon demo ls demo c root 64 bogon demo cat demo c include lt stdio h gt int main puts 34 Hello World 34 return
GCC -l选项：手动添加链接库

标准库的大部分函数通常放在文件 libc a 中 xff08 文件名后缀 a代表 achieve xff0c 译为获取 xff09 xff0c 或者放在用于共享的动态链接文件 libc so 中 xff08 文件名后缀 so代表 shar
GCC 编译使用动态链接库和静态链接库

1 库的分类根据链接时期的不同 xff0c 库又有静态库和动态库之分静态库是在链接阶段被链接的 xff08 好像是废话 xff0c 但事实就是这样 xff09 xff0c 所以生成的可执行文件就不受库的影响了 xff0c 即使库被删除了
python爬虫——爬取数据导入excel表

1 导入第三方库 requests库 re html xlwt span class token keyword from span bs4 span class token keyword import span BeautifulSou
Makefile call函数

引用变量的格式为变量名 xff0c 函数调用的格式如下 xff1a lt function gt lt arguments gt 或者是 lt function gt lt arguments gt 其中 xff0c function 是
Glide生命周期绑定

Glide class和RequestManagerRetriever class xff0c 主要用来获得RequestManager with返回一个RequestManager public static RequestManager
Glide缓存机制

Glide中采用计数的方式统计资源的引用 xff0c 在每个EngineResource内部都设置一个引用计数acquired xff0c 在加载资源时引用 43 43 xff0c 释放资源时引用 xff1a class EngineRes
UML类图

类图 xff08 Class Diagrams xff09 xff1a 用户根据用例图抽象成类 xff0c 描述类的内部结构和类与类之间的关系 xff0c 是一种静态结构图在UML类图中 xff0c 常见的有以下几种关系泛化 xff08
android源码github

https github com aosp mirror platform frameworks base
jar 包转 java

jd gui 内 File gt Save All Sources 直接保存到本地
DataBinding源码解析

DataBinding是Google发布的支持库 xff0c 它可以实现UI组件及数据源的双向绑定使用DataBinding可以轻松实现MVVM模式 xff0c 当数据发生变化时会体现在View界面上 xff0c 反过来界面内容变化也会同
LiveData源码分析

首先还是以一个示例开始 xff1a MutableLiveData lt String gt liveString 61 new MutableLiveData lt gt liveString observe mOwner new Obs
ViewModel源码分析

首先 xff0c 还是先看一个例子 xff1a public class MyViewModel extends ViewModel private MutableLiveData lt List lt User gt gt users p
RxJava2源码分析——Map操作符

本文章用的RxJava和RxAndroid版本如下 xff1a implementation 39 io reactivex rxjava2 rxjava 2 2 6 39 implementation 39 io reactivex rx
交叉编译pytorch的aarch64版本

提示 xff1a 文章写完后 xff0c 目录可以自动生成 xff0c 如何生成可参考右边的帮助文档文章目录前言一基础环境二编译流程1 下载源码并配置TOOLCHAIN FILE内容2 预编译出protoc库和sleef库3 ana