安装ubuntu20.04 遇到的问题,及cuda、cudnn、tensorrt安装提示

2023-05-16

网卡Realtek Semiconductor Co., Ltd. RTL8125 2.5GbE Controller 驱动异常

貌似是这款网卡和20.04的bug,网上搜索让替换驱动,但是驱动下了,跑去Ubuntu安装发现,gcc没有,make没有,,无奈,需要离线安装Ubuntu环境,这里记录一下过程

主要参考:https://blog.51cto.com/u_2221384/2547041
https://blog.csdn.net/lc_2014c/article/details/84190765

第一个教程,挂在iso的时候,报错无法point cdrom 无奈,改为挂载到/media 上了。
然后配置 source.list的时候,按照第一个教程不行,按照第二个教程的方法二,用sudo apt-cdrom -m -d=/media add 添加到source中成功,但是最后用apt按照的时候一直如图
在这里插入图片描述
搜索让一直enter就好,但是吧貌似是我没耐心,最后灵机一动,修改source 仿照教程一的格式,最后成功了。具体写法没记录下来,写在儿当提示,当然最好记得把source.list还原回去,之前记得备份。

也试过用iso里的main下,一个一个deb包的去离线装gcc,但是依赖太多,始终没法安装成功,也有这种操作,感觉能行但太麻烦还容易出错,最后还是挂载iso 改apt为本地源这个方法解决了问题。

开启vino Ubuntu自带远程桌面遇到的问题

更加推荐多人远程桌面的,见

开启vino:

按照教程一步步即可:https://www.jianshu.com/p/e670a9a26989
最后开启了自启动服务之后,不要终端reboot,要去右上角正常点击关机,最后选择重启,我最后这样菜成功开启了自启,感觉是玄学,估计是因为教程中的自启方法是基于gnome的,你终端reboot似乎无法触发,要桌面去重启,,,最后解决的办法,是去设置里找到sharing 然后把屏幕共享打开,后面反正我就不管怎么样重启也没问题了
在这里插入图片描述

更换软件源

更换清华源:
注意一定要对应好版本,否则悔恨终生啊。我就是之前装了20.04 lts 结果网上找教程更换清华源,结果复制的源是18.04的,,后面更新了一段时间后终于登录桌面之后黑屏,,最后发现是添加支持语言,语言输入法那块出了问题,最后修改源,重装输入法,解决。
在这里插入图片描述
红框框其实就是Ubuntu版本代号,我之前弄错的是bionic,结果系统是20.04,却一直更新18.04的软件源,,你品,你细品,,,

设置中文输入法

为了友好使用,一开始系统语言都用的英文,那么去区域与语言里添加输入法是看不到中文智能拼音的。曲折点设置就是先把语言改成汉语,提示重新登录,之后在去添加输入法里就有智能拼音了,最后再把语言改成英文即可。哈哈哈

配置cuda、cudnn、tensorrt遇到的坑

前期由于rtx3080ti驱动版本的最高支持cuda版本是11.4,结果后面cuda装的11.4的,cudnn也配的11.4的,然后装pytorch,发现人家支持到11.1,吓一跳,结果装了之后还是正常跑,,结果意外来了,最后装tensorrt居然只支持到11.3……不信邪装上去,,最后sudo apt-get install tensorrt报错如下图:

在这里插入图片描述
让装cuda11.3,,,我特么,,,哎,决定装11.3了,,,,

所有下回装环境,一定要看各跟环节最高支持到cuda版本,选择其中最低的才最稳,,

关于驱动和cuda版本支持问题,一般用nvidia-smi下看到的cuda版本是最高支持版本,具体该驱动支持不支持cuda版本可用看:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
我的driver version是470.57.02 别看>= 看等于就好,,我特么470的驱动去装11.3就是不行,装完cuda,然后nvidia-smi就报错了,要么不匹配,要么重启之后干脆找不到设备,看nvidia-smi下面的cuda版本,那个才不容易出事。
用runfile在安装CUDA的时候别让它自动帮你安装驱动,你要去看看系统支持的驱动有哪些,如果和这个funfile里的可以对上可以考虑装,但一般别这样,自己根据系统支持的驱动选择高一个或者低点的版本安装
查看系统支持驱动:ubuntu-drivers devices 一般会有推荐的高的和推荐的低的各一个版本,桌面版你就别装server了,,

确认好显卡驱动之后,和tensorrt支持的cuda版本,两者做取舍,**最终安装了460版本的驱动,支持最高cuda11.2.2 然后tensorrt此时也能支持该版本的cuda。**最新的470版本支持cuda11.4,当前tensorrt无法支持的该版本cuda……

安装好显卡驱动之后,下面进入正题 cuda cudnn tensorrt安装

cuda安装提示

cuda地址
用deb的安装方式 把官网步骤走完,安装11.3.1完之后 /usr/local 下面多了三个文件夹 cuda cuda-11
uda-11.3

环境变量添加,官网安装最后的Post-installation Actions有提到

sudo vim ~/.bashrc
#添加  注意11.4,这个看自己安装的版本
		export PATH=/usr/local/cuda-11.4/bin${PATH:+:${PATH}}
       # when using the runfile installation method 即用的runfile安装的cuda还得加lib。我是64位
       $ export LD_LIBRARY_PATH=/usr/local/cuda-11.4/lib64\
                         ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
       

source  ~/.bashrc

nvcc -V看成功没有
RUNFILE安装之后配置环境变量有差异,文件夹也只有cuda-11.3,后面这种方式安装tensorrt安装失败故此先放弃runfile安装,同样我觉得runfile是给离线安装用的哈哈。

关于下载已安装cuda和cudnn 多次失败,用的这些语句删除,参考

To remove CUDA Toolkit:
$ sudo apt-get --purge remove "*cublas*" "*cufft*" "*curand*" \
 "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "cuda*" "nsight*" 
To remove NVIDIA Drivers:
$ sudo apt-get --purge remove "*nvidia*"
To clean up the uninstall:
$ sudo apt-get autoremove
然后在看看/usr/local下有没有cuda文件夹,有点话删除了就好。

cudnn安装提示

见官网教程
cudnn 下载地址
tar安装方式
解压之后关键下面这三句:

sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include 
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64 
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

看完教程,其实貌似用deb安装方式更好,因为后面验证是否安装成功的教程感觉是基于deb安装方式才有的,换句话说,tar安装方式你不知道如何去验证安装成功了没,,,。

卸载提示
dpkg -l | grep cudnn
看到包名
然后sudo dpkg -r xx即可
如果是tar包安装的方式,哈哈 建议/usr/local下的cuda文件夹删除就好了,,,当然了,,cuda跟着没了

tensorrt安装提示

主要看官网教程
tensorrt 下载
安装tensorrt 先装好cuda和cudnn pycuda
按照教程 对于
sudo apt-key add /var/nv-tensorrt-repo- o s − {os}- os{tag}/7fa2af80.pub
可在 /var 下找到 /var/nv-tensorrt-repo … 其实就是说的这个,将此仓库用apt-ley添加,在进行后续安装
sudo apt-key add /var/nv-tensorrt-repo-ubuntu2004-cuda11.3-trt8.0.1.6-ga-20210626/7fa2af80.pub

最后安装完tensorrt之后 实际上只是c++的,
如果还要python的官网教程后面的安装pip Wheel File Installation,嗯也可以上面c++不装,独立装python的。
在这里插入图片描述

https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#installing-pip
至此大功告成!
当然以上是基于deb包的安装方式,第一步deb安装好了c++ 第二步安装对于python tensorrt的支持

官方教程里还有对于tar包安装方式的教程。我就没尝试了,,对于离线安装估计用这个合适
卸载tensorrt:sudo apt-get purge “libnvinfer*”

总结一下教训
一开始没有注意对应好显卡驱动、cuda版本、tensorrt最高支持cuda版本的问题,导致了后续一系列到底问题
如果只装python的倒是轻松,会自动匹配cuda版本装合适的tensorr版本及其依赖

记录一个坑,关于tensorrt版本不一致,tensorrt和对于cuda版本不一致

网上搜到的:
1、使用TensorRT生成.engine文件时报错:
TensorRT was linked against cuBLAS/cuBLAS LT 11.3.0 but loaded cuBLAS/cuBLAS LT 11.2.0
问题原因:CUDA版本不对
解决,重新安装对应版本。

我遇到的只是警告:
[W] [TRT] TensorRT was linked against cuBLAS/cuBLAS LT 11.5.1 but loaded cuBLAS/cuBLAS LT 11.4.1
估计是装的时候,cuda和tnesorrt还是对应上了的,只是不是最佳的对应所以有这么个警告

网上搜到的:
2、本机GPU为gtx 960M,目标机器GPU为P2000,程序在目标机器运行报错:
[E] [TRT] …/rtSafe/coreReadArchive.cpp (41) - Serialization Error in verifyHeader: 0 (Version tag does not match)
问题原因:猜测是显卡类型不一致导致目标机无法反序列化.engine文件
解决:在目标机器上编译生成.engine文件

我遇到的:转换文件是在rtx3080ti,tensorrt是8.0.1.6-1+cuda11.3 用在nx上跑,结果报错如下:
[TensorRT] ERROR: coreReadArchive.cpp (38) - Serialization Error in verifyHeader: 0 (Version tag does not match)
[TensorRT] ERROR: INVALID_STATE: std::exception
[TensorRT] ERROR: INVALID_CONFIG: Deserialize the cuda engine failed.

官网解决方案是升级到tensorrt版本一致最好,我打算升级到一致试一试,如果不行就尴尬了,可能还真跟设备扯上关系就只能在目标设备编译生成engine文件了。

测试结果,最后板卡和服务器的tensorrt环境一致了,结果报错:
[TensorRT] ERROR: 6: The engine plan file is generated on an incompatible device, expecting compute 7.2 got compute 8.6, please rebuild.
最后查资料:
https://111qqz.com/2020/03/tensorrt-model-compatibility-notes/
https://forums.developer.nvidia.com/t/problem-loading-trt-engine-plan-on-another-machine/68592
Engine plan 的兼容性依赖于GPU的compute capability 和 TensorRT 版本, 不依赖于CUDA和CUDNN版本.
简单来说,在使用同样TensorRT版本的前提下,在具有相同compute capability 的GPU上的模型是可以通用的.
但是cuda版本是依赖于GPU的compute capability的. 也就是比较新的GPU(对应较高的compute capability)无法使用低版本的cuda.
tensorrt 的序列化和反序列化操作只能在特定硬件上做,两个操作最好在同一硬件,至于compute capability一致的硬件行不行我也没试过,,,
哎愁啊

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

安装ubuntu20.04 遇到的问题,及cuda、cudnn、tensorrt安装提示 的相关文章

  • python利用pymysql迁移MYSQL数据库数据

    1 前言 pymysql是一个第三方的模块 xff0c 使用前需要安装 2 安装 pip install pymysql 3 基本使用 1 导入模块 from pymysql import connect 2 Connection 对象 目
  • Python与设计模式–单例模式

    Python与设计模式 单例模式 一 单例模式概述 保证一个类仅有一个实例 xff0c 并提供一个访问它的全局访问点 二 在Python中实现单例模式 方法一 重写 new 方法 span class token keyword class
  • Golang报错:invalid character ‘ï‘ looking for beginning of value

    原因一 xff1a 在使用Golang解析json文件的时候 xff0c 被这个问题困扰了足足一个小时 xff0c 竟然是因为编码方式不同导致 点击file settings Editor File Encodings 将project e
  • css自定义盒子形状及动画应用

    css自定义盒子形状及动画应用 span class token tag span class token tag span class token punctuation lt span style span span class tok
  • Ubuntu 20.04.3 部署NAS于蜗牛星际C

    Ubuntu 20 04 3 LTS 部署NAS 1 硬件配置2 Ubuntu 20 04 3 镜像下载3 更新国内镜像源 xff08 清华 中科大 阿里 网易 xff09 4 安装系列软件4 1 ssh远程登陆软件4 2 安装vim软件4
  • 最简ubuntu18.04系统分区教程

    最简ubuntu18 04系统分区教程 一 在分区之前先介绍一下ubuntu的文件系统二 分区详情 一 在分区之前先介绍一下ubuntu的文件系统 1 swap xff1a 用作虚拟内存 xff0c 这个要和自己的物理内存一样大 2G 10
  • Ubuntu20.04 错误提醒:无法修正错误

    最近安装完Ubuntu 20 04系统 xff0c 并且更改完镜像源之后 xff0c 在后续的软件安装中发现总是报如下的错误 xff1a 列软件包有未满足的依赖关系 xff1a aptitude 依赖 libapt pkg5 0 gt 61
  • 树莓派 docker 安装homeassistant

    在树莓派上安装新的docker版本 卸载旧版本的docker span class token function sudo span span class token function apt get span remove span cl
  • Centos8安装smaba无法访问文件夹

    前期的安装步骤参考上一篇文章 xff1b Ubuntu 20 04 3 部署NAS于蜗牛星际C 在Centos上安装好samba之后 xff0c 由于SELinux属于默认开启状态 xff0c 因此会出现相关文件夹没有权限无法访问的情况 x
  • MacBook M12020使用笔记

    1 安装软件 1 1 安装brew 安装brew xff08 知乎高手写的脚本 xff0c 可以选择国内镜像源 xff09 bin zsh c span class token string 34 span class token vari
  • Monty Hall Problem(三门问题)的数学证明、理解及python实现

    Monty Hall Problem xff08 三门问题 xff09 的数学证明 理解及python实现 Mounty Hall Problem 三门问题 数学建模与求解问题分析与模型建立 P A 61
  • GitLab-CE 下载安装及使用

    GitLab CE 下载安装及使用 xff08 Ubuntu为例 xff09 一 下载安装 1 安装须知 安装Gitlab需要在4Gb内存以上 xff0c 否则会很卡 xff0c 甚至出现502错误无法访问 下载gitlab下载地址gitl
  • 记一次让自家旧主板支持M2接口固态硬盘的折腾记录

    首先这篇文章是针对小白的 xff0c 大神可以绕路 xff0c 大神可以绕路 xff0c 大神可以绕路 xff0c 重要的事情说三遍 xff01 也不要问我太多高精尖的问题 xff0c 我只是借用了大神已攻克的问题 xff0c 甚至为了偷懒
  • 关于小程序wxml引用js中变量的疑问

    我是个入门小程序的新手 xff0c 最近遇到了一点疑惑 xff0c 请各路大神解答一下 xff0c 十分感谢 xxx wxml span class token operator lt span span class token opera
  • 超详细Windows10/Windows11 子系统(WSL2)安装Ubuntu20.04(带桌面环境)

    目录 前言一 在Windows上安装Linux子系统前提条件安装步骤1 开启开发者模式2 开启 适用于Linux的Windows子系统 3 安装Linux分发版3 1 升级WSL内核3 2 启用虚拟机功能3 3 将 WSL 2 设置为默认版
  • Linux安装ns2(Ubuntu/国产统信UOS系统可用)

    目录 1 安装必要编译工具2 安装tcl8 53 安装tk8 54 安装gcc54 1检查gcc版本4 2安装gcc54 3更改gcc g 43 43 优先级 5 安装ns26 配置环境变量7 测试ns2 此教程适用于ubuntu系统和国产
  • ubuntu 显示未找到wifi适配器

    装好ubuntu 后 wifi不可用 xff0c 显示未找到wifi适配器 xff0c 由于我的网卡是BCM43142 802 11b g n rev 01 比较老 按照这个网址 xff08 https blog csdn net napo
  • Mybatis-Plus-Generator源码解读

    首先 xff0c 从AutoGenerator类的execute方法进入 生成代码 public void execute logger debug 34 61 61 61 61 61 61 61 61 61 61 61 61 61 61
  • Xfce+VNC+XRDP实现远程桌面连接的方法

    本文介绍在CentOS 7 3下安装Xfce 43 VNC 43 XRDP实现远程桌面连接的方法 xff0c 使用root用户进行操作 1 配置前准备 升级更新 xff08 可选 xff09 更新资源 xff0c 避免资源过旧出现问题 yu
  • 视频超分——02 VESPCN

    Real Time Video Super Resolution with Spatio Temporal Networks and Motion Compensation 参考资料 xff1a 论文内容 xff1a https blog

随机推荐

  • 002 在树莓派zero w上安装 VNC

    前言 有时直接在树莓派上工作并不方便 也许您想通过远程控制从另一台设备进行处理 VNC 是一个图形桌面共享系统 xff0c 允许您从另一台计算机或移动设备 xff08 运行 VNC 查看器 xff09 远程控制一台计算机 xff08 运行
  • SRFBN阅读笔记

    文章出自cvpr2019 全称 xff1a Feedback Network for Image Super ResolutionFB层的两个输入 xff08 规定F out 1是F in 0 xff09 先做concatenate xff
  • 升级cmake到3.6.2

    CMake 到 3 6 2 https cmake org download CentOS 7 span class token punctuation span root 64 thrift1 span class token punct
  • dpkg强制卸载

    dpkg的一个强制卸载的方法 安mysql的时候因为玄学国家防火墙 xff0c 安到一般被阻断了 xff0c 再卸的时候各种依赖不对 xff0c dpkg r P怎么都卸不掉 xff0c 提示有依赖卸载包的东西 xff0c 找到一个 for
  • Python打包(构建)、分发、安装 简要介绍

    1 为什么要打包分发 平时我们习惯了使用pip安装一些package xff0c 但是如果想自己写一些package供别人使用 xff0c 就需要打包分发 打包 xff08 构建 xff09 xff1a 将自己的源代码打包封装成packag
  • 树莓派3b安装nginx 2018.12.31

    sudo apt get update sudo apt get upgrade sudo apt get remove apache2 据说如果系统自带apache2的话 xff0c apache2会占用80端口 xff0c 导致影响ng
  • 双系统:解决ubuntu18.04系统开机黑屏的问题(ubuntu20.04,ubuntu16.04适用)

    安装ubuntu双系统 xff1a 点击第三个U盘安装方式 xff1a 安装ubuntu xff1a 会出现黑屏现象 xff1a 重启电脑 xff08 一般是长按开机键 xff09 xff0c 在下面这个界面按e xff0c 注意不是回车是
  • WSL 下 Ubuntu 20.04 中文显示设置

    环境 系统 xff1a Windows 10 Pro 64 子系统 xff1a Ubuntu 20 04 LTS 查看本地语言包 xff0c 安装语言包 locale a 查看现有语言包 span class token function
  • linux网络测试工具

    工具 iperf 网络性能测试工具 测试组播 xff1a iperf s u B lt 组播地址 gt i lt 结果显示间隔 gt iperf s u B 231 1 2 1 i 1 iperf c lt 组播地址 gt u T lt T
  • python检查一个变量的类型

    1 只想知道某个变量的数据类型 xff1a python中判断一个变量的数据类型可以用 type 变量名 函数 xff1a gt gt gt rectangle 61 200 50 gt gt gt type rectangle lt cl
  • Windows10中wsl2安装kali子系统加GUI

    环境 win10专业工作站 操作 确定后重启 配置先决条件 In Windows Powershell 管理员 Enable WindowsOptionalFeature Online FeatureName Microsoft Windo
  • vue项目中使用ramda库

    先安装ramda库 npm i ramda 在main js中引入 import as R from 39 ramda 39 Vue prototype R 61 R
  • Get请求体中转义字符及URI编码

    参考 xff1a 转义字符及URI编码 weixin 30678349的博客 CSDN博客 获取职级类型的列表 getRankTypeList var sql 61 96 select COMMENTS from user col comm
  • 使用jar命令替换jar|war包中指定文件

    一 jar命令用法 span class token operator span c 创建新的归档文件 span class token operator span t 列出归档目录和文件 span class token operator
  • Windows编程UTF-8,UTF-16,ASCII,宽字节,窄字节等编码问题汇总

    宽字节输出乱码问题 span class token macro property span class token directive hash span span class token expression Unicode 字符集 s
  • 前端基础--NPM包管理工具

    NPM包管理工具 关键字 xff1a NPM包资源管理器 pdf 提示 xff1a 经常使用的命令 xff0c 一些生产常见问题记录 文章目录 NPM包管理工具一 常用命令 一 常用命令 span class token number 1
  • java算法1——河内之塔

    河内之塔游戏规则 xff1a 有A B C三个石棒 xff0c A上有若干个从小到大依次排列的盘子 xff0c 盘子的数量为n xff0c 现在要求 xff0c 将A棒上的盘子依次移动到C棒上 xff0c 并且移动过程中要保证小盘在大盘之上
  • ubuntu搭建内部deb源

    搭建内部deb源 1 在根目录 xff08 home xff09 下创建debs文件夹 xff0c 把deb包都放到debs目录中 2 在根目录下执行如下命令 xff1a dpkg scanpackages debs dev null gz
  • dpkg: 处理软件包 xxx (--configure)时出错 解决办法

    第一步 xff1a 备份 span class token function sudo span span class token function mv span var lib dpkg info var lib dpkg info b
  • 安装ubuntu20.04 遇到的问题,及cuda、cudnn、tensorrt安装提示

    网卡Realtek Semiconductor Co Ltd RTL8125 2 5GbE Controller 驱动异常 貌似是这款网卡和20 04的bug xff0c 网上搜索让替换驱动 xff0c 但是驱动下了 xff0c 跑去Ubu