浅析CV下的无人驾驶技术

2023-11-14

报告题目浅析CV下的无人驾驶技术

1.概述：
2006年，Geoffrey Hinton老爷子针对传统的神经网络算法训练速度慢，面对多层Hidden Layer严重出现过拟合的现状，提出了无监督预训练对权值进行初始化+有监督训练微调的解决方案。从此，基于神经网络的Deep Learning开始活跃在世界科研前沿[1]。
而目前Deep Learning在工业上应用最广的前沿领域分别是：
1.CV：计算机视觉领域
2.NLP：自然语言处理领域
3.ASR：语音识别领域
4.Autopilot：自动驾驶其实也是CV的衍生领域
5.推荐：传统的推荐都是用GBDT+LR模型来做的，目前深度学习在推荐领域也得到了广泛的应用。
在深度学习算法的不断更新和计算机硬件的不断升级下，我们以前电影中所谓的无人驾驶汽车在计算机视觉技术下已经开始出现了眉目[2][3]。

2.无人驾驶技术相关技术介绍：
1.传感器
在无人驾驶中，车辆在行驶时需要实时地去感知周围的环境，包括行驶在哪里、周围有什么障碍物、当前交通信号怎样等等。就像我们人类通过眼睛去观察世界，无人车也需要这样一种 “眼睛”，这就是传感器。传感器有很多种，例如激光雷达、摄像头、超声波等等。
由于不同的传感器的数据格式有很大差别，所以也会有专门针对某种传感器数据设计的算法。例如有专门针对激光点云设计的障碍物检测模型VoxelNet[4]。
VoxelNet：将3D点云数据看做一个个的Voxel（立体块）进行处理。VoxelNet的网络结构分为三部分，分别为（1）特征学习网络（2）中部卷积层（3）RPN层，如下图所示。

图1.VoxelNet的网络结构模型
2.目标检测
由于摄像头数据包含丰富的颜色信息，所以对于精细的障碍物类别识别、信号灯检测、车道线检测、交通标志检测等问题就需要依赖计算机视觉技术。无人驾驶中的目标检测与学术界中标准的目标检测问题有一个很大的区别，就是距离。无人车在行驶时只知道前面有一个障碍物是没有意义的，还需要知道这个障碍物的距离，或者说需要知道这个障碍物的 3D 坐标，这样在做决策规划时，才可以知道要用怎样的行驶路线来避开这些障碍物。这个问题对于激光的障碍物检测来说很容易，因为激光本身就包含距离信息，但是想只凭借图片信息去计算距离难度比较高。
自2014年以后，目标检测的发展脉络如下图所示：

图2.目标检测的发展脉络
Focal loss[5]的公式：

其中：

其中γ为常数，且当其为0时，FL和普通的交叉熵损失函数一致。 γ不同取值，FL曲线如下：

图3 Focal loss不同γ曲线图

3.分割
分割技术在无人驾驶中比较主要的应用是可行驶区域识别。可行驶区域可以定义成机动车行驶区域，或者当前车道区域等。由于这种区域通常是不规则多边形，所以分割是一种较好的解决办法。
在无人驾驶中应用比较多的是语义分割。例如路面分割、人行横道分割等等。语义分割比较早期和经典的模型是 FCN[6]。FCN 有几个比较经典的改进，首先是用全卷积层替换了全连接层，其次是卷积之后的小分辨率 Feature Map 经过上层采样，再得到原分辨率大小的结果，最后 FCN 使用了跨层连接的方式。跨层连接可以将高层的语义特征和底层的位置特征较好地结合在一起，使得分割的结果更为准确。FCN 结构图如下所示：

图4.FCN 结构图
目前很多主流的分割模型准确率都比较高，但是帧率会比较低。而无人驾驶的应用场景中模型必须实时，尤其是高速场景下，对模型的速度要求更高。目前美团使用的是改进版的 ICNet[7]，既保证了模型的运行速度，又保证了模型的准确率。

图5.ICNet模型结构
4.距离估计
对于距离信息的计算有多种计算方式：
激光测距，原理是根据激光反射回的时间计算距离。这种方式计算出的距离是最准的，但是计算的输出频率依赖于激光本身的频率，一般激光是 10Hz。
单目深度估计，原理是输入是单目相机的图片，然后用深度估计的 CNN 模型进行预测，输出每个像素点的深度。这种方式优点是频率可以较高，缺点是估出的深度误差比较大。
结构光测距，原理是相机发出一种独特结构的结构光，根据返回的光的偏振等特点，计算每个像素点的距离。这种方式主要缺点是结构光受自然光影响较大，所以在室外难以使用。
双目测距，原理是根据两个镜头看到的微小差别，根据两个镜头之间的距离，计算物体的距离。这种方式缺点是计算远处物体的距离误差较大。
3.业界相关进展及应用
目前业界开源的解决方案中比较成熟的是百度的 Apollo[8]，包含了改进的 ROS 底层系统，以及无人驾驶中各个模块的实现。
除了 Apollo 之外，业界开源解决方案还有 Autoware[9]以及美团自研算法。
美团的自研算法参考了 Autoware 的这种解决思路，并做了很多改进。同样先将激光点转换到图片当中，这样我们就知道每个激光点打到了哪里。在得到每个 2D 框中的激光点之后，我们需要做一步聚类操作，这样可以过滤掉打到背景上的点，于是我们就得到了打到这个物体上的激光点。然后在三维空间中，我们可以拟合这些激光点，得到一个三维框，包含了物体准确的位置信息。
这种方法计算出的三维框相对比较准确，但缺点是对于远处较小的物体，由于打到的激光点太少了，难以拟合出合适的结果。具体效果如下图：

4.无人驾驶技术的未来前景和挑战
汽车的出现本身对人类社会来说有着非凡的意义，而无人驾驶车在普通汽车上融合了自动化技术、智能化技术以及互联网化技术等多种新型技术，对汽车产业来说更是一个重大的飞跃。无人驾驶技术的实现，可以解决很多交通问题，减少交通事故，为人们的生活带来便捷，是人类社会的一个重要发展方向。
同时，无人驾驶技术也有着很多技术和社会性方面的难题与挑战。包括汽车硬件的升级换代，深度学习算法的改进，社会交通规则的变更，目前特斯拉，华为，小米，苹果，美团等世界企业都将目光投入到了无人驾驶技术中。我们相信，未来的数年内，无人驾驶技术必将真正登上历史的舞台，并推动整个人类社会迈入新的科技纪元。
5.参考文献：
[1]http://gitbook.cn/gitchat/activity/5b91078c41c7575ca0d6441a
[2]张月月. 浅析无人驾驶中的计算机视觉[J]. 卫星电视与宽带多媒体,2019,(20):43-44.
[3]范志远,崔田田,王青松. 计算机视觉在无人驾驶领域的应用[J]. 数码世界,2020,(05):2.
[4]Harish S Gujjar. A Comparative Study of VoxelNet and PointNet for 3D Object Detection in Car by Using KITTI Benchmark[J]. International Journal of Information Communication Technologies and Human Development (IJICTHD),2018,10(3).
[5]Lin Tsung-Yi,Goyal Priya,Girshick Ross,He Kaiming,Dollar Piotr. Focal Loss for Dense Object Detection.[J]. IEEE transactions on pattern analysis and machine intelligence,2020,42(2).
[6]Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
[7]Zhao, Hengshuang, et al. “Icnet for real-time semantic segmentation on high-resolution images.” arXiv preprint arXiv:1704.08545 (2017).
[8]https://github.com/ApolloAuto/apollo
[9]https://github.com/CPFL/Autoware

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算机视觉

人工智能

浅析CV下的无人驾驶技术的相关文章

文档扫描与矫正-仿射变换

图像变换是计算机视觉和图像处理中的关键技术之一它允许我们对图像进行各种形式的变形调整和校正其中仿射变换是一种常见的变换方式在文档扫描过程中由于拍摄角度和畸变等原因文档图像可能存在一定程度的形变仿射变换可以用于校正文档图像使
2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩

随机推荐

L1-020 帅到没朋友(java)

1 题目详情当芸芸众生忙着在朋友圈中发照片的时候总有一些人因为太帅而没有朋友本题就要求你找出那些帅到没有朋友的人输入格式输入第一行给出一个正整数N 100 是已知朋友圈的个数随后N行每行首先给出一个正整数K 1000 为朋友圈
gcc make makefile 的基本介绍

一 gcc 1 在window操作系统下编译工具用集成开发环境在Linux操作系统下没有很好的集成环境用的编译器是gcc 2 程序的编译分为四个阶段由 c到可执行程序 1 预编译 2 编译 3 汇编 4 链接 3 编译程序 1 一步
PTAMM阅读笔记之SLAM概述(五)

1 同时定位与地图创建允许机器人在未知环境中依靠自身所带的传感器递增式地创建环境地图并同时给出机器人所在位置 2 移动机器人的定位有两种类型全局定位绝对定位 Global Absolute Localization 和位置跟踪 Po
Mybatis3快速上手（详细）

因为编辑器不互通所以可以直接打开有道云看有道云链接 Mybatis的初入创建Maven项目工程因为Mybatis属于数据访问层的操作我们需要引入相关依赖 mysql mysql connector java 8 0 29 org
HashMap实现原理及扩容机制详解

文章目录一 HashMap基础二红黑树基础三 HashMap实现原理 1 Node和Node链 2 拉链法 3 关于Node数组 table 4 散列算法 5 HashMap和红黑树 6 关于TreeNode 转自这篇更详细 ht
UNext：基于 MLP 的快速医学图像分割网络

UNext 会议分析摘要贡献方法整体框架 1 Shifted MLP 2 Tokenized MLP Stage 实验 1 对比实验 2 消融实验 2 1 模块的消融实验 2 2 通道数的探索可借鉴参考会议分析期刊会议名
前端常见难点面试题

1 跨域同源策略同源策略同源策略是浏览器的一个安全功能不同源的客户端脚本在没有明确授权的情况下不能读写对方资源同源就是协议域名和端口号相同降域 document domain 同源策略认为域和子域属于不同的域如 chil
《代码走查》杂记

代码走查一定义 1 代码走查 code walkthrough 是一个开发人员与架构师集中与讨论代码的过程代码走查的目的交换有关代码是如何书写的思路并建立一个对代码的标准集体阐述在代码走查的过程中开发人员都应该有机会向其他人来阐
OpenGL: 视图矩阵的推导

OpenGL 视图矩阵的推导 2014年03月04日 11 08 45 阅读数 6525 把物体从世界坐标系转化到视点坐标系的矩阵称为视图矩阵下面我们先看下opengl视图矩阵的推导过程假设视点或camera的局部坐标系为UVN UVN
webpack中的代码分离

Tip 本指南继续沿用起步中的示例代码请确保你已熟悉这些指南中提供的示例以及输出管理章节代码分离是 webpack 中最引人注目的特性之一此特性能够把代码分离到不同的 bundle 中然后可以按需加载或并行加载这些文件代码分离
Python 九九乘法表的7种实现方式

Python 九九乘法表的7种实现方式九九乘法表是初学者学习编程的必要练手题目之一因此各种语言都有对应的实现方式而 Python 也不例外在 Python 中我们可以使用多种方式来生成一个简单的九九乘法表实现方式一双重循环 f
远程debug java_远程Debug Java进程的方法

远程debug的意思是启动一个Java进程启动一个debugger进程将两者连接起来利用debugger来debug Java进程事实上目前所有的IDE的debug功能都是通过远程debug方式来实现的它们都利用了一个叫做JDPA
【行人重识别】Unsupervised Salience Learning for Person Re-identification

Abstract 人眼可以基于一些较小的显着区域来识别人的身份然而当使用现有方法计算图像的相似度时通常会隐藏这种有价值的显着信息此外许多现有的方法学习区别性特征并以监督的方式处理急剧的视点变化并要求为不同的摄像机视图对标注新的
QSqlQueryModle使用过滤器来完成数据库数据筛选

原型 void QSqlTableModel setFilter const QString filter 注意如果模型已从数据库中填充数据则模型将其与新滤波器重新选择否则将在调用下一次select 中应用过滤器 model的sel
15.服务数据的定义与使用

学习视频 https www bilibili com video BV1zt411G7Vn p 15 目标服务数据的自定义客户端发布显示个人信息的请求服务端处理请求及反馈应答一自定义服务数据 1 定义srv文件 mkdir ca
Python 判断None的三种方法

1 if x is None 2 if not x 3 if not x is None 在Python 中 None False 空字符串空列表空元组其实都相当于False 如果x为空列表 y为None 如果你做x is None的
社区版pycharm官网下载安装教程

1 官网下载安装包官网地址 https www jetbrains com pycharm 选择所需版本 2 安装安装前确认已完成python软件安装建议不要安装到C盘路径不要出现中文直接install 等待安装 3 配置点击桌
PyQt中的多线程使用方法（以PySide6为例）

在Qt中开启多线程的方法有多种总体分成QThread QObject QRunnable QtConcurrent三大类方法而放到PyQt和PySide具体的使用中使用方法可以说十分类似一继承QThread类及run方法此方法
while it seems to fit format ‘yyyy-MM-dd‘T‘HH:mm:ss.SSSX‘

一报错信息如下 2023 04 11 18 52 47 534 WARN 21608 nio 9090 exec 1 w s m s DefaultHandlerExceptionResolver Resolved org springf
浅析CV下的无人驾驶技术

报告题目浅析CV下的无人驾驶技术 1 概述 2006年 Geoffrey Hinton老爷子针对传统的神经网络算法训练速度慢面对多层Hidden Layer严重出现过拟合的现状提出了无监督预训练对权值进行初始化有监督训练微调的解决方

浅析CV下的无人驾驶技术

浅析CV下的无人驾驶技术 的相关文章

随机推荐

热门标签

浅析CV下的无人驾驶技术的相关文章