回望计算机视觉会议ICCV的31年

2024-01-21

作者 | 原野寻踪  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/670393313

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

ADAS巨卷干货,即可获取

点击进入→ 自动驾驶之心【全栈算法】技术交流群

本文只做学术分享,如有侵权,联系删文

本文是马克思普朗克研究所智能系统所所长,同时是计算机视觉的国际知名学者,Michael Black教授的博客。读完受益匪浅,感慨颇深。翻译中文,以飨读者,难免仍然有词不达意之处,请以原文为主。一切权利归原作者。转载请注明出处。

Reflections on ICCV over 31 years

bcebda1a5bb991fe28a97a05e8608dde.png
Michael Black 教授在 ICCV90 第一次呈现自己的工作.
274b21d48f293ff6029b3734b16efe24.png
Michael Black 教授的描述: 1990年,一名充满梦想的研究生在日本

虽然2021年的会议是虚拟的,但计算机视觉国际会议(ICCV)给人的感觉就像回到了家。

我的首次ICCV之旅:1990年,大阪

1990年,我作为一个刚入门的博士生,在大阪的ICCV上进行了我的第一次口头报告,主题是“运动检测模型”。我的导师安南丹(Anandan)对我说:“这次会议对你来说非常重要。你的演讲结束后,你将会成名。”说实话,我当时非常害怕。

那时候,我的妻子和我一起去了日本,我们在会议前花了一周时间游览。整个过程中,我一直胃痛,原本以为是不适应日本食物,后来才意识到是因为压力太大。演讲结束的那一刻,我的胃痛也随之消失。最终,我确信没人会记住那次演讲,我也并没有因此成名。名望并不是由一篇论文带来的,而是多年贡献积累的声誉。

ICCV历史回顾:1990年的成果

查看今天的会议论文集,你会发现一些显著的特点。论文长度从4页到12页不等,作者数量比今天的论文少很多,当时甚至有一些单作者的论文。其中许多作者至今仍活跃在这个领域(例如Trevor Darrell、Luc van Gool、Pietro Perona、Jitendra Malik、Bill Freeman等)。遗憾的是,当时只有少数女性参与,至今在这方面的进展并不大。由于当时这个领域还很年轻,论文中的参考文献也远少于今天。

1990年的计算机视觉研究:没有互联网、GitHub和GPU

那时没有互联网、GitHub、GPU,可供参考的工作也很少。我开始我的博士研究时,面对的是一个空白的Emacs缓冲区,开始编写Lisp和C语言。当时只有少数昂贵的视频资源,这些资源被所有人共享。想象一下,在没有办法将图像和视频数据导入计算机的情况下进行计算机视觉研究!

最让我惊奇的是,我的导师竟然愿意资助我飞往日本!那时我很少旅行,但这次经历让我立刻爱上了旅行。只要我继续撰写论文,我就能免费环游世界!旅行成了我在博士期间保持生产力的主要动力。即使到现在,我仍觉得没有论文就不应该参加会议。

1990年的ICCV是第三届会议,吸引了419名参与者,这是相当大的规模。这是我参加的第一个计算机视觉会议,让我印象深刻的是每个人都非常友好和热情。我在那里遇到了年轻的安德鲁·齐瑟曼(Andrew Zisserman),并和他一起从酒店走到会议中心。他与安德鲁·布莱克(Andrew Blake)合著的《视觉重建》对我来说就像圣经。我对他的聪明才智、快速的思维和自学日语的能力感到惊讶。

ICCV的不变魅力:亲和力与开放性

ICCV给我的最深刻印象是,无论是过去还是现在,人们都非常亲和和开放。即使像安德鲁这样在1990年已经很有名气的人,也会抽出时间与我这样的新研究生交谈。在这些早期的会议中遇到的人,如安德鲁,成为了我职业生涯中的朋友和同事。我希望今天的年轻研究者能像我当年一样感到受欢迎。

今天的ICCV:年轻研究者的未来

在今天的会议上,许多年轻人会走上前来与我介绍自己,我很喜欢与他们会面——他们是这个领域的未来。我也会参加很多海报展示,因为那里可以遇到新人,了解他们的思维方式。有时在海报讨论中,当他们看到我的胸牌后才知道我的身份。我猜现在的我对他们来说像是一个令人敬畏的老前辈,他们会说:“哦,你是迈克尔·布莱克!”我试图让他们放心,告诉他们我只是另一个对他们的论文感兴趣的研究者。

当然,1990年的ICCV和2021年的会议相比有很大的不同。除了这个领域的巨大增长外,最大的变化是我们使用的工具。问题相似,但今天我们的工具是基于神经网络的。

AI革命与研究者的转变

自从AlexNet在ImageNet挑战中夺冠后,许多年龄稍长的研究者经历了五个悲伤阶段。首先是震惊和否认。这感觉就像世界被颠覆了,一切都将不再相同。然而,无法否认这一结果。

然后是愤怒和讨价还价。我当时也曾这么说:“当然,这些东西擅长分类。它们显然应该擅长分类。但我的问题全是回归问题,涉及预测连续的数字,这些东西永远不会擅长预测连续数字。”但事实上,深度网络在解决回归问题上表现非常出色。

接着是抑郁。许多年长的研究者会想:“哦天哪,我的职业生涯结束了。我过去所做的一切都没用了。我过去五年写的东西再也不会被引用了。我对这个新事物也不感兴趣。我喜欢微积分、流形、几何、线性代数。我喜欢以特定的方式思考问题,我擅长这样做。这个新事物涉及以不同的方式思考问题,对我来说并不有趣。那么我该怎么办呢?”

有些人就此止步。如果你已经到了一定的年龄,也许退休是个不错的选择。但还有很多人坚持了下来。随着你处理好自己的悲伤,最终会有一个转机,你开始接受这就是现实。然后希望就来了。对于我们这些经历了这一切的人来说,你会对这个领域充满新的希望。你拥有了一整套新的工具,对你感兴趣的问题有了新的视角,生活继续前行。

现在,时隔八九年之后,有些问题对我来说已经不再那么有趣了。但也有其他问题现在对我来说是新开放的。

我职业生涯的起点是关于光流估计的工作,也是我1990年ICCV论文的主题。我的马克斯·普朗克小组去年发表了一篇论文,探讨了对光流网络的对抗性攻击。但这可能是我在光流方面的最后一篇论文。我永远不会说这个问题已经解决了,但在有足够数据的情况下——包括合成数据以及未标记的视频数据——这个问题是可以解决到某人想要的程度的。

实际上,立体视觉、反射率和表面法线估计——我所说的任何这些低级问题,它们在图像中的每一个像素上做同样的事情,你可以用一个数字来衡量它们的准确性——这些问题对我来说已经不再那么有趣,因为有足够的数据,这些问题都能得到很好的解决。

但是,还有一类中级问题目前很有趣。我认为三维人体姿势和形状估计属于这一类。这些中级问题涉及图像中的非均匀处理,但仍使用度量精度进行评估。如果我在估计三维人体姿势和形状,我估计的是与像素不完全相关的东西。我估计的是三维世界中的东西。但结果的准确性仍然是可以量化评估的。这种度量质量意味着如果你有标记数据,训练神经网络来解决这个问题相对容易。但这个问题的有趣之处在于,获得这样的标记数据仍然很困难。三维人体姿势和形状估计的进展非常迅速,自监督方法也在不断改进,因此这个问题在五年内可能也不会那么有趣。

然而,除了这些中级问题之外,还有一个我们还不了解的美妙世界。我称之为高级问题。计算机视觉始终有一个更广泛的使命,试图“看到图像中没有的东西”。这才是计算机视觉的真正目标。是什么造成了图像?未来会发生什么?在我的案例中,我对人们的运动、行为感兴趣。他们在做什么?为什么这样做?他们的情绪状态是怎样的?他们接下来可能会做什么?这些都是在像素中直接无法观察到的事物。图像中没有任何一个像素可以测量出某人头脑中的想法。这些问题的进展将会更慢,因为我们方法的输出不会那么容易量化。我认为这将使我在未来的很多ICCV中都忙碌不已。

1990年与今天的另一个巨大差异:工业界的参与

1990年与今天的另一个重大差别是工业界的参与。如今,许多ICCV的论文都来自公司。回到1990年,我们所做的许多事情还不够好,无法被实际应用。幸运的是,今天的情况并非如此,许多2021年ICCV的想法将被转化为产品。

将计算机视觉带入真实用户手中是令人兴奋的,但我认为很多人低估了将ICCV的研究论文转化为每天被客户使用的产品所需的工作量。到产品被使用的时候,原始研究的DNA仍然在,但已经有很多人对其做出了贡献,很多想法已经加入其中——而且让它成为一个良好的客户体验的很多因素与原始技术无关——你可能会感觉,“我做出了贡献,但这只是大拼图中的一小块。”

ICCV的未来:期待巴黎的亲身会面

我很幸运能参加自我第一次参加以来的每一届ICCV,这让我有机会看到世界,结交了许多好朋友。至于ICCV的未来,我很期待2023年在巴黎的亲身会议。虚拟会议根本无法捕捉到真实会议的感觉。我期待在那里见到你们!

鸣谢:灵感来源于与拉里·哈德斯蒂(Larry Hardesty)的对话。

(全文完, 由GPT4提供翻译服务)

投稿作者为『 自动驾驶之心知识星球 』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知 、毫米波雷达视觉融合 多传感器标定 多传感器融合 多模态3D目标检测 车道线检测 轨迹预测 在线高精地图 世界模型 点云3D目标检测 目标跟踪 Occupancy、 cuda与TensorRT模型部署 大模型与自动驾驶 Nerf 语义分割 自动驾驶仿真、 传感器部署、 决策规划、轨迹预测 等多个方向学习视频( 扫码即可学习

f963b287adf2a3d26f495348745abb94.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2400人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球, 这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频 ,期待交流!

dd19fd67bfe88697f4bc9aa9f4a2800c.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦 目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流 等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

16382f6f88eca77a532299663dffd343.jpeg

④【自动驾驶之心】平台矩阵, 欢迎联系我们!

02bbe9cf6393a1a0c0ac8ab1742c99bf.jpeg

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

回望计算机视觉会议ICCV的31年 的相关文章

随机推荐

  • 题解 | #网易云音乐推荐(网易校招笔试真题)#

    题解 人民币转换 import syss input split mp 1 壹 2 贰 3 叁 4 肆 5 伍 6 陆 蔚来 AI数据库开发实习一面1 11 1 自我介绍2 科大讯飞比赛做了什么 是用到了讯飞平台的某些功能吗3 API开放平
  • 微信公众号AI爆文项目入门

    今日 尝试了进行AI爆文的项目 其核心逻辑是不依赖于传统的打造个人IP 而是使用ChatGPT 文心一言等大语言模型进行创作 并发表到微信公众号平台 实现低粉爆文的效果 通过系统流量池的推荐来实现收益 一篇10W 的文章的收益在800到几千
  • DockerCompose - 微服务项目部署全过程(最佳实践)

    目录 一 微服务项目部署 1 1 项目介绍 1 2 准备 MySQL 初始化文件 1 3 pom xml 插件 1 4 测试工作 1 5 编写 Dockerflie 文件 1 6 编写 DockerCompose yml 文件 1 7 修改
  • 网上订货管理系统功能列表|企业手机订单管理软件

    网上 订货 管理 系统功能列表 企业手机订单管理软件 后台功能列表 后台支持手机版本 订货APP 管理订单的APP 后台登陆 输入账号密码登录企业订货管理软件系统 后台首页 显示近日 月 年订单统计 和收款欠款等统计 订单模块 新建订单 通
  • 【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
  • MathType中文网站2024最新版本下载及嵌入word教程

    MathType 是一款专业的数学公式编辑器 兼容Office word excel等700多种程序 用于编辑数学试卷 书籍 报刊 论文 幻灯演示等文档轻松输入各种复杂的数学公式和符号 MathType是一款功能强大的数学公式编辑器 广泛用
  • FL Studio21.2.2官方中文版重磅发布

    FL Studio 21 2 2官方中文版重磅发布纯正简体中文支持 更快捷的音频剪辑及素材管理器 多样主题随心换 Mac版新增对苹果M2 1家族芯片原生支持 DAW界萌神 极富二次元造型的水果娘FL chan通过FL插件Fruity Dan
  • mathtype2024版本下载与安装(mac版本也包含在内)

    安装包补丁主要是mathtype的安装包 与它的补丁 详细安装过程 step1 使用方法是下载完成后先安装MathType win zh exe文件 跟着步骤走直接安装就行 step2 关闭之后 以管理员身份运行MathType7PJ ex
  • 题解 | #返回购买 prod_id 为 BR01 的产品

    银行求职者的秋招总结 太原就业交流 滴滴实习6个月的感受 模拟面试 半年实习 项目经验不突出 如何让面试官 眼前一亮 双非硕士暑期实习 算法还是开发 百度提前批一二三面 进决赛圈了求指点 华为海思东莞asic开奖 公司有三个计划 每个计划薪
  • camtasia studio2024免费版如何下载?怎么录屏?

    camtasia studio怎么录屏 Camtasia Studio是一款专门录制屏幕动作的工具 它能在任何颜色模式下轻松地记录屏幕动作 包括影像 音效 鼠标移动轨迹 解说声音等等 一般情况下 用户使用camtasia studio进行录
  • 液晶偏振光栅

    1 偏振 光是横波 在垂直于光的传播方向的平面内光波振动 即E矢量振动 各方向振幅都相等的光为自然光 只在某一方向有光振动的光称为线偏振光 各方向光振动都有 但振幅不同的光叫部分偏振光 螺旋着振动的光称圆偏振光 分旋和右旋 2 庞加莱球表示
  • 基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
  • Redis基础系列-哨兵模式

    Redis基础系列 哨兵模式 文章目录 Redis基础系列 哨兵模式 1 引言 2 什么是哨兵模式 3 哨兵模式的配置 4 哨兵模式的启动和验证 4 1 主master宕机 看会出现什么问题
  • 获取员工其当前的薪水比其manager当前薪水还高的相关信息

    后悔早签三方了 双非渣渣不该信金九银十 凯子今年确实也卷起来了 想进华为 就别去华为实习 鼠鼠拿了几个offer 请大家帮忙看下 有点困惑百度 base北京 n 4 16 薪资可 华为开奖 一个月过去了 25终于找到JAVA实习 算法方向推
  • 【go语言】结构体数据填充生成md错误码文件

    这里使用pongo2这个模版引擎库进行md文件渲染 GitHub flosch pongo2 Django syntax like template engine for Go package main import fmt github
  • 【go语言】读取toml文件

    一 简介 TOML 全称为Tom s Obvious Minimal Language 是一种易读的配置文件格式 旨在成为一个极简的数据序列化语言 TOML的设计原则之一是保持简洁性 易读性 同时提供足够的灵活性以满足各种应用场景 TOML
  • 都在做端到端了,传统规控/轨迹预测还能坚持几年?

    最近有些做传统规控和轨迹预测的小伙伴问我 现在LLM做端到端自动驾驶这么火 自己要不要考虑转行 坚持传统规控 轨迹预测还能做几年 会不会三五年后失业了 而且最近小米汽车发布会 也说已经搭载了端到端感知决策大模型 全球首次用于量产车 这个问题
  • 深圳三维扫描分析/偏差检测模具型腔三维尺寸及形位偏差测量公司

    CASAIM中科广电三维扫描模具型腔深圳案例 模具型腔的三维扫描分析 偏差检测是一项重要的质量控制过程 旨在确保模具制造过程中的精确度和一致性 CASAIM中科广电通过使用高精度的三维扫描设备 可以获取模具型腔的实际形状和尺寸数据 并将其与
  • ICLR2024 | ReSimAD:如何在没有真实数据的情况下,提升感知模型的泛化性能

    点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 今天自动驾驶之心为大家分享 ICLR 2024刚刚中稿的ReSimAD ReSimAD可以极大地提升感知模型对于目标域场景的泛化能力 甚至比一些无监督领域适配的方法还要
  • 回望计算机视觉会议ICCV的31年

    作者 原野寻踪 编辑 汽车人 原文链接 https zhuanlan zhihu com p 670393313 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 全栈算法 技术交流群 本文只做