回望计算机视觉会议ICCV的31年

2024-01-21

作者 | 原野寻踪编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/670393313

点击下方卡片，关注“ 自动驾驶之心 ”公众号

ADAS巨卷干货，即可获取

点击进入→ 自动驾驶之心【全栈算法】技术交流群

本文只做学术分享，如有侵权，联系删文

本文是马克思普朗克研究所智能系统所所长，同时是计算机视觉的国际知名学者，Michael Black教授的博客。读完受益匪浅，感慨颇深。翻译中文，以飨读者，难免仍然有词不达意之处，请以原文为主。一切权利归原作者。转载请注明出处。

Reflections on ICCV over 31 years

Michael Black 教授在 ICCV90 第一次呈现自己的工作.

Michael Black 教授的描述: 1990年，一名充满梦想的研究生在日本

虽然2021年的会议是虚拟的，但计算机视觉国际会议（ICCV）给人的感觉就像回到了家。

我的首次ICCV之旅：1990年，大阪

1990年，我作为一个刚入门的博士生，在大阪的ICCV上进行了我的第一次口头报告，主题是“运动检测模型”。我的导师安南丹（Anandan）对我说：“这次会议对你来说非常重要。你的演讲结束后，你将会成名。”说实话，我当时非常害怕。

那时候，我的妻子和我一起去了日本，我们在会议前花了一周时间游览。整个过程中，我一直胃痛，原本以为是不适应日本食物，后来才意识到是因为压力太大。演讲结束的那一刻，我的胃痛也随之消失。最终，我确信没人会记住那次演讲，我也并没有因此成名。名望并不是由一篇论文带来的，而是多年贡献积累的声誉。

ICCV历史回顾：1990年的成果

查看今天的会议论文集，你会发现一些显著的特点。论文长度从4页到12页不等，作者数量比今天的论文少很多，当时甚至有一些单作者的论文。其中许多作者至今仍活跃在这个领域（例如Trevor Darrell、Luc van Gool、Pietro Perona、Jitendra Malik、Bill Freeman等）。遗憾的是，当时只有少数女性参与，至今在这方面的进展并不大。由于当时这个领域还很年轻，论文中的参考文献也远少于今天。

1990年的计算机视觉研究：没有互联网、GitHub和GPU

那时没有互联网、GitHub、GPU，可供参考的工作也很少。我开始我的博士研究时，面对的是一个空白的Emacs缓冲区，开始编写Lisp和C语言。当时只有少数昂贵的视频资源，这些资源被所有人共享。想象一下，在没有办法将图像和视频数据导入计算机的情况下进行计算机视觉研究！

最让我惊奇的是，我的导师竟然愿意资助我飞往日本！那时我很少旅行，但这次经历让我立刻爱上了旅行。只要我继续撰写论文，我就能免费环游世界！旅行成了我在博士期间保持生产力的主要动力。即使到现在，我仍觉得没有论文就不应该参加会议。

1990年的ICCV是第三届会议，吸引了419名参与者，这是相当大的规模。这是我参加的第一个计算机视觉会议，让我印象深刻的是每个人都非常友好和热情。我在那里遇到了年轻的安德鲁·齐瑟曼（Andrew Zisserman），并和他一起从酒店走到会议中心。他与安德鲁·布莱克（Andrew Blake）合著的《视觉重建》对我来说就像圣经。我对他的聪明才智、快速的思维和自学日语的能力感到惊讶。

ICCV的不变魅力：亲和力与开放性

ICCV给我的最深刻印象是，无论是过去还是现在，人们都非常亲和和开放。即使像安德鲁这样在1990年已经很有名气的人，也会抽出时间与我这样的新研究生交谈。在这些早期的会议中遇到的人，如安德鲁，成为了我职业生涯中的朋友和同事。我希望今天的年轻研究者能像我当年一样感到受欢迎。

今天的ICCV：年轻研究者的未来

在今天的会议上，许多年轻人会走上前来与我介绍自己，我很喜欢与他们会面——他们是这个领域的未来。我也会参加很多海报展示，因为那里可以遇到新人，了解他们的思维方式。有时在海报讨论中，当他们看到我的胸牌后才知道我的身份。我猜现在的我对他们来说像是一个令人敬畏的老前辈，他们会说：“哦，你是迈克尔·布莱克！”我试图让他们放心，告诉他们我只是另一个对他们的论文感兴趣的研究者。

当然，1990年的ICCV和2021年的会议相比有很大的不同。除了这个领域的巨大增长外，最大的变化是我们使用的工具。问题相似，但今天我们的工具是基于神经网络的。

AI革命与研究者的转变

自从AlexNet在ImageNet挑战中夺冠后，许多年龄稍长的研究者经历了五个悲伤阶段。首先是震惊和否认。这感觉就像世界被颠覆了，一切都将不再相同。然而，无法否认这一结果。

然后是愤怒和讨价还价。我当时也曾这么说：“当然，这些东西擅长分类。它们显然应该擅长分类。但我的问题全是回归问题，涉及预测连续的数字，这些东西永远不会擅长预测连续数字。”但事实上，深度网络在解决回归问题上表现非常出色。

接着是抑郁。许多年长的研究者会想：“哦天哪，我的职业生涯结束了。我过去所做的一切都没用了。我过去五年写的东西再也不会被引用了。我对这个新事物也不感兴趣。我喜欢微积分、流形、几何、线性代数。我喜欢以特定的方式思考问题，我擅长这样做。这个新事物涉及以不同的方式思考问题，对我来说并不有趣。那么我该怎么办呢？”

有些人就此止步。如果你已经到了一定的年龄，也许退休是个不错的选择。但还有很多人坚持了下来。随着你处理好自己的悲伤，最终会有一个转机，你开始接受这就是现实。然后希望就来了。对于我们这些经历了这一切的人来说，你会对这个领域充满新的希望。你拥有了一整套新的工具，对你感兴趣的问题有了新的视角，生活继续前行。

现在，时隔八九年之后，有些问题对我来说已经不再那么有趣了。但也有其他问题现在对我来说是新开放的。

我职业生涯的起点是关于光流估计的工作，也是我1990年ICCV论文的主题。我的马克斯·普朗克小组去年发表了一篇论文，探讨了对光流网络的对抗性攻击。但这可能是我在光流方面的最后一篇论文。我永远不会说这个问题已经解决了，但在有足够数据的情况下——包括合成数据以及未标记的视频数据——这个问题是可以解决到某人想要的程度的。

实际上，立体视觉、反射率和表面法线估计——我所说的任何这些低级问题，它们在图像中的每一个像素上做同样的事情，你可以用一个数字来衡量它们的准确性——这些问题对我来说已经不再那么有趣，因为有足够的数据，这些问题都能得到很好的解决。

但是，还有一类中级问题目前很有趣。我认为三维人体姿势和形状估计属于这一类。这些中级问题涉及图像中的非均匀处理，但仍使用度量精度进行评估。如果我在估计三维人体姿势和形状，我估计的是与像素不完全相关的东西。我估计的是三维世界中的东西。但结果的准确性仍然是可以量化评估的。这种度量质量意味着如果你有标记数据，训练神经网络来解决这个问题相对容易。但这个问题的有趣之处在于，获得这样的标记数据仍然很困难。三维人体姿势和形状估计的进展非常迅速，自监督方法也在不断改进，因此这个问题在五年内可能也不会那么有趣。

然而，除了这些中级问题之外，还有一个我们还不了解的美妙世界。我称之为高级问题。计算机视觉始终有一个更广泛的使命，试图“看到图像中没有的东西”。这才是计算机视觉的真正目标。是什么造成了图像？未来会发生什么？在我的案例中，我对人们的运动、行为感兴趣。他们在做什么？为什么这样做？他们的情绪状态是怎样的？他们接下来可能会做什么？这些都是在像素中直接无法观察到的事物。图像中没有任何一个像素可以测量出某人头脑中的想法。这些问题的进展将会更慢，因为我们方法的输出不会那么容易量化。我认为这将使我在未来的很多ICCV中都忙碌不已。

1990年与今天的另一个巨大差异：工业界的参与

1990年与今天的另一个重大差别是工业界的参与。如今，许多ICCV的论文都来自公司。回到1990年，我们所做的许多事情还不够好，无法被实际应用。幸运的是，今天的情况并非如此，许多2021年ICCV的想法将被转化为产品。

将计算机视觉带入真实用户手中是令人兴奋的，但我认为很多人低估了将ICCV的研究论文转化为每天被客户使用的产品所需的工作量。到产品被使用的时候，原始研究的DNA仍然在，但已经有很多人对其做出了贡献，很多想法已经加入其中——而且让它成为一个良好的客户体验的很多因素与原始技术无关——你可能会感觉，“我做出了贡献，但这只是大拼图中的一小块。”

ICCV的未来：期待巴黎的亲身会面

我很幸运能参加自我第一次参加以来的每一届ICCV，这让我有机会看到世界，结交了许多好朋友。至于ICCV的未来，我很期待2023年在巴黎的亲身会议。虚拟会议根本无法捕捉到真实会议的感觉。我期待在那里见到你们！

鸣谢：灵感来源于与拉里·哈德斯蒂（Larry Hardesty）的对话。

（全文完，由GPT4提供翻译服务）

投稿作者为『 自动驾驶之心知识星球 』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知 、毫米波雷达视觉融合 、 多传感器标定 、 多传感器融合 、 多模态3D目标检测 、 车道线检测 、 轨迹预测 、 在线高精地图 、 世界模型 、 点云3D目标检测 、 目标跟踪 、 Occupancy、 cuda与TensorRT模型部署 、 大模型与自动驾驶 、 Nerf 、 语义分割 、 自动驾驶仿真、 传感器部署、 决策规划、轨迹预测 等多个方向学习视频（ 扫码即可学习 ）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2400人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球， 这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频 ，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵， 欢迎联系我们！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算机视觉

人工智能