CVPR2019接收结果公布了,但CVPR 2018的那些论文都怎么样了?

2023-11-15

640


CVPR 作为计算机视觉三大顶级会议之一,一直以来都备受关注。被 CVPR 收录的论文更是代表了计算机视觉领域的最新发展方向和水平。今年,CVPR 2019 将于美国洛杉矶举办,上个月接收结果公布后,又引起了 CV 届的一个小高潮,一时间涌现出众多 CVPR 论文的解读文章。 


根据 CVPR 官网论文列表统计的数据,本年度共有 1300 篇论文被接收,而这个数据在过去 3 年分别为 643 篇(2016)、783 篇(2017)、979 篇(2018)。这从一个方面也说明了计算机视觉这个领域的方兴未艾,计算机视觉作为机器认知世界的基础,也作为最主要的人工智能技术之一,正在受到越来越多的关注。 


全球的学者近期都沉浸在 CVPR 2019 的海量论文中,希望能第一时间接触到最前沿的研究成果。但在这篇文章里,我们先把 CVPR 2019 的论文放下,一同回首下 CVPR 2018 的论文情况。 


根据谷歌学术上的数据,我们统计出了 CVPR 2018 收录的 979 篇论文中被引用量最多的前五名,希望能从引用量这个数据,了解到这些论文中,有哪些最为全球的学者们所关注。 


由于不同搜索引擎的引用量数据各不相同,所以我们在这里仅列出了谷歌学术的数据。谷歌的参考文献是从多个文献库,包括大量书籍中筛选的,其引用次数一般仅作为衡量一篇论文重要性的粗略指标。


根据 CVPR 2018 的论文列表(http://openaccess.thecvf.com/CVPR2018.py)在谷歌学术进行搜索,得到数据如下(以 2019 年 3 月 19 日检索到的数据为准,因第 2 名及第 3 名数据十分接近,不做明确排名) :


640?wx_fmt=png


“引用”指的是在论文中引述前人的研究成果,是作者表明其方法、观点和发现来源的标准方式。评价一篇论文的重要性,除了论文是否被顶级会议收录这一维度,论文的被引数也是不可或缺的维度。虽然引用量具体到不同学科的数据相差很多,但在计算机视觉这一单个学科内,论文的被引用量是评价某篇论文是否得到推崇的重要量化指标。


CVPR 2018 的高被引数论文都是获得学术界较大关注和推崇的论文,这主要在于他们的开创性。例如,排名第一的 Squeeze-and-Excitation Networks(简称 SE-Net)构造就非常简单,很容易被部署,不需要引入新的函数或者层,并且在模型和计算复杂度上具有良好的特性。


借助 SE-Net,论文作者在 ImageNet 数据集上将 Top-5 error 降低到 2.251%(此前的最佳成绩为 2.991%),获得了 ImageNet 2017 竞赛图像分类的冠军在过去一年里,SE-Net 不仅作为业界性能极强的深度学习网络单元被广泛使用,也为其他学者的研究提供了参考。 


SE-Net 介绍详见原作者讲解:


640?wx_fmt=png


此外,还有 Google Brain 带来的 Learning Transferable Architectures for Scalable Image Recognition,提出了用一个神经网络来学习另一个神经网络的结构,也为许多学者所关注。 


以下是 5 篇文章的摘要,以供读者们回顾:


640?


640?wx_fmt=png


640?wx_fmt=png


Convolutional neural networks are built upon the convolution operation, which extracts informative features by fusing spatial and channel-wise information together within local receptive fields. In order to boost the representational power of a network, several recent approaches have shown the benefit of enhancing spatial encoding. 


In this work, we focus on the channel relationship and propose a novel architectural unit, which we term the “Squeeze- and-Excitation” (SE) block, that adaptively recalibrates channel-wise feature responses by explicitly modeling interdependencies between channels. We demonstrate that by stacking these blocks together, we can construct SENet architectures that generalise extremely well across challenging datasets. 


Crucially, we find that SE blocks produce significant performance improvements for existing state-of-the-art deep architectures at a minimal additional computational cost. SENets formed the foundation of our ILSVRC 2017 classification submission which won first place and significantly reduced the top-5 error to 2.251%, achieving a ∼25% relative improvement over the winning entry of 2016. Code and models are available at https: //github.com/hujie-frank/SENet.


640?


640?wx_fmt=png


640?wx_fmt=png


We introduce an extremely computation-efficient CNN architecture named ShuffleNet, which is designed specially for mobile devices with very limited computing power (e.g., 10-150 MFLOPs). The new architecture utilizes two new operations, pointwise group convolution and channel shuffle, to greatly reduce computation cost while maintaining accuracy. Experiments on ImageNet classification and MS COCO object detection demonstrate the superior performance of ShuffleNet over other structures, e.g. lower top-1 error (absolute 7.8%) than recent MobileNet on ImageNet classification task, under the computation budget of 40 MFLOPs. On an ARM-based mobile device, ShuffleNet achieves ∼13× actual speedup over AlexNet while maintaining comparable accuracy.


640?


640?wx_fmt=png


640?wx_fmt=png


Developing neural network image classification models often requires significant architecture engineering. In this paper, we study a method to learn the model architectures directly on the dataset of interest. As this approach is expensive when the dataset is large, we propose to search for an architectural building block on a small dataset and then transfer the block to a larger dataset. 


The key contribution of this work is the design of a new search space (which we call the “NASNet search space”) which enables transferability. In our experiments, we search for the best convolutional layer (or “cell”) on the CIFAR-10 dataset and then apply this cell to the ImageNet dataset by stacking together more copies of this cell, each with their own parameters to design a convolutional architecture, which we name a “NASNet architecture”. 


We also introduce a new regularization technique called ScheduledDropPath that significantly improves generalization in the NASNet models. On CIFAR-10 itself, a NASNet found by our method achieves 2.4% error rate, which is state-of-the-art. Although the cell is not searched for directly on ImageNet, a NASNet constructed from the best cell achieves, among the published works, state-of-the-art accuracy of 82.7% top-1 and 96.2% top-5 on ImageNet. Our model is 1.2% better in top-1 accuracy than the best human-invented architectures while having 9 billion fewer FLOPS – a reduction of 28% in computational demand from the previous state-of-the-art model. 


When evaluated at different levels of computational cost, accuracies of NASNets exceed those of the state-of-the-art human-designed models. For instance, a small version of NASNet also achieves 74% top-1 accuracy, which is 3.1% better than equivalently-sized, state-of-the-art models for mobile platforms. Finally, the image features learned from image classification are generically useful and can be transferred to other computer vision problems. On the task of object detection, the learned features by NASNet used with the Faster-RCNN framework surpass state-of-the-art by 4.0% achieving 43.1% mAP on the COCO dataset.


640?


640?wx_fmt=png


640?wx_fmt=png


In this paper we describe a new mobile architecture, MobileNetV2, that improves the state of the art performance of mobile models on multiple tasks and benchmarks as well as across a spectrum of different model sizes. We also describe efficient ways of applying these mobile models to object detection in a novel framework we call SSDLite. Additionally, we demonstrate how to build mobile semantic segmentation models through a reduced form of DeepLabv3 which we call Mobile DeepLabv3. 


is based on an inverted residual structure where the shortcut connections are between the thin bottleneck layers. The intermediate expansion layer uses lightweight depthwise convolutions to filter features as a source of non-linearity. Additionally, we find that it is important to remove non-linearities in the narrow layers in order to maintain representational power. We demonstrate that this improves performance and provide an intuition that led to this design. 


Finally, our approach allows decoupling of the input/output domains from the expressiveness of the transformation, which provides a convenient framework for further analysis. We measure our performance on ImageNet classification, COCO object detection, VOC image segmentation. We evaluate the trade-offs between accuracy, and number of operations measured by multiply-adds (MAdd), as well as actual latency, and the number of parameters.


640?


640?wx_fmt=png


640?wx_fmt=png


Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image understanding through fine-grained analysis and even multiple steps of reasoning. In this work, we propose a combined bottom-up and topdown attention mechanism that enables attention to be calculated at the level of objects and other salient image regions. This is the natural basis for attention to be considered. 


Within our approach, the bottom-up mechanism (based on Faster R-CNN) proposes image regions, each with an associated feature vector, while the top-down mechanism determines feature weightings. Applying this approach to image captioning, our results on the MSCOCO test server establish a new state-of-the-art for the task, achieving CIDEr / SPICE / BLEU-4 scores of 117.9, 21.5 and 36.9, respectively. Demonstrating the broad applicability of the method, applying the same approach to VQA we obtain first place in the 2017 VQA Challenge.


640?



点击以下标题查看更多往期内容: 





640?#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通




?


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


640?

▽ 点击 | 阅读原文 | 获取最新论文推荐

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR2019接收结果公布了,但CVPR 2018的那些论文都怎么样了? 的相关文章

  • java中的数组初始化赋初值

    方法一 int vis1 声明未初始化 vis1 new int 100 定义占用空间大小 100个int for int i 1 i lt 5 i vis1 i i 进行赋值 for int i 1 i lt 100 i System o
  • Ogre粒子编辑器ParticleUniverse

    最近需要使用粒子系统制作一些特效 由于没有美术人员的帮助 制作难度可想而知 在苦闷中 找到了ParticleUniverse 这也是Torchlight采用的粒子系统 ParticleUniverse包括Particle Universe
  • 配置跳转指定_http自动跳转https的配置方法

    这篇文章主要介绍了http自动跳转https的配置方法 需要的朋友可以参考下 IIs中实现Http自动转换到Https方法介绍 403跳转对SEO有一定影响 1 下载安装URL重写模块 Microsoft URL Rewrite Modul
  • Llama-1|Alpaca-LoRA 微调模型下载以及安装推理教程

    Llama 1 Alpaca LoRA 微调模型下载以及安装推理教程 经常玩AI的人应该对LoRA这一词并不陌生 尤其是在SD绘画领域 各种角色的LoRA模型层出不穷 那么语言领域是否存在LoRA呢 存在 且繁荣 LoRA你可以理解为语言模
  • c++随机数加随机种子(用时间为随机种子)随机每次运行都不同

    srand 功能 初始化随机数发生器 用法 srand unsigned int seed 需要头文件 stdlib h 返回值 void无返回值 rand 产生的随机数在每次运行的时候都是与上一次相同的 若要不同 用函数 srand 初始
  • [软考笔记]存储管理——页式,段式,段页式

    页式存储 4kb为1页 考点 逻辑地址和物理地址之间的转换 1 先区分逻辑地址哪一部分是页号 哪一部分是页内地址 2 根据页内地址确定物理地址 后面那块 3 再根据页号查找块号 4 拼接起来就是物理地址 解题过程 1 将页面大小转化为二进制
  • 网络工程师课程---7、网络通信综合实验(做网络基础综合实验 用什么软件)...

    网络工程师课程 7 网络通信综合实验 做网络基础综合实验 用什么软件 一 总结 一句话总结 cisco packet p k t tracer tre s packet 英 p k t 美 p k t n 数据包 信息包 小包 小捆 vt
  • 【区块链】万向区块链罗荣阁:为什么区块链是解决汽车供应链金融痛点最优雅的方案?

    本文整理自万向区块链CTO罗荣阁在万向区块链实验室主办的第三届区块链全球峰会 2017 9 14 16 上的演讲速记稿 点击阅读原文可观看完整演讲视频 罗荣阁在第三届区块链全球峰会演讲 区块链是一个伟大的创新 能够解决一些传统技术难以解决的
  • 【转载】【stm32】一键下载电路

    原创Nerute 2018 11 18 01 11 10 2361 首先感谢正点原子的开源资料 下面贴上正点原子一键下载电路的原理图 很显然 核心是一块CH340芯片 什么是CH 请看手册 再来就是引脚说明 了解一键之前 我们还得知道 st
  • BERT论文阅读笔记

    文章题目 BERT Pre training of Deep Bidirectional Transformers for Language Understanding Pre training指的是在一个数据集上训练好一个模型 然后这个模
  • 字符串分割

    题目描述 给定一个非空字符串S 其被N个 分隔成N 1的子串 给定正整数K 要求除第一个子串外 其余的子串每K个字符组成新的子串 并用 分隔 对于新组成的每一个子串 如果它含有的小写字母比大写字母多 则将这个子串的所有大写字母转换为小写字母
  • 小游戏:推箱子与推箱子简化版

    在第一版的代码中 将人在目标点上以及箱子在目标点上另外输出 在后续的获取方向键并处理时 只需减去人和箱子的数字就可以刷新目标点的显示 不会出现 吃 目标点的情况 而在第二版的代码中 使用偏移值的改变来简化代码 只需通过方向键的按键活动来改变
  • STL--set容器

    目录 一 set容器基本概念 二 set构造和赋值 三 set 大小和交换 四 set 插入和删除 五 set 查找和统计 六 set 和 multiset 的区别 七 set 容器排序 八 set 容器自定义类型数据排序 一 set容器基
  • chatgpt赋能python:用Python计算数学题,速度快效果好!

    用Python计算数学题 速度快效果好 在现代化的信息时代 计算机已经成为了我们生活中不可缺少的工具之一 而对于数学爱好者来说 用计算机进行数学计算已经变得非常普遍 因为使用计算机能够快速解决数学难题 同时也将复杂的计算变得更加简单易行 P
  • 分页组件

    分页组件是web开发中常见的组件 请完成pagination函数 在id为jsPagination的DOM元素中完成分页的显示部分 需求如下 1 最多连续显示5页 居中高亮显示current页 如demo1所示 2 total为0时 隐藏整
  • Java无法通过形参设置为null改变实参

    文章目录 问题描述 问题例子 问题分析 问题描述 在实际业务开发过程中 我们会把实参传递给形参 在方法体内对引用对象进行构建或者修改 从而改变实参 因为对形参对象属性修改时 实参对象也会随着改变 详情请看 Java是值传递还是引用传递 区别
  • Csharp: 阴历年甲子干支算法錯誤問題

  • 探索OLED透明屏的优缺点:引领科技未来的革命性突破

    OLED透明屏作为一项革命性的创新技术 其令人惊叹的透明度和柔性性能引起了全球范围内的关注 然而 了解OLED透明屏的优缺点对于我们全面认识其在科技未来中的地位至关重要 今天 尼伽将深入探讨OLED透明屏的优势和限制 并借助相关数据 报告和
  • 什么是802.11无线局域网(WLAN)标准?

    Wireless technologies are the center of daily life Wireless networks are used to transfer data between different devices
  • 再见 Xshell ,这款开源的终端工具逼格更高

    再见 Xshell 这款开源的终端工具逼格更高 作为一名后端开发 我们经常需要和Linux系统打交道 免不了要使用Xshell这类终端工具来进行远程管理 最近发现一款更炫酷的终端工具Tabby 主题丰富 功能强大 推荐给大家 SpringB

随机推荐

  • Java NIO——通道Channel:网络Channel通信(重点)

    目录 IO的阻塞与非阻塞 NIO网络通信 没有使用Selector的阻塞NIO通信 非阻塞NIO通信 重点 Selector Channel 注册到 Selector 选择键 SelectionKey Selector的使用方法 IO的阻塞
  • UNeXT

    论文链接 https link springer com chapter 10 1007 978 3 031 16443 9 3 源码链接 https github com jeya maria jose UNeXt pytorch 论文摘
  • linnux系统常用命令

    shutdown h now 立刻进行关机 shutdown r now 现在重新启动计算机 reboot 现在重新启动计算机 su 切换用户 passwd 修改用户密码 logout 用户注销 tab 补全 ctrl l 清屏 类似cle
  • 49个Python的常见操作/技巧/例子

    17个Python的常见操作 技巧 很多读者都知道 Python 是一种高级编程语言 其设计的核心理念是代码的易读性 以及允许编程者通过若干行代码轻松表达想法创意 实际上 很多人选择学习 Python 的首要原因是其编程的优美性 用它编码和
  • 《pigcms v6.2最新完美至尊版无任何限制,小猪微信源码多用户微信营销服务平台系统》

    pigcms v6 2最新完美至尊版无任何限制 小猪微信源码多用户微信营销服务平台系统 前两天分享了套小猪CMS PigCms 多用户微信营销服务平台系统V6 1完美破解至尊版带微用户管理CRM 微信支付 还是不少童鞋反应出不少问题 今天再
  • unity-障碍物和空气墙的设置

    文章目录 建立空气墙 建立空气墙 建个游戏对象 然后给他添加2d碰撞盒子属性 把它放到相机下面 让它成为相机的所属的子组 跟随相机一起移动通过 创建新的标签便于碰撞确认操作 判断我们游戏操控的物体是否在空气墙上 判断是否处于空气墙上面 pr
  • 每日必看的五个产品科技类网站?

    1 Github 看看 GitHub 社区今天最热门的是什么 https github com trending 2 v2ex 会有一些新的互联网产品发布在这里 偶尔会附带免费的激活码 3 producthunt 看看今天有什么新的创业产品
  • Maven Pom设置简单项目打jar包时的入口类

    Maven Pom设置简单项目打jar包时的入口类 有时 不使用框架的简单的项目也要以jar包的形式发布和使用 如果不知道如何在pom中设置项目的入口类 就比较麻烦 在pom文件中添加如下代码 就可以设置项目的入口类了 当然 入口类中要有m
  • miniconda的安装和python环境搭建

    文章目录 前言 下载minianaconda 安装和配置 安装注意 配置 更改镜像源 创建虚拟环境和激活 conda常用指令 前言 最近想用python去写一个写ini配置文件的工具 由于电脑现在的环境是python2的 想用python3
  • AES加密出现Error: Malformed UTF-8 data报错的解决方法

    按我上一章 vue java 使用AES 前后端加密解密 址址 https blog csdn net weixin 42124196 article details 88416488 文章进行aes加密的项目 当页面获取数据时一直出现Er
  • java aio和nio的区别

    AIO 是彻底的异步通信 NIO 是同步非阻塞通信 有一个经典的举例 烧开水 假设有这么一个场景 有一排水壶 客户 在烧水 AIO的做法是 每个水壶上装一个开关 当水开了以后会提醒对应的线程去处理 NIO的做法是 叫一个线程不停的循环观察每
  • OpenMV的程序烧录

    OpenMV官方烧录教程 OpenMV脱机运行 星瞳科技 利用数据线连接OpenMV和电脑 如果OpenMV闪烁绿灯 之后是白灯 再结束 表示OpenMV连接电脑成功 打开OpenMV IDE 点击左下方的这个 或者按Ctrl E连接上Op
  • Acwing-3443. 学分绩点

    include
  • 超微主板升级bios_超微 X10DAi安装黑苹果10.13.6 OC引导

    配置 处理器 英特尔 Xeon 至强 E5 2650 v4主板 超微 X10DAI Wellsburg 内存 64 GB 三星 DDR4 2133MHz 主硬盘 Lexar 500GB SSD 500 GB 固态硬盘 主显卡 Nvidia
  • openwrt php 调用,openwrt在脚本中调用UCI接口, 非常值得学习

    bin sh Copyright C 2006 2013 OpenWrt org Copyright C 2006 Fokus Fraunhofer Copyright C 2010 Vertical Communications debu
  • nvidia tx/xavier/orin硬件平台上添加开机启动程

    概述 随着NVIDIA的xavier及orin系列硬件平行推出 自动驾驶车端处理器也逐渐频繁开发及使用 开机脚本使用 etc profile 通常在系统登录时 会执行 多次登录 多次执行 xavier上增加开机启动脚本 不能在 etc pr
  • 记录解压zip文件

    zip文件有30G unzip不能用 改用jar解压 unzip 解压 JPEGImages zip 文件时 异常提示如下 Archive dataset test rgb zip End of central directory sign
  • 隐藏Chrome浏览器新增标签页下方的快捷方式缩略图

    作为强迫症患者不喜欢搜索栏下方还有多余的东西 看着8个最近访问的快捷方式缩略图太不舒服了 在网上搜索了一堆方法 最有效的是替换一个PAK文件 但是过程有些繁琐 自己摸索后发现了一个简单的方法 在这记录一下以防自己忘记 查看设置中搜索引擎的地
  • 8种常见的排序算法-----你值得掌握(很细,很全)

    目录 一 排序的概念 二 常见的排序 三 常见排序算法的实现 1 插入排序 1 1 基本思想 1 2直接插入排序动态图 1 3直接插入排序的代码实现 2 希尔排序 2 1基本思想 2 2希尔排序过程 2 3希尔排序代码实现 2 4gap的选
  • CVPR2019接收结果公布了,但CVPR 2018的那些论文都怎么样了?

    CVPR 作为计算机视觉三大顶级会议之一 一直以来都备受关注 被 CVPR 收录的论文更是代表了计算机视觉领域的最新发展方向和水平 今年 CVPR 2019 将于美国洛杉矶举办 上个月接收结果公布后 又引起了 CV 届的一个小高潮 一时间涌