Awesome Fine-Grained Image Analysis – Papers, Codes and Datasets

2023-10-28

Awesome Fine-Grained Image Analysis – Papers, Codes and Datasets

tricks 

Table of contents

  1. Introduction

  2. Tutorials

  3. Survey papers

  4. Benchmark datasets

  5. Fine-grained image recognition

    1. Fine-grained recognition by localization-classification subnetworks

      1. Employing detection or segmentation techniques

      2. Utilizing deep filters / activations

      3. Leveraging attention mechanisms

      4. Other methods

    2. Fine-grained recognition by end-to-end feature encoding

      1. High-order feature interactions

      2. Specific loss functions

      3. Other methods

    3. Fine-grained recognition with external information

      1. Fine-grained recognition with web data / auxiliary data

      2. Fine-grained recognition with multi-modality data

      3. Fine-grained recognition with humans in the loop

  6. Fine-grained image retrieval

    1. Content-based fine-grained image retrieval

    2. Sketch-based fine-grained image retrieval

  7. Future directions of FGIA

    1. Fine-grained few shot learning

    2. Fine-grained hashing

    3. Fine-grained domain adaptation

    4. Fine-grained image generation

    5. FGIA within more realistic settings

  8. Recognition leaderboard

Introduction

This homepage lists some representative papers/codes/datasets all about deep learning based fine-grained image analysis, including fine-grained image recognition, fine-grained image retrieval, etc. If you have any questions, please feel free to contact Prof. Xiu-Shen Wei.

Tutorials

  • Fine-Grained Image Analysis.
    Xiu-Shen Wei, and Jianxin Wu. Pacific Rim International Conference on Artificial Intelligence (PRICAI), 2018.

Survey papers

Benchmark datasets

Summary of popular fine-grained image datasets. Note that ‘‘BBox’’ indicates whether this dataset provides object bounding box supervisions. ‘‘Part anno.’’ means providing the key part localizations. ‘‘HRCHY’’ corresponds to hierarchical labels. ‘‘ATR’’ represents the attribute labels (e.g., wing color, male, female, etc). ‘‘Texts’’ indicates whether fine-grained text descriptions of images are supplied.

Dataset name Year Meta-class sharp images sharp categories BBox Part anno. HRCHY ATR Texts
Oxford flower 2008 Flowers 8,189 102 surd
CUB200 2011 Birds 11,788 200 surd surd surd surd
Stanford Dog 2011 Dogs 20,580 120 surd
Stanford Car 2013 Cars 16,185 196 surd
FGVC Aircraft 2013 Aircrafts 10,000 100 surd surd
Birdsnap 2014 Birds 49,829 500 surd surd surd
NABirds 2015 Birds 48,562 555 surd surd
DeepFashion 2016 Clothes 800,000 1,050 surd surd surd
Fru92 2017 Fruits 69,614 92 surd
Veg200 2017 Vegetable 91,117 200 surd
iNat2017 2017 Plants & Animals 859,000 5,089 surd surd
RPC 2019 Retail products 83,739 200 surd surd

Fine-grained image recognition

Fine-grained recognition by localization-classification subnetworks

Employing detection or segmentation techniques

Utilizing deep filters / activations

Leveraging attention mechanisms

Other methods

Fine-grained recognition by end-to-end feature encoding

High-order feature interactions

Specific loss functions

Other methods

Fine-grained recognition with external information

Fine-grained recognition with web data

Fine-grained recognition with multi-modality data

Fine-grained recognition with humans in the loop

Fine-grained image retrieval

Content-based fine-grained image retrieval

Sketch-based fine-grained image retrieval

  • Sketch Me That Shoe.
    Qian Yu, Feng Liu, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales, and Chen Change Loy. CVPR, 2016.

Future directions of FGIA

Fine-grained few shot learning

Fine-grained hashing

Fine-grained domain adaptation

Fine-grained image generation

FGIA within more realistic settings

Recognition leaderboard

The section is being continually updated. Since CUB200-2011 is the most popularly used fine-grained dataset, we list the fine-grained recognition leaderboard by treating it as the test bed.

Method Published BBox? Part? External information? Base model Image resolution Accuracy
PB R-CNN ECCV 2014 surd Alex-Net 224x224 73.9%
MaxEnt NeurIPS 2018 GoogLeNet TBD 74.4%
PB R-CNN ECCV 2014 surd surd Alex-Net 224x224 76.4%
PS-CNN CVPR 2016 surd surd CaffeNet 454x454 76.6%
MaxEnt NeurIPS 2018 VGG-16 TBD 77.0%
Mask-CNN PR 2018 surd Alex-Net 448x448 78.6%
PC ECCV 2018 ResNet-50 TBD 80.2%
DeepLAC CVPR 2015 surd surd Alex-Net 227x227 80.3%
MaxEnt NeurIPS 2018 ResNet-50 TBD 80.4%
Triplet-A CVPR 2016 surd Manual labour GoogLeNet TBD 80.7%
Multi-grained ICCV 2015 WordNet etc. VGG-19 224x224 81.7%
Krause et al. CVPR 2015 surd CaffeNet TBD 82.0%
Multi-grained ICCV 2015 surd WordNet etc. VGG-19 224x224 83.0%
TS CVPR 2016 VGGD+VGGM 448x448 84.0%
Bilinear CNN ICCV 2015 VGGD+VGGM 448x448 84.1%
STN NeurIPS 2015 GoogLeNet+BN 448x448 84.1%
LRBP CVPR 2017 VGG-16 224x224 84.2%
PDFS CVPR 2016 VGG-16 TBD 84.5%
Xu et al. ICCV 2015 surd surd Web data CaffeNet 224x224 84.6%
Cai et al. ICCV 2017 VGG-16 448x448 85.3%
RA-CNN CVPR 2017 VGG-19 448x448 85.3%
MaxEnt NeurIPS 2018 Bilinear CNN TBD 85.3%
PC ECCV 2018 Bilinear CNN TBD 85.6%
CVL CVPR 2017 Texts VGG TBD 85.6%
Mask-CNN PR 2018 surd VGG-16 448x448 85.7%
GP-256 ECCV 2018 VGG-16 448x448 85.8%
KP CVPR 2017 VGG-16 224x224 86.2%
T-CNN IJCAI 2018 ResNet 224x224 86.2%
MA-CNN ICCV 2017 VGG-19 448x448 86.5%
MaxEnt NeurIPS 2018 DenseNet-161 TBD 86.5%
DeepKSPD ECCV 2018 VGG-19 448x448 86.5%
OSME+MAMC ECCV 2018 ResNet-101 448x448 86.5%
StackDRL IJCAI 2018 VGG-19 224x224 86.6%
DFL-CNN CVPR 2018 VGG-16 448x448 86.7%
Bi-Modal PMA IEEE TIP 2020 VGG-16 448x448 86.8%
PC ECCV 2018 DenseNet-161 TBD 86.9%
KERL IJCAI 2018 Attributes VGG-16 224x224 87.0%
HBP ECCV 2018 VGG-16 448x448 87.1%
Mask-CNN PR 2018 surd ResNet-50 448x448 87.3%
DFL-CNN CVPR 2018 ResNet-50 448x448 87.4%
NTS-Net ECCV 2018 ResNet-50 448x448 87.5%
HSnet CVPR 2017 surd surd GoogLeNet+BN TBD 87.5%
Bi-Modal PMA IEEE TIP 2020 ResNet-50 448x448 87.5%
CIN AAAI 2020 ResNet-50 448x448 87.5%
MetaFGNet ECCV 2018 Auxiliary data ResNet-34 TBD 87.6%
Cross-X CVPR 2020 ResNet-50 448x448 87.7%
DCL CVPR 2019 ResNet-50 448x448 87.8%
ACNet CVPR 2020 VGG-16 448x448 87.8%
TASN CVPR 2019 ResNet-50 448x448 87.9%
ACNet CVPR 2020 ResNet-50 448x448 88.1%
CIN AAAI 2020 ResNet-101 448x448 88.1%
DBTNet-101 NeurIPS 2019 ResNet-101 448x448 88.1%
Bi-Modal PMA IEEE TIP 2020 Texts VGG-16 448x448 88.2%
GCL AAAI 2020 ResNet-50 448x448 88.3%
S3N CVPR 2020 ResNet-50 448x448 88.5%
Sun et al. AAAI 2020 ResNet-50 448x448 88.6%
FDL AAAI 2020 ResNet-50 448x448 88.6%
Bi-Modal PMA IEEE TIP 2020 Texts ResNet-50 448x448 88.7%
DF-GMM CVPR 2020 ResNet-50 448x448 88.8%
PMG ECCV 2020 VGG-16 550x550 88.8%
FDL AAAI 2020 DenseNet-161 448x448 89.1%
PMG ECCV 2020 ResNet-50 550x550 89.6%
API-Net AAAI 2020 DenseNet-161 512x512 90.0%
Ge et al. CVPR 2019 GoogLeNet+BN Shorter side is 800 px 90.3%
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Awesome Fine-Grained Image Analysis – Papers, Codes and Datasets 的相关文章

随机推荐

  • MybatisPlus简介,特点,快速入门,常用方法

    MyBatisPlus MyBatis Plus opens new window 简称 MP 是一个 MyBatis opens new window 的增强工具 在 MyBatis 的基础上只做增强不做改变 为简化开发 提高效率而生 特
  • numpy中矩阵的翻转(flip)

    numpy flip m axis None Reverse the order of elements in an array along the given axis The shape of the array is preserve
  • 保姆级使用PyTorch训练与评估自己的MobileViT网络教程

    文章目录 前言 0 环境搭建 快速开始 1 数据集制作 1 1 标签文件制作 1 2 数据集划分 1 3 数据集信息文件制作 2 修改参数文件 3 训练 4 评估 5 其他教程 前言 项目地址 https github com Fafa D
  • angular引入ng-zorro的方法

    安装ng zorro组件 npm install ng zorro antd save 导入模块 import NgZorroAntdModule from ng zorro antd imports BrowserModule NgZor
  • 【2023】华为OD机试真题Java-题目0210-优秀学员统计

    优秀学员统计 题目描述 公司某部门软件教导团正在组织新员工每日打卡学习活动 他们开展这项学习活动已经一个月了 所以想统计下这个月优秀的打卡员工 每个员工会对应一个id 每天的打卡记录记录当天打卡员工的id集合 一共30天 请你实现代码帮助统
  • ajax 筛选表格内容,基于jquery实现表格内容筛选功能实例解析

    当表格内的数据较多时 我们无法一页一页的查找 这时可以通过一个搜索框来实现搜索 对于这个搜素框 我们为了更好的体验可以利用keyup事件实现在用户输入的时候就开始筛选 而不是填完以后点击搜索按钮再执行 效果图 实现代码 function t
  • HNU-电路与电子学-学习笔记(12~24讲)

    放一下12讲 24讲的笔记吧 其它部分的笔记不全 就不放了 每一讲都是我在结合了课本内容 上课PPT 上课笔记后自己总结的知识点 电路与电子学算是我学得最认真的一门课了 最后也取得了还算满意的成绩 希望能够帮助到有需要的同学
  • Vue项目中你是如何解决跨域的呢?

    一 跨域是什么 跨域本质是浏览器基于同源策略的一种安全手段 同源策略 Sameoriginpolicy 是一种约定 它是浏览器最核心也最基本的安全功能 所谓同源 即指在同一个域 具有以下三个相同点 协议相同 protocol 主机相同 ho
  • 工具篇——Base64FileUtil(将文件转成base64 字符串)

    写代码的四点 1 明确需求 要做什么 2 分析思路 要怎么做 1 2 3 3 确定步骤 每一个思路要用到哪些语句 方法和对象 4 代码实现 用具体的语言代码将思路实现出来 学习新技术的四点 1 该技术是什么 2 该技术有什么特点 使用需注意
  • MySQL四十五讲(基础篇)知识汇总(全)

    MySQL四十五讲 基础篇 知识汇总 全 一 MySQL 基本架构 二 日志 Redo log 和 Binlog 2 1 重要的日志模块 gt Redo log 2 2 重要的日志模块 Binlog 2 3 Redo log 与 Binlo
  • 多态&单例类

    1 多态 多态 一种事物的多种体现形式 举例 动物有很多种 应用 定义时并不确定是什么类型 要调用的是哪个方法 只有运行的时候才能确定调用的是哪个 注意 继承是多态的前提 1 多态 1 1 回顾isinstance class Dog ob
  • 使用jquery做的伸缩菜单

  • 基于wordpress和Sakura主题插件搭建博客网站

    基于wordpress和Sakura主题插件搭建博客网站 1 引言 2 认清现实 3 使用的本地化方法 4 分享自己走的一些弯路 5 硬刚404的余波 6 额外的收获 1 引言 最近 本着试试的想法 想着找一个前端方面的工作 遇到一些招聘软
  • fiddler扩展模拟弱网络环境设置

    今天在qq群中有人问到怎么模拟app弱网络环境 我查了下资料 记得之前做测试的时候是设置fiddler断点 app请求后止于fiddler断点 app一直拿不到响应结果就应该要给出网络请求失败的提示 这种方式太麻烦 对每个接口每次请求都要独
  • 图形学实验六真实感图形算法

    目录 实验六 真实感图形算法 一 实验目的 二 实验内容 三 实验原理 四 实验示范代码 略 五 实验步骤 六 实验结果处理 七 实验注意事项 八 预习与思考题 九 实验报告要求 实验六 真实感图形算法 实验类型 设计型 实验学时 2实验要
  • 解决无法成功完成操作,因为文件包含病毒或潜在的垃圾软件

    解决无法成功完成操作 因为文件包含病毒或潜在的垃圾软件 近日在运行电脑上某一个软件的时候 提示 无法成功完成操作 因为文件包含病毒或潜在的垃圾软件 在网上搜索了半天 百度结果翻了几页 都是说把Windows安全中心的 实时保护 关了 然后把
  • MFC 基础知识:主对话框与子对话框(二)

    仅供使用VS MFC初学者学习 高手莫见笑 接 MFC 基础知识 主对话框与子对话框 一 的内容 在 MFC 基础知识 主对话框与子对话框 一 中Edit Control 编辑框 控件中输出内容 主要是想讲讲在创建的子对话框中如何实现一些操
  • BFS算法解题套路框架(附习题)

    BFS算法解题套路框架 BFS 的核心思想 就是把一些问题抽象成图 从一个点开始 向四周开始扩散 一般来说 我们写 BFS 算法都是用 队列 这种数据结构 每次将一个节点周围的所有节点加入队列 BFS 相对 DFS 的最主要的区别是 BFS
  • 20190711_New_Citation

    Cross Talk Among Reactive Oxygen Nitrogen and Sulfur During Abiotic Stress in Plants https onlinelibrary wiley com doi p
  • Awesome Fine-Grained Image Analysis – Papers, Codes and Datasets

    Awesome Fine Grained Image Analysis Papers Codes and Datasets Table of contents Introduction Tutorials Survey papers Ben