COCO image caption数据集格式

2023-05-16

最近在做image caption的任务，因为有自己的数据集，因此需要自己创建字典、annotation等信息。而COCO官方针对coco image caption任务的数据集写了一个API接口（pycocotools包），因此如果想偷懒就老老实实按照coco image caption数据集的格式准备数据。否则自己写pycocotools接口，可能会出现各种各样的bug。因此我们应该首先看一下imgae caption的数据格式。


{
"info" : info, "images" : [image], "annotations" : [annotation], "licenses" : [license],
}
 
info{
"year" : int, "version" : str, "description" : str, "contributor" : str, "url" : str, "date_created" : datetime,
}
 
image{
"id" : int, "width" : int, "height" : int, "file_name" : str, "license" : int, "flickr_url" : str, "coco_url" : str, "date_captured" : datetime,
}

annotation{
"image_id":int ,"id":int ,"caption":"giraffe eating food from the top of the tree"
}
 
license{
"id" : int, "name" : str, "url" : str,

}

注：其中images、lincense和annotations是包含多个实例以dict形式存储的多个实例数组。

annotation其中的“image_id”字段与image中的“id”字段相对应，为图片的id。

虽然在annotations中是一条描述的存储，但是pycocotools工具会把具有相同"image_id"的图片组成一个，所以才会有常说的一张图像对应5句描述。

licenses和info字段对于caption任务没起作用，自己制作数据集的时候可以忽略，或者随便填充指定格式的值。

举个例子 image={}


image={"license": 5, 
"file_name": "COCO_train2014_000000057870.jpg", 
"coco_url": "http://mscoco.org/images/57870", 
"height": 480, 
"width": 640, 
"date_captured": "2013-11-14 16:28:13", 
"flickr_url": "http://farm4.staticflickr.com/3153/2970773875_164f0c0b83_z.jpg",
"id": 57870}
}

annotation={}


annotation={'image_id': 318556, 
'id': 48, 
'caption': 'giraffe eating food from the top of the tree'
}

按照这个格式只需要准备相应的数据即可，几十行代码足以。比起改写pycocotools，还是这个效率高！！！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

COCO

image

caption

数据集格式

COCO image caption数据集格式的相关文章

使用 BufferedImages 获取图像每个像素的颜色

我试图获取图像的每个像素的每种颜色我的想法如下 int pixels BufferedImage image image ImageIO read this getClass getResources image png int pixe
如何在android sdk中从图库中获取图像并将其显示到屏幕上

我想知道如何从图库中获取预先保存的图像然后将其显示到屏幕上任何教程有用的链接和信息将不胜感激如果您希望我进一步解释任何内容请询问 Intent photoPickerIntent new Intent Intent ACTION
验证远程图像实际上是 ruby 中的图像文件？

我试图弄清楚如何验证我输入载波的内容实际上是图像我获取图像网址的来源并没有返回所有实时网址有些图像已不复存在不幸的是它并没有真正返回正确的状态代码或任何内容因为我正在使用一些代码来检查远程文件是否存在并且它通过了该检查因此现在
扫描图像到可读文本

我想知道是否有一种方法可以通过编写代码来将带有文本的扫描图像转换为可读文本那可能吗 OCRTools http www ocrtools com是我用于 net 的对于Java 我用过Aspire http asprise com pr
Python - 查找图像中对象的中心

我有一个具有白色背景和非白色对象的图像文件我想使用 python Pillow 找到对象的中心我在 C 中发现了类似的问题但没有可接受的答案如何找到物体的中心 https stackoverflow com questions 12
在 WPF 中显示 Drawing.Image

我有一个 System Drawing Image 的实例如何在我的 WPF 应用程序中显示这一点我尝试过img Source但这不起作用我有同样的问题并通过结合多个答案来解决它 System Drawing Bitmap bmp I
请推荐一个用于将 IPTC 数据写入图像的 Node 模块？

我有一个 Node js 服务器其工作是下载 JPEG 图像将某些数据写入几个 IPTC 字段例如Iptc Application2 Caption 并将图像传递给另一个服务理想情况下我想将 IPTC 数据写入内存缓冲区而不将图
从 url 加载图像并绘制到 HTML5 Canvas

我在从 javascript 中的 url 加载图像时遇到问题下面的代码可以工作但我不想从 html 加载图像我想使用纯 JavaScript 从 url 加载图像 var c document getElementById myCa
Nodejs Base64 中的读取文件

我正在尝试从客户端读取以 base64 编码的图像如何使用nodejs进行阅读 My code add to buffer base64 image var encondedImage new Buffer image name base
同时重新排序和旋转图像的高效方法

为了快速加载 jpeg 我为turbojpeg 实现了一个 mex wrapper 以有效地将大 jpeg 读入 MATLAB 对于 4000x3000px 的图像实际解码只需要大约 120 毫秒而不是 5 毫秒然而像素顺序是 R
使用 matplotlib 从 TeX 创建数学表达式的图像

使用 python 库 matplotlib 我发现了这个问题的解决方案在 PyQt 中很好地显示代数表达式 https stackoverflow com questions 14097463 displaying nicely a
减少1000张图片的HTTP请求？

我知道这个问题可能听起来有点疯狂但我想也许有人会想出一个聪明的主意假设您在一个 HTML 页面上有 1000 个缩略图图像大小约为5 10 kb 有没有办法在单个请求中加载所有图像以某种方式将所有图像压缩到一个文件中或者您对该主题
如何修复此 YCrCb -> RBG 转换公式？

我使用的公式来自这个问题 https stackoverflow com questions 8838481 kcvpixelformattype 420ypcbcr8biplanarfullrange frame to uiimage c
iOS - 基于设备的不同图像或缩放相同的图像？

似乎开发人员总是为不同的设备创建不同的图像资源并根据设备加载它们但是只为最高分辨率的设备 iPad 创建图像然后为 iPhone 6 5 等缩小该图像有什么缺点吗我使用 SpriteKit 因此我只需创建不同大小的 SKSpri
图片加载性能

我已经尝试了几个小时从文件加载图像的各种方法请看一下这两种方法 public Image SlowLoad string path return Image FromFile path public Image FastLoad stri
从剪贴板获取图像 Awt 与 FX

最近我们的 Java FX 应用程序无法再从剪贴板读取图像例如用户在 Microsofts Paint 中选择图像的一部分并按复制我不是在谈论复制的图像文件它们工作得很好我很确定它过去已经有效但我仍然需要验证这一点尽管如此
JS - 如何将图像对象变成灰度并显示它

基本上当单击按钮时它会告诉移动设备转到相机一旦相机拍照它就会给我图像数据它被称为数据 URL 吗这是我处理它的代码 var imagesrc data image jpeg base64 imageData var myimag
在TImageViewer中，如何获取用户点击图片的位置？

在TImageViewer控件中用户可以缩放或平移图片我的问题是当用户点击图片时如何获取用户在图片上的点击位置尤其是用户可以对图片进行放大缩小或平移之后如何获取对应的图片点击位置呢 As shown below How to
文章中的内联图像和标题 - 使标题的宽度与图像的宽度一致

这是我的代码 div class image img src image jpg alt Image description p class caption This is the image caption p div 这是我的 CSS
直方图均衡结果

I am trying to code histogram equalization by my self but the results are different from the built in function in matlab

随机推荐

机器人学中旋转矩阵与欧拉角之间互换公式及程序

弧度角度 define PAI 3 141592653589793 define RADIAN PAI 180 0 弧度 61 角度 180 define ANGLE 180 0 PAI 角度 61 弧度 180 2 旋转矩阵转换为欧拉角
opencv 读取图片并提取Mat中data数据

uchar pImageData 61 uchar malloc width height 3 sizeof uchar Mat MyImage 61 imread file name IMREAD COLOR if MyImage dat
如何理解矩阵相乘的几何意义或现实意义？

作者 xff1a deng will 链接 xff1a https www zhihu com question 28623194 answer 135658852 来源 xff1a 知乎著作权归作者所有商业转载请联系作者获得授权 xf
范数对于数学的意义？1范数、2范数、无穷范数

作者 xff1a JI Weiwei 链接 xff1a https www zhihu com question 21868680 answer 25599956 来源 xff1a 知乎著作权归作者所有商业转载请联系作者获得授权 xff
鱼眼图像的经纬度展开，经纬度图转鱼眼

鱼眼图像由视场角接近180度甚至大于180度的镜头拍摄得到 xff0c 图像周围畸变严重 xff0c 通过经纬法将鱼眼图像展开是一个不错的方法鱼眼镜头可以视为一个半球 xff0c 经纬法按照球面贴图的类似思想将图像以球面形式展开以下面这
感知机（Perceptron）无法解决异或（XOR）问题的原因

目录 1 异或问题 2 感知机 xff08 Perceptron xff09 感知机 xff08 Perceptron xff09 为什么无法解决异或 xff08 XOR xff09 问题呢 xff1f 1 异或问题首先我们来分析一下什么
'list' object has no attribute 'astype'.

在使用python处理数据程序运行出现 39 list 39 object has no attribute 39 astype 39 的问题 xff0c 代码如下 xff1a x data y data 61 pickle load o
用Kazam软件在Ubuntu系统下获取的截图、录屏在Windows系统下无法打开、播放问题：用格式工厂、Handbrake来解决

解决步骤如下 xff1a 1 xff0c 用kazam在Ubuntu系统下获取的截图录屏以windows下能够读取的名字来修改保存的文件名 2 xff0c 在windows系统下可直接打开截图并复制删除等操作 3 xff0c 在Wind
MPU9250调试笔记（融合磁力计计算Yaw）

底部附源码 2022 10 5 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 产品需要一个姿态传感器 xff0c 使用了MPU9250 xff0c 主要是算法库不太好找
ROS环境下大疆tello无人机源码安装&驱动代码解读

大疆tello无人机是一款微小型无人机 xff0c 可以支持多种开发模式这里用的是ROS1的kinetic版本进行开发参考文档来自http wiki ros org tello driver 1 xff09 kinetic下tello源
Gazebo仿真--无人机添加传感器并且在rviz中显示数据

近来为了实现更加接近真实的仿真 xff0c 准备给无人机添加传感器这里以激光雷达rplidar为例 xff0c 其他传感器如深度相机D435i也是类似的首先打开无人机模型文件 xff08 我这里是用了amovlab的p450 uav1
http文件服务器（Ubuntu）

apache文件服务器 xff08 Ubuntu xff09 环境 xff1a Ubuntu18 4 需求 xff1a 搭建一个资源共享的文件下载站 xff0c 支持多用户长这样 xff1a 传输文件的协议有很多 xff0c 例如 xff
pytorch DataParallel理解及易犯错误（逻辑上感觉没问题，但是返回时候却出错）

本文只针对单机多GPU使用dataparallel进行加速运算写在前边 xff1a dataparallel只存在于继承了nn Modules类的forward 计算中大致流程如下 xff1a span class token keyw
Python 中补码表示

剑指offer 中有一道题 xff1a 输入一个整数 xff0c 输出该数二进制表示中 span class token number 1 span 的个数其中负数用补码表示如果不是负数很好解决 xff0c 用到如下技巧即可 n spa
ali笔试

题目描述 xff1a 输入两个字符串s1 span class token punctuation span s2 span class token punctuation span 只能对s1进行一种操作 xff0c 即可以将字符串中任意
edas上传过程中的一些错误

关于latex使用的一些教训总结 xff1a failed 1 paper has an average line spacing of 8 97 pt but should have 10 You may need to increase
作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类

仅供自己学习使用 xff01 xff01 xff01 这篇博客先对数据集做一些介绍参考链接 xff1a http docode techyoung cn breast cancer wisconsin html 乳腺癌的早期诊断意义重大
video bert & visual bert

最近需要处理一些多模态任务 xff08 图文匹配 xff0c caption等 xff09 xff0c 需要用到多模态模型算法调研之后发现 xff0c 目前处理此类问题的主流方法都是基于bert的多模态模型 xff0c 因此总结一下学习
如何理解RL中on-policy与off-policy

on policy 和off policy是强化学习中出现最多的两个概念 xff0c 也是最容易让初学者迷惑的概念之一网上很多博客都是从是否使用当前policy和其它policy角度出发解释的 xff0c 但是笔者认为这样解释诚然正确但是
COCO image caption数据集格式

最近在做image caption的任务 xff0c 因为有自己的数据集 xff0c 因此需要自己创建字典 annotation等信息而COCO官方针对coco image caption任务的数据集写了一个API接口 xff08 pyc

COCO image caption数据集格式

COCO image caption数据集格式 的相关文章

随机推荐

热门标签

COCO image caption数据集格式的相关文章