自定义 ImageDataGenerator() 用于 50 万张图像,其中标签和像素位于使用 Keras (或任何其他库)的 2 个单独的 DataFrame 中 [关闭]

2024-02-08

我有2个独立的DataFrames其中包含大约 50 万张图像的信息,总计达 6+ GB。有 4 个.parquet我必须的文件pd.concat()逐一制作一个新的DataFrameimgs包含的像素137*236,值范围为0-32331和图像的 id 列。

imgs
>>
          image_id     0      1  ...  32330  32331

0       Train_50210  246    253  ...    251    250   
1       Train_50211  250    245  ...    241    244
...                              ...
...                              ...
...                              ...
453651  Train_50210    0    253  ...    251    250   
453652  Train_50211  250    245  ...    241    244  

第二csv包含图像的标签以及每个图像所属的三个不同类的值。我将 csv 导入到train.

train
>>

            image_id      class_1   class_2  class_3    

0            Train_5           15         9        5    
1            Train_1          159         0        0
...
...
...
453651  Train_342524             0       15       34
453652    Train_9534            18        0        7

中的行数train等于中的行imgs。这意味着图像的 Y 标签存储在train对应的像素属性在imgs

我尝试使用合并两个数据框pd.merge(imgs,train,on='image_id').drop('image_id') and 花了很长时间,在处理上述两个步骤时,我的内核每次都会死掉。如果有的话请建议一种替代方法

有人可以告诉我如何制作自定义数据生成器吗

1. producing batches of images
2. Augmented images for robustness

using keras或任何其他用于快速处理的库。

或者,有人可以告诉我如何在我的情况下使用 ImageDataGenerator().flow()


这就是我的建议,逐段加载数据帧,不要同时加载整个数据帧,这实际上可能超出你的 RAM,因此会导致内核崩溃。

然后逐行迭代数据帧,获取 32332 列,并将它们重塑为 137x236 的图像,并将它们以适当的名称保存到磁盘的文件夹 train_data/class_number/ 中,然后您可以使用 keras ImageDataGenerator()。 flowfromDirectory()

问题是 32332 列对我来说没有意义,如果图像是单通道 137x236 图像,那么列数将为 137*236 = 29972。因此,大约有 2k 列未计算在内。您确定数据的格式吗?

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

自定义 ImageDataGenerator() 用于 50 万张图像,其中标签和像素位于使用 Keras (或任何其他库)的 2 个单独的 DataFrame 中 [关闭] 的相关文章

随机推荐

  • Django 验证单元测试

    我试图模拟 django contrib auth 验证方法的返回值 该方法在视图的登录方法中调用 有view py代码 def login request if request method POST username get usern
  • 如何更改 Mac OS X 启动板中显示的 Java 应用程序名称

    当我的申请写成Java with SWT运行在OS X 都从下Eclipse和来自jar 它在启动板中的名称为 java 如图所示 在我的代码的开头我调用Display setAppName MyApp 并且菜单栏和菜单项中的应用程序名称是
  • PhoneGap 3.1.0 没有节点/npm 和命令行工具

    是否可以在没有节点包的情况下下载和使用 PhoneGap 3 1 0 由于网络连接受到限制 从 git hub 命令行安装节点 PhoneGap 模块 Cordova 模块和插件很烦人 使用 PhoneGap 2 9 似乎是那么容易和简单
  • 错误:无法构建 gem 本机扩展

    gem install unf ext v 0 0 6 localhost workflow boyun ryan007 gem install unf ext v 0 0 6 Building native extensions This
  • AVMutableComposition 输出冻结在第一个视频的最后一帧

    我正在尝试使用 AVMutableCompositions 将多个剪辑 视频 合并为一个 我已经成功完成了这一操作以及旋转和翻译每条指令 但是 仍然存在一个问题 当第一个剪辑完成时 输出冻结在最后一帧 第一个剪辑的最后一帧 仅当有另一个剪辑
  • 使用 VBA 声明相对于活动单元格的范围

    我需要声明一个相对于活动单元格的范围对象 问题是 每次宏运行时我想要选择的行数和列数都不同 例如 我有两个变量 numRows and numCols 我想选择一个范围 其左上角有 ActiveCell 单元格的行为 ActiveCell
  • 使用 Linq to SQL 进行多线程处理

    由于原始线程 使用 Linq to SQL 进行多线程处理 https stackoverflow com questions 1815537 现在已经很老了 我想我应该就类似的主题发布另一个问题 考虑一个场景 其中 DomainServi
  • Swift:数组内的字典

    Data firstName Foo lastName Bar firstName John lastName Doe 如何使用 swift 数组和字典拥有这种结构 该数据显示数组内的字典 对吧 所以我建议 var persons Arra
  • 从终端中的 url 运行 python 脚本

    我想知道有什么方法可以从终端中的 url www blahblah com script py 执行 python 脚本而不将文件下载到磁盘吗 Thanks 您希望它在客户端上运行 还是在服务器上运行 将返回结果 如果您想在客户端上运行它
  • 使用 REST Api Visual Studio Team Services 更新文件

    有没有办法使用 HTTP 动词更新 Visual Studio 团队服务帐户上项目中的文件内容 类似于在 github 上完成的操作https developer github com v3 repos contents update a
  • 将“最大长度”添加到正则表达式

    如何使用一个属性来扩展已经存在的正则表达式 该属性告诉正则表达式不能超过最大长度 比方说 255 我有以下正则表达式 a zA Z0 9 0 9 1 3 0 9 1 3 0 9 1 3 a zA Z0 9 a zA Z 2 4 0 9 1
  • 导入 Python 模块失败 (http.cookies)

    从我在这里和其他地方的研究中了解到 似乎如果a 模块位于Python搜索路径中或b 包含在Python搜索路径中的包中 则导入命令应该能够查找并导入模块 在下面的交互式脚本中 请注意这两个条件都已满足 http 文件夹包含一个 init p
  • 设置 Linq to NHibernate ADO 命令超时

    如何增加 NHibernate Linq To Sql 中的超时 不是连接超时 而是 ado 命令超时 using ISession session NHibernateHelper OpenSession NHibernateHelper
  • self.window 始终为零

    我目前正在尝试使用窗口控制器显示一个窗口 这就是我所拥有的 NSWindow 子类 import Cocoa import CoreLocation class TweetWindow NSWindow var locationManage
  • 尝试自我更新作曲家时出错

    当我尝试自我更新作曲家时 我收到 权限被拒绝 错误消息 但是当我尝试使用 sudo 执行相同的命令时 我收到错误消息 找不到命令 请帮我 在带有 sudo 的终端中 我输入了composer phar的完整路径 它对我有用 sudo usr
  • GetResponseAsync 不接受取消令牌

    看来 GetResponseAsync 不接受 Async Await 中的cancelToken 所以问题是 如果我需要从响应中收集 Cookie 我该如何取消以下过程 using HttpWebResponse response Htt
  • 如何克服笑话“初始化前无法访问”问题?

    设置 js export default web a 1 mobile b 2 获取设置 js import settings from settings export const getSetting platform gt return
  • 如何获取 Windows 7 上所有服务的列表?

    有没有一种方法可以获取 Win 7 中所有服务的完整列表 而无需安装 Net Framework 4 等 API 我想尽可能本地地获取列表 以管理员身份运行 cmd 控制台 然后运行 sc query type service state
  • 如何在 django admin 中获取对象的历史记录?

    我在我的一个模型中添加了一个新字段 我想用执行特定操作的用户的名称来填充它 此处 验证者 USER 我看到的最简单的方法是从该信息已经存在的历史记录中获取它 例如 从这张图片中 如果用户执行 更改电子邮件 操作 我将获得 管理员 如何获取对
  • 自定义 ImageDataGenerator() 用于 50 万张图像,其中标签和像素位于使用 Keras (或任何其他库)的 2 个单独的 DataFrame 中 [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我有2个独立的DataFrames其中包含大约 50 万张图像的信息 总计达 6 GB 有 4 个 parquet我必须的文件pd c