自定义 ImageDataGenerator() 用于 50 万张图像，其中标签和像素位于使用 Keras （或任何其他库）的 2 个单独的 DataFrame 中 [关闭]

2024-02-08

我有2个独立的DataFrames其中包含大约 50 万张图像的信息，总计达 6+ GB。有 4 个.parquet我必须的文件pd.concat()逐一制作一个新的DataFrameimgs包含的像素137*236，值范围为0-32331和图像的 id 列。

imgs
>>
          image_id     0      1  ...  32330  32331

0       Train_50210  246    253  ...    251    250   
1       Train_50211  250    245  ...    241    244
...                              ...
...                              ...
...                              ...
453651  Train_50210    0    253  ...    251    250   
453652  Train_50211  250    245  ...    241    244

第二csv包含图像的标签以及每个图像所属的三个不同类的值。我将 csv 导入到train.

train
>>

            image_id      class_1   class_2  class_3    

0            Train_5           15         9        5    
1            Train_1          159         0        0
...
...
...
453651  Train_342524             0       15       34
453652    Train_9534            18        0        7

中的行数train等于中的行imgs。这意味着图像的 Y 标签存储在train对应的像素属性在imgs

我尝试使用合并两个数据框pd.merge(imgs,train,on='image_id').drop('image_id') and 花了很长时间，在处理上述两个步骤时，我的内核每次都会死掉。如果有的话请建议一种替代方法

有人可以告诉我如何制作自定义数据生成器吗

1. producing batches of images
2. Augmented images for robustness

using keras或任何其他用于快速处理的库。

或者，有人可以告诉我如何在我的情况下使用 ImageDataGenerator().flow()

这就是我的建议，逐段加载数据帧，不要同时加载整个数据帧，这实际上可能超出你的 RAM，因此会导致内核崩溃。

然后逐行迭代数据帧，获取 32332 列，并将它们重塑为 137x236 的图像，并将它们以适当的名称保存到磁盘的文件夹 train_data/class_number/ 中，然后您可以使用 keras ImageDataGenerator()。 flowfromDirectory()

~~问题是 32332 列对我来说没有意义，如果图像是单通道 137x236 图像，那么列数将为 137*236 = 29972。因此，大约有 2k 列未计算在内。您确定数据的格式吗？~~

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自定义 ImageDataGenerator() 用于 50 万张图像，其中标签和像素位于使用 Keras （或任何其他库）的 2 个单独的 DataFrame 中 [关闭] 的相关文章

多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

Django 验证单元测试

我试图模拟 django contrib auth 验证方法的返回值该方法在视图的登录方法中调用有view py代码 def login request if request method POST username get usern
如何更改 Mac OS X 启动板中显示的 Java 应用程序名称

当我的申请写成Java with SWT运行在OS X 都从下Eclipse和来自jar 它在启动板中的名称为 java 如图所示在我的代码的开头我调用Display setAppName MyApp 并且菜单栏和菜单项中的应用程序名称是
PhoneGap 3.1.0 没有节点/npm 和命令行工具

是否可以在没有节点包的情况下下载和使用 PhoneGap 3 1 0 由于网络连接受到限制从 git hub 命令行安装节点 PhoneGap 模块 Cordova 模块和插件很烦人使用 PhoneGap 2 9 似乎是那么容易和简单
错误：无法构建 gem 本机扩展

gem install unf ext v 0 0 6 localhost workflow boyun ryan007 gem install unf ext v 0 0 6 Building native extensions This
AVMutableComposition 输出冻结在第一个视频的最后一帧

我正在尝试使用 AVMutableCompositions 将多个剪辑视频合并为一个我已经成功完成了这一操作以及旋转和翻译每条指令但是仍然存在一个问题当第一个剪辑完成时输出冻结在最后一帧第一个剪辑的最后一帧仅当有另一个剪辑
使用 VBA 声明相对于活动单元格的范围

我需要声明一个相对于活动单元格的范围对象问题是每次宏运行时我想要选择的行数和列数都不同例如我有两个变量 numRows and numCols 我想选择一个范围其左上角有 ActiveCell 单元格的行为 ActiveCell
使用 Linq to SQL 进行多线程处理

由于原始线程使用 Linq to SQL 进行多线程处理 https stackoverflow com questions 1815537 现在已经很老了我想我应该就类似的主题发布另一个问题考虑一个场景其中 DomainServi
Swift：数组内的字典

Data firstName Foo lastName Bar firstName John lastName Doe 如何使用 swift 数组和字典拥有这种结构该数据显示数组内的字典对吧所以我建议 var persons Arra
从终端中的 url 运行 python 脚本

我想知道有什么方法可以从终端中的 url www blahblah com script py 执行 python 脚本而不将文件下载到磁盘吗 Thanks 您希望它在客户端上运行还是在服务器上运行将返回结果如果您想在客户端上运行它
使用 REST Api Visual Studio Team Services 更新文件

有没有办法使用 HTTP 动词更新 Visual Studio 团队服务帐户上项目中的文件内容类似于在 github 上完成的操作https developer github com v3 repos contents update a
将“最大长度”添加到正则表达式

如何使用一个属性来扩展已经存在的正则表达式该属性告诉正则表达式不能超过最大长度比方说 255 我有以下正则表达式 a zA Z0 9 0 9 1 3 0 9 1 3 0 9 1 3 a zA Z0 9 a zA Z 2 4 0 9 1
导入 Python 模块失败 (http.cookies)

从我在这里和其他地方的研究中了解到似乎如果a 模块位于Python搜索路径中或b 包含在Python搜索路径中的包中则导入命令应该能够查找并导入模块在下面的交互式脚本中请注意这两个条件都已满足 http 文件夹包含一个 init p
设置 Linq to NHibernate ADO 命令超时

如何增加 NHibernate Linq To Sql 中的超时不是连接超时而是 ado 命令超时 using ISession session NHibernateHelper OpenSession NHibernateHelper
self.window 始终为零

我目前正在尝试使用窗口控制器显示一个窗口这就是我所拥有的 NSWindow 子类 import Cocoa import CoreLocation class TweetWindow NSWindow var locationManage
尝试自我更新作曲家时出错

当我尝试自我更新作曲家时我收到权限被拒绝错误消息但是当我尝试使用 sudo 执行相同的命令时我收到错误消息找不到命令请帮我在带有 sudo 的终端中我输入了composer phar的完整路径它对我有用 sudo usr
GetResponseAsync 不接受取消令牌

看来 GetResponseAsync 不接受 Async Await 中的cancelToken 所以问题是如果我需要从响应中收集 Cookie 我该如何取消以下过程 using HttpWebResponse response Htt
如何克服笑话“初始化前无法访问”问题？

设置 js export default web a 1 mobile b 2 获取设置 js import settings from settings export const getSetting platform gt return
如何获取 Windows 7 上所有服务的列表？

有没有一种方法可以获取 Win 7 中所有服务的完整列表而无需安装 Net Framework 4 等 API 我想尽可能本地地获取列表以管理员身份运行 cmd 控制台然后运行 sc query type service state
如何在 django admin 中获取对象的历史记录？

我在我的一个模型中添加了一个新字段我想用执行特定操作的用户的名称来填充它此处验证者 USER 我看到的最简单的方法是从该信息已经存在的历史记录中获取它例如从这张图片中如果用户执行更改电子邮件操作我将获得管理员如何获取对
自定义 ImageDataGenerator() 用于 50 万张图像，其中标签和像素位于使用 Keras （或任何其他库）的 2 个单独的 DataFrame 中 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有2个独立的DataFrames其中包含大约 50 万张图像的信息总计达 6 GB 有 4 个 parquet我必须的文件pd c

自定义 ImageDataGenerator() 用于 50 万张图像，其中标签和像素位于使用 Keras （或任何其他库）的 2 个单独的 DataFrame 中 [关闭]

自定义 ImageDataGenerator() 用于 50 万张图像，其中标签和像素位于使用 Keras （或任何其他库）的 2 个单独的 DataFrame 中 [关闭] 的相关文章

随机推荐

热门标签