Sklearn.KMeans：如何避免内存或值错误？

2024-03-26

我正在研究图像分类问题，并且正在创建一个词袋模型。为此，我提取了所有图像的 SIFT 描述符，并且必须使用 KMeans 算法来找到用作我的词袋的中心。

这是我拥有的数据：

图片数量：1584
SIFT 描述符的数量（32 个元素的向量）：571685
中心数量：15840

所以我运行了 KMeans 算法来计算我的中心：

dico = pickle.load(open('./dico.bin', 'rb')) # np.shape(dico) = (571685, 32)
k = np.size(os.listdir(img_path)) * 10 # = 1584 * 10

kmeans = KMeans(n_clusters=k, n_init=1, verbose=1).fit(dico)

pickle.dump(kmeans, open('./kmeans.bin', 'wb'))
pickle.dump(kmeans.cluster_centers_, open('./dico_reduit.bin', 'wb'))

使用这段代码，我遇到了内存错误，因为我的笔记本电脑上没有足够的内存（只有 2GB），所以我决定将中心数除以 2，并随机选择一半的 SIFT 描述符。这一次，我得到了Value Error : array is too big.

我该怎么做才能获得相关结果而不出现内存问题？

正如 @sascha 在此评论中所说，我只需使用小批量K均值 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.MiniBatchKMeans.html类来避免这个问题：

dico = pickle.load(open('./dico.bin', 'rb'))

batch_size = np.size(os.listdir(img_path)) * 3
kmeans = MiniBatchKMeans(n_clusters=k, batch_size=batch_size, verbose=1).fit(dico)

pickle.dump(kmeans, open('./minibatchkmeans.bin', 'wb'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

memory

scikitlearn

kmeans

Sklearn.KMeans：如何避免内存或值错误？的相关文章

使用Python的工业视觉相机[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
根据 pandas 中的条件交换列值

我想按条件重新定位列如果国家地区是日本我需要将姓氏和名字反向重新定位 df pd DataFrame France Kylian Mbappe Japan Hiroyuki Tajima Japan Shiji Kagawa Eng
如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
如何在算术表达式的结果上添加 SQLAlchemy 标签？

我如何将这样的东西翻译成 SQLAlchemy select x y as difference 我知道该怎么做 x label foo 但我不确定在哪里放置下面的 label 方法调用 select table c x table c y
Pytest：如何使用从夹具返回的列表来参数化测试？

我想使用由固定装置动态创建的列表来参数化测试如下所示 pytest fixture def my list returning fixture depends on other fixtures return a dynamically
如何从网站中提取冠状病毒病例？

我正在尝试从网站中提取冠状病毒 https www trackcorona live https www trackcorona live 但我得到了一个错误这是我的代码 response requests get https www t
multiprocessing.freeze_support()

为什么多处理模块需要调用特定的function http docs python org dev library multiprocessing html multiprocessing freeze support在被冻结以生成 Wi
使用 Python 中的 IAM 角色访问 AWS API Gateway

我有一个 AWS API 网关我想使用它来保护其安全IAM 角色 http docs aws amazon com apigateway latest developerguide permissions html 我正在寻找一个包来帮助
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
在 Windows 上将 Word2vec 与 Tensorflow 结合使用

In 本教程文件 https github com tensorflow models blob master tutorials embedding word2vec py L45通过 Tensorflow 找到以下行第 45 行来加
如何将同步函数包装在异步协程中？

我在用着aiohttp https github com aio libs aiohttp构建一个 API 服务器将 TCP 请求发送到单独的服务器发送 TCP 请求的模块是同步的对于我来说是一个黑匣子所以我的问题是这些请求阻塞了整
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
如何使用注释和聚合在 Django 的 ORM 中执行此 GROUP BY 查询

我真的不知道如何翻译GROUP BY and HAVING到姜戈的QuerySet annotate and QuerySet aggregate 我正在尝试将这个 SQL 查询转换为 ORM 语言 SELECT EXTRACT year
PermanentTaskFailure：“模块”对象没有属性“迁移”

我在 google appengine 上使用 Nick Johnson 的批量更新库 http blog notdot net 2010 03 Announcing a robust datastore bulk update utili
django如何将字符串转换为模块？

我试图了解 django 的另一个神奇之处它可以将字符串转换为模块 In settings py INSTALLED APPS声明如下 INSTALLED APPS django contrib auth django contrib c
如何表示类的实例与将其作为输入的类之间的关系？

我有一堂课叫House 这个类的实例是house class House def init self height length self height height self length length def housePlan hou
Python“self”关键字[重复]

这个问题在这里已经有答案了我是 Python 新手通常使用 C 最近几天开始使用它在类中是否需要在对该类的数据成员和方法的任何调用前添加前缀因此如果我在该类中调用方法或从该类获取值我需要使用self method or sel
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
Python - 打印漂亮的 XML 为空标签文本创建开始和结束标签

我正在编写一个 python 应用程序它创建一个 ElementTree XML 然后使用 minidom 的 toprettyxml 将其写入文件 final tree minidom parseString ET tostring r
从 Flask 中的 S3 返回 PDF

我正在尝试在 Flask 应用程序的浏览器中返回 PDF 我使用 AWS S3 来存储文件并使用 boto3 作为与 S3 交互的 SDK 到目前为止我的代码是 s3 boto3 resource s3 aws access key id

随机推荐

为什么我的 takeWhile 无法与我的 Stream 配合使用

以下代码打印 1 令人困惑的是如果我删除评论它会返回 4 这正是我所期望的 var max 0 lazy val list Stream Int 1 Stream from 2 list takeWhile x gt max x x l
非常快速的 3D 距离检查？

有没有一种方法可以进行快速而肮脏的 3D 距离检查虽然结果很粗糙但速度非常快我需要进行深度排序我用STLsort像这样 bool sortfunc CBox a CBox b return a gt Get3dDistance Pl
iPhone 音量已更改事件（音量已达到最大）

我在用着 AudioSessionAddPropertyListener kAudioSessionProperty CurrentHardwareOutputVolume audioVolumeChangeListenerCallback
如何按哈希值之一对哈希引用数组进行排序？

首先请原谅我生锈的 Perl 我正在尝试修改 Bugzilla 的 whine pl 以生成按严重性排序的错误列表所以它给了我一个哈希引用数组每个哈希值都包含有关特定错误的大量信息 ID 受让人严重性等我想按严重性对数组进行排序
旧的 Firebase Analytics 事件报告发生了什么？

最近的 Firebase 控制台更新后无法找到按内容类型列出的 select content 事件的报告以及按 item id 找到的选定内容类型的报告我使用这些报告来研究我的应用程序行为方法是记录它们 Analytics logE
仅通过一个 SocketChannel 发送多条消息

读完本教程后 http rox xmlrpc sourceforge net niotut http rox xmlrpc sourceforge net niotut 这是关于编写非阻塞服务器和客户端我阅读了NIO部分跳过了SSL部分
根据帖子内容添加 WordPress 类别

我正在开发一个 Wordpress 网站用户可以登录该网站并发帖我想为他们的帖子添加一些功能基本上我想为用户提供使用保留字符为帖子分配类别的功能因此如果用户发布我正在学习 programming 该帖子将被分配到编程类别在
CSS水平滚动

我正在尝试创建一个 div 包含一系列只能水平滚动的照片它应该看起来像这样LINK http cssdesk com L6Dsa 然而上述只能通过指定宽度来实现 div 其中包含照片因此它们不会自动换行如果我不设置宽度它看起来像
Flask 在哪里寻找图像文件？

我正在使用 Flask 设置本地服务器我当前想要做的就是使用index html 页面中的img 标签显示图像但我不断得到error GET http localhost 5000 ayrton senna movie wallpape
无法解析 Android 上的 MapActivity 类

我有一个包含 11 种不同活动的应用程序这些活动之一是 MapActivity 的扩展它是用于数据可视化的地图要进入此活动用户必须首先完成启动活动然后完成其他 3 个活动启动MapActivity的代码是 Intent i ne
自定义对话框太小

我有一个实现自定义对话框的 Android 活动应用程序运行正常但对话框太小我想显示更大的对话框我怎样才能实现这一点这是我的布局 xml
在 system() 函数中使用变量 C++

string line ifstream myfile aaa txt getline myfile line system curl exe b cookie txt d test line http example com http e
如何清除node js中清除浏览器cookie的req.session？

我在用 express 4 14 0 with express session用于保存用户名用户登录后我会将用户名保存在req session authorizedUser username将其显示在应用程序标题中当浏览器历史记录被清
Vim 中的任务标签

关于任务标签的两个问题 Vim 中还提供哪些其他任务标签例如 TODO 有没有办法像 Eclipse IDE 一样制作自定义任务标签对于自定义标签我在 vimrc 中使用以下内容您应该能够根据您的需要进行调整 if has auto
跨平台上的 AES cbc 填充加密/解密（.net c# 和代号 one bouncy castle）

加密解密不能在跨平台上工作我已使用此链接使用代号一内的充气城堡 AES 密码来加密解密文本 J2ME 中使用 Bouncycastle 进行 AES 加密解密的示例 https stackoverflow com questions
从 C# winforms 应用程序将输出写入控制台[重复]

这个问题在这里已经有答案了可能的重复如何在表单应用程序中显示控制台输出窗口 https stackoverflow com questions 4362111 how do i show console output window i
如何追踪 Ruby 代码中的内存泄漏？

Question 我正在调试 rake 任务中的内存泄漏我想查看以下调用堆栈有生命的物体最初分配这些对象的对象或行是什么 ruby prof 可以做到这一点吗如果没有我应该使用什么工具 Setup Gems 导轨 3 2 16 事
在 Swift 中使用 UIAlertController 发生内存泄漏

我使用这个简单的代码呈现一个简单的 UIViewController IBAction func addNewFeed sender UIBarButtonItem var alertView UIAlertController UIAle
使用 JAR 加载 log4j.properties [重复]

这个问题在这里已经有答案了我有一个包含以下清单的 jar 文件 Manifest Version 1 0 Created By 1 7 0 07 Oracle Corporation Main Class test Main Class
Sklearn.KMeans：如何避免内存或值错误？

我正在研究图像分类问题并且正在创建一个词袋模型为此我提取了所有图像的 SIFT 描述符并且必须使用 KMeans 算法来找到用作我的词袋的中心这是我拥有的数据图片数量 1584 SIFT 描述符的数量 32 个元素的向量 571

Sklearn.KMeans：如何避免内存或值错误？

Sklearn.KMeans：如何避免内存或值错误？ 的相关文章

随机推荐

热门标签

Sklearn.KMeans：如何避免内存或值错误？的相关文章