Python 中带有大稀疏矩阵的 kNN

2024-04-26

我有两个大的稀疏矩阵：

In [3]: trainX
Out[3]: 
<6034195x755258 sparse matrix of type '<type 'numpy.float64'>'
        with 286674296 stored elements in Compressed Sparse Row format>

In [4]: testX
Out[4]: 
<2013337x755258 sparse matrix of type '<type 'numpy.float64'>'
        with 95423596 stored elements in Compressed Sparse Row format>

总共需要大约 5 GB RAM 来加载。请注意，这些矩阵高度稀疏（占用 0.0062%）。

对于中的每一行testX,我想找到the最近邻在trainX并返回其相应的标签，在trainY. trainY是一个长度相同的列表trainX并且有很多很多课程。（一个类由 1-5 个单独的标签组成，每个标签是 20,000 个标签之一，但类的数量与我现在想做的事情无关。）

我在用sklearn的 KNN 算法可以做到这一点：

from sklearn import neighbors

clf = neighbors.KNeighborsClassifier(n_neighbors=1)
clf.fit(trainX, trainY)
clf.predict(testX[0])

甚至预测 1 项testX需要一段时间（即大约 30-60 秒，但如果乘以 200 万，则几乎不可能）。我的 16GB RAM 笔记本电脑开始进行一些交换，但确实能够完成 1 个项目testX.

我的问题是，我该如何做才能在合理的时间内完成？比如说在大型 EC2 实例上住一晚？只要有更多的内存并防止交换速度就足够了（我的猜测是不会）。也许我可以以某种方式利用稀疏性来加速计算？

谢谢。

经典的 kNN 数据结构，例如中使用的 KD 树sklearn当数据维度增加时变得非常慢。对于非常高维的问题，建议切换算法类别并使用近似最近邻 (ANN) 方法，该方法sklearn不幸的是，似乎缺乏。请参阅下面的链接，了解有关算法和理论的论文，为什么近似最近邻在这些情况下要快得多。

C++ 世界中著名的 ANN 库，广泛用于计算机视觉中的特征描述符空间中的最近邻，是FLANN http://www.cs.ubc.ca/research/flann/。主页说它包含 Python 绑定（当时我从未使用过）。
另一种流行的选择是ANN http://www.cs.umd.edu/~mount/ANN/带有 Python 包装器的库here http://scikits.appspot.com/ann，虽然目前较新的FLANN似乎更受欢迎。
也可以看看这个答案 https://stackoverflow.com/questions/5565935/k-nearest-neighbour-in-python（但有些链接已失效）。

一个警告：你的数据似乎是very高维 - 我不知道这些库如何为您执行。他们还是应该打败sklearn.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 中带有大稀疏矩阵的 kNN 的相关文章

CVXPY 二次规划； ArpackNoConvergence 错误

我尝试使用 Python 包 CVXPY 来解决第一种形式的凸二次规划问题 https www cvxpy org examples basic quadratic program html https www cvxpy org exam
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
如何忽略传递给函数的意外关键字参数？

假设我有一些功能 f def f a None print a 现在如果我有一本字典比如dct a Foo 我可以打电话f dct 并得到结果Foo打印但是假设我有一本字典dct2 a Foo b Bar 如果我打电话f dct2
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1

随机推荐

当 IDENTITY_INSERT 设置为 OFF 时，无法为标识列插入显式值。（实体框架核心）

当我尝试将新实体添加到数据库中时出现此错误实体名称是DestuffedContainer 该实体及相关实体的定义如下去填充容器 Table DestuffedContainer public class DestuffedContai
允许用户通过点击来选择 UIPickerView 行

我正在尝试使用 UIPicker 视图其行为与 iPhone 代码示例中通常看到的行为有所不同我想要做的是允许用户滚动选择器内容但不自动选择选择器的行使用选择器委托中的 didSelectRow 方法相反我想允许用户触摸选择器的
找不到 project.assets.json - TFS 构建服务器，没有互联网

我们正处于从 VS2013 15 TFS2013 过渡到 VS2017 TFS2017 现场 TFS 而不是 VSTS 的过程中第一个测试解决方案是基于 dotNet Core 1 1 的解决方案多项目 Web 服务该解决方案在原始开
为什么我需要在核心数据项目中使用原始访问器方法？

为什么我需要在核心数据项目中使用原始访问器方法我正在阅读有关核心数据的内容并注意以下内容默认情况下 Core Data 动态地创建高效的公共和原始的获取和设置访问器方法建模属性属性和管理对象的关系课程例如给定一个实体属
如何将 Exif 长/纬度转换为实际值？

我正在尝试从我的一些图片中获取 Exif 数据这些是我收到的纬度和经度值有人可以帮助我并告诉我这些数字的含义吗 DEBUG lat 30 1 12 1 34 1 7588 纬度 DEBUG long 81 1 22 1 41 1 758
如何使用 FormControl 在 Angular 中为 Form 设置值

div class form group div
Symfony 2：添加自定义表单元素，而不是在实体中

我与 Symfony2 合作我想创建一个注册表我不想使用 FOSUserBundle 因此我创建一个实体帐户包含字段用户名密码电子邮件并创建表单 account new Account form this gt create
无论浏览器缩放比例如何，如何保持元素对齐？

我有一个绘制网格的页面如下所示它通过使用绝对定位的 div 来实现这一点每个网格的宽度为 237x237 像素因此第一个网格将放置在顶部 0 左 0 第二个网格将放置在顶部 0 左 237px 第三个网格将放置在顶部 0 左 4
关闭终端后保持express进程存活

我试图在关闭终端后保持进程正常运行是一个带有express的node js项目基本上对于其他进程我通过以下方式保持进程处于活动状态 node server js 我这样就可以完成 SSH 连接并关闭控制台但对于 Express 我
Python / Pandas / Numpy - 直接计算两个日期之间的工作日数（不包括假期）

有没有比下面更好更直接的方法来计算这个 1 Set up the start and end date for which you want to calculate the number of business days excludi
html / javascript / php 中 json 响应的折线图

我正在尝试创建一个单线图html javascript 中的 json 响应 sql 我试图创建的是一个图表其中只有onetag name 行在以下情况下 phone 4 此行应表示所有 json 字符串的所有值和日期时间 JSON 响
保持轮播中的图像长宽比

我正在使用 Bootstrap 创建轮播我有大图像因此当屏幕小于图像时不会保留比例我怎样才能改变这一点这是我的代码 carousel item height 500px carousel img position absolute
如何通过 Python/C API 将 Python 实例传递给 C++

我通过使用 SWIG 2 0 包装接口来使用 Python 2 7 扩展我的库并且有一个我想在其中创建访问者的图形对象在 C 中接口如下所示 struct Visitor virtual void OnStateBegin 0 vir
对 pickle.dump 中的“OSError: [Errno 22] Invalid argument”有什么想法吗？

下面是我的代码在此代码中我尝试将 p 文件拆分并规范化为具有不同规范的文件然而似乎分割正在工作但我无法使用 pickle dump 将它们保存到 p 文件中对于这个错误有什么建议吗 import numpy as np impo
嵌套和分段的脆皮布局

TLDR 问题如何使用分段不确定这是否被视为内联布局和多个模型有些相关有些不相关制作一个脆脆的表单我正在尝试理解 Django 中的几件事表单表单集嵌套表单和脆皮我已经研究了一段时间了感觉我已经很接近了只是需要有
Java String.format() 与 HALF_EVEN 舍入

我想用String format 将一些 BigDecimal 格式化为字符串的一部分 Example String getPrice String pattern BigDecimal price basePrice multiply B
在 Google App Engine 中，当我将文件写入 blobstore 时，如何减少内存消耗而不超过软内存限制？

我正在使用 blobstore 来备份和恢复 csv 格式的实体这个过程对于我所有的小型模型来说都运行良好然而一旦我开始处理具有超过 2K 实体的模型我就超出了软内存限制我一次只获取 50 个实体然后将结果写入 blobstor
使用 lapply 和 get 时的 data.table 列顺序

有人可以帮助我理解为什么下面使用和不使用 get 的两个版本的 lapply 操作不会产生相同的结果吗当使用 get 时结果列会混淆 dt lt data table v1 c 1 2 v2 c 3 4 type c A B v1 v2
如何在 yii 模块中添加脚本和样式表

我是 yii 的新手我刚刚在 yii 中创建了一个模块文件结构如下 yii protected modules admin controller model view layout main php css style css imag
Python 中带有大稀疏矩阵的 kNN

我有两个大的稀疏矩阵 In 3 trainX Out 3 lt 6034195x755258 sparse matrix of type

Python 中带有大稀疏矩阵的 kNN

Python 中带有大稀疏矩阵的 kNN 的相关文章

随机推荐

热门标签