Python 使 UMAP 更快（呃）

2024-04-25

我正在使用 UMAP（https://umap-learn.readthedocs.io/en/latest/# https://umap-learn.readthedocs.io/en/latest/#）以减少数据的维度。我的数据集包含 4700 个样本，每个样本有 120 万个特征（我想减少数量）。然而，尽管使用 32 个 CPU 和 120GB RAM，这仍然需要相当长的时间。特别是嵌入的构建速度很慢，并且详细输出在过去 3.5 小时内没有变化：

UMAP(dens_frac=0.0, dens_lambda=0.0, low_memory=False, n_neighbors=10,
     verbose=True)
Construct fuzzy simplicial set
Mon Jul  5 09:43:28 2021 Finding Nearest Neighbors
Mon Jul  5 09:43:28 2021 Building RP forest with 59 trees
Mon Jul  5 10:06:10 2021 metric NN descent for 20 iterations
     1  /  20
     2  /  20
     3  /  20
     4  /  20
     5  /  20
    Stopping threshold met -- exiting after 5 iterations
Mon Jul  5 10:12:14 2021 Finished Nearest Neighbor Search
Mon Jul  5 10:12:25 2021 Construct embedding

有什么方法可以让这个过程更快。我已经在使用稀疏矩阵（scipy.sparse.lil_matrix），如下所述：https://umap-learn.readthedocs.io/en/latest/sparse.html https://umap-learn.readthedocs.io/en/latest/sparse.html。另外，我还安装了 pynndescent （如下所述：https://github.com/lmcinnes/umap/issues/416 https://github.com/lmcinnes/umap/issues/416）。我的代码如下：

from scipy.sparse import lil_matrix
import numpy as np
import umap.umap_ as umap

term_dok_matrix = np.load('term_dok_matrix.npy')
term_dok_mat_lil = lil_matrix(term_dok_matrix, dtype=np.float32)

test = umap.UMAP(a=None, angular_rp_forest=False, b=None,
     force_approximation_algorithm=False, init='spectral', learning_rate=1.0,
     local_connectivity=1.0, low_memory=False, metric='euclidean',
     metric_kwds=None, n_neighbors=10, min_dist=0.1, n_components=2, n_epochs=None, 
     negative_sample_rate=5, output_metric='euclidean',
     output_metric_kwds=None, random_state=None, repulsion_strength=1.0,
     set_op_mix_ratio=1.0, spread=1.0, target_metric='categorical',
     target_metric_kwds=None, target_n_neighbors=-1, target_weight=0.5,
     transform_queue_size=4.0, unique=False, verbose=True).fit_transform(term_dok_mat_lil)

有什么技巧或想法可以使计算更快吗？我可以更改一些参数吗？我的矩阵仅由零和一组成（这意味着我的矩阵中的所有非零条目都是一）是否有帮助？

与1.2million特征和只有 4700 个样本，你最好预先计算完整的距离矩阵并将其传递给metric="precomputed"。目前，它正在花费大量工作来计算这 120 万个长向量的最近邻。单纯用蛮力会好很多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 使 UMAP 更快（呃）的相关文章

python 线程是如何工作的？

我想知道 python 线程是并发运行还是并行运行例如如果我有两个任务并在两个线程中运行它们它们是同时运行还是计划同时运行我知道GIL并且线程仅使用一个 CPU 核心这是一个复杂的问题需要大量解释我将坚持使用 CPython
Python-从Excel文件读取时间时未获得正确的日期时间

我有一个 Excel 文件其中有 3 列作为日期时间或日期或时间字段我正在通过阅读它xlrd包裹我有时间milliseconds我想当我尝试将其转换回日期时间时我得到了错误的结果我尝试将文件转换为csv以及这也没有帮助我得到了我
主键删除需要多长时间？

画一个简单的表结构 Table1 Table2 ID lt ID Name gt Table1ID Name Table1有几百万行例如 350 万行我通过主键发出删除 DELETE FROM Table1 WHERE ID 100 中
将numpy字符串数组转换为int数组[重复]

这个问题在这里已经有答案了我有一个 numpy ndarray a 0 99 0 56 0 56 2 02 0 96 如何将其转换为int 输出 a 0 99 0 0 0 56 0 56 2 02 0 96 我想要 0 0 代替空白 im
Python 中意外的缩进错误[重复]

这个问题在这里已经有答案了我有一段简单的代码我不明白我的错误来自哪里解析器在第 5 行 if 语句上用意外的缩进向我咆哮有人看到这里的问题吗我不 def gen fibs a b 0 1 while True a b b a b
使用 python 在网络上部署 matlab 应用程序

您好我想使用 python 在网络上部署 matlab 应用程序有没有办法做到这一点我已按照数学工作网站上的文档将我的应用程序转换为 jar 文件 java 类有人能指出我前进的正确方向吗事实上您的 Matlab 代码打包为 J
使用光栅重新投影 .tiff 文件：CRSError：无法解析 WKT。 OGR 错误代码 6

我正在尝试使用以下代码将 tiff 文件重新投影到 EPSG 32638 我安装过的版本光栅版本 1 1 5 Numpy 版本 1 18 1 这是我正在使用的代码 https rasterio readthedocs io en late
在Python中修改大型文本文件最后一行的最有效方法

我需要更新几个超过 2GB 的文件的最后一行这些文件由无法读取的文本行组成readlines 目前它可以通过逐行循环来正常工作但是我想知道是否有任何编译库可以更有效地实现这一点谢谢目前的方法 myfile open large
单击按钮时执行 python 脚本

我有一个带有一个按钮的 HTML 页面当我们单击该按钮时我需要执行一个 python 脚本并返回到包含结果的同一 HTML 页面所以我需要对返回值进行一些验证并执行一些操作这是我的代码 HTML
用python计算网页大小

我将如何使用 Python 计算网页 url 的大小我尝试了 urllib2 并获取内容长度标头但它不存在 import urllib2 url http www google com r urllib2 urlopen url Not
Python NET 调用具有返回值和输出参数的 C# 方法

我有以下静态 C 方法 public static bool TryParse string s out double result 我想使用 Python NET 包从 Python 调用它 import clr from System
dataframe KeyError，尽管它存在

鉴于数据 rows x 1 y 2 z 3 x 2 y 2 z 3 如果我尝试构建这样的数据框 frame pd DataFrame from records rows index x 效果很好然而这 frame pd DataFram
如何找到运行代码的 conda 环境的名称？

我正在寻找一种好方法来从正在运行的代码或交互式 python 实例中找出我所在的 conda 环境的名称用例是我通过 miniconda 安装运行带有 Python 2 和 Python 3 内核的 Jupyter 笔记本默认环境是Py
如何在 Python 中小写字符串？

有没有办法将字符串转换为小写 Kilometers kilometers See How to change a string into uppercase https stackoverflow com questions 9257094
如何让 list_blobs 表现得像 gsutil

我只想获得 GCS 上假文件夹结构的第一级如果我运行例如 gsutil ls gs gcp public data sentinel 2 tiles 我得到一个这样的列表 gs gcp public data sentinel 2 til
如何编辑多个 Pandas DataFrame 浮点列的字符串格式？

我有一个pd DataFrame浮点数 import numpy as np import pandas as pd pd DataFrame np random rand 5 5 0 1 2 3 4 0 0 795329 0 125540
PHP include()：文件大小和性能

一个没有经验的PHP问题我有一个 PHP 脚本文件我需要在不同页面的很多地方多次包含该文件我可以选择将包含的文件分解为几个较小的文件并根据需要包含这些文件或者我可以将它们全部保存在一个 PHP 文件中我想知道在这种情况下使用较
Python-打印字符串一定次数[重复]

这个问题在这里已经有答案了可能的重复 Python 多次打印 https stackoverflow com questions 6293421 python printing multiple times 我想知道如何打印 String
从tensorflow 2.0 beta中的tf.data.Dataset检索下一个元素

在tensorflow 2 0 beta之前要从tf data Dataset中检索第一个元素我们可以使用迭代器如下所示 usr bin python import tensorflow as tf train dataset tf
使用按钮从 Django 项目根下载文件

So this is the webpage I m creating atm with Django 1 8 希望用户能够将数据导出为 csv 当用户在框中写下 Reddit 子版块名称按下获取数据按钮会发生什么它创建了一个

随机推荐

Linux 中的 C 聊天室 / Socket 编程

我有一个简单的服务器和客户端 C 代码来使用线程 pthread 库为多客户端创建一个聊天室我一直遇到的问题是我无法想出一种方法让服务器将客户端通过套接字发送到所有其他客户端的每条消息写入我在这里读过其他类似的帖子但很无奈请帮助
使用 JavaScript/AngularJS 将数组转换为对象

我需要将父数组内的数组转换为对象以匹配我的数据库模型数据我有这样的数组 emails Array 2 0 email protected cdn cgi l email protection 1 email protected cdn c
多个挑选事件干扰

我有几个数据系列分散在一个图中并且希望能够为它们切换注释问题是有时会触发两个拾取事件当用户单击注释和点内的点时注释拾取事件会清除注释但点拾取事件会将其放回原处因此效果是切换不起作用 df pd DataFrame a n
R 使用值列表作为色标

我想将变量的值表示为 R 中散点中的点的颜色 x lt rnorm 100 5 y lt rnorm 100 5 plot x y 在这里我想使用一个变量作为着色的输入但如果我尝试 plot x y col x 我得到了一些奇怪的东西
递归算法无法在指定时间内完成测试

我正在进行一项测试需要二进制断层扫描算法提供了一组 38 个测试值来测试正确性但完成所有测试也有 1 CPU 秒的时间限制问题如下如果存在 m n 矩阵 A 且每个元素为 0 或 1 则输出 Yes 使得否则输出否对于每个测
在以下任何来源中均未找到插件 [id: 'org.jetbrains.kotlin.jvm', 版本: '1.2.71']

我全新安装了 IntelliJ 使用以下设置创建了一个新的 kotlin gradle 项目这会生成以下 build gradle kts 完全相同的文件在我的 Windows 计算机上运行 import org jetbrains ko
创建可以传递参数而无需创建新组件的函数

我的问题与这个问题有关React用于渲染函数中的绑定函数以下不是好的做法 render div 因为每次重新渲染都会向页面添加一个新功能最终导致浏览器内存不足解决方案是这样做 constructor this callFunction
Google Chrome 中 array.splice() 的时间复杂度是多少？

如果我使用 splice 从数组中删除一个元素如下所示 arr splice i 1 这会是O n 在最坏的情况下因为它会移动 i 之后的所有元素或者它是常数时间下面有一些链表魔法最坏的情况下should be O n 复制所有n
.NET：属性何时实例化？我可以获得它们所修饰的类型的引用吗？

关于属性的两个问题属性类什么时候实例化当第一次访问类型时还是在开始执行时从属性类中我可以找出该属性是为哪种类型实例化的吗我的想法是我想列出程序集中应用了我的属性的所有类的列表我当然可以通过反射和检查来迭代所有这些但如果该属
r中的模糊字符串匹配

我有 2 个数据集每个数据集超过 100K 行我想根据匹配一列电影标题的模糊字符串以及使用发布日期来合并它们我提供了下面两个数据集中的样本数据集 1 itemid userid rating time title release
更改 UISearchBar 的大小

无法找到答案也无法做我想做的事 CGSize searchBarSize self searchDisplayController searchBar frame size searchBarSize width
如何使用 URLSession 从 url 获取 JSON 数据？

我正在开发一个 iOS 应用程序我必须从中获取数据this url https dl dropboxusercontent com s 2iodh4vg0eortkl facts json 我可以看到这个 url 包含 JSON 数据所
Android FloatingActionButton 带有片段和底部导航栏

我正在创建一个具有以下结构的 Android 应用程序主要活动有一个底部导航栏可在 3 个不同的片段之间切换其中 2 个片段将显示项目列表并使用浮动操作按钮 FAB 添加新项目第三个片段将显示不同的内容不需要 FAB 基于此 F
使用 gradle 进行简单的 protobuf 编译

如果您正在寻找示例 gradle protobuf 项目请查看here https github com google protobuf gradle plugin tree master examples exampleProject
“没有路线匹配”错误？

我是新的 Rspec 刚刚开始在 Rails 3 上生成一个新的控制器它默认生成一些 Rspec 测试我有一个关于如何让它们通过的问题就目前情况而言我在我的终端中看到了这个测试 1 BuildingsController GET s
将数据写入文本文件

我有一个简单的程序将 7 个数字中的 6 个写入文本文件从逻辑上讲一切似乎都很好但是数字并未按预期写入文件 Random random new Random Console WriteLine Please enter the n
将 json 数据 objectForKey 分配给类的属性的替代语法

我可以将最后三行代码写在一行中吗 NSArray latestLoans self JsonData objectForKey loans for id object in latestLoans NSDictionary loan obj
使用 Testcafe 访问 OpenVPN 限制的网站

有一个网站只有在运行 OpenVPN Connect 2 1 3 111 配置文件时才能访问我需要使用 Testcafe 访问该网站但到目前为止我还没有找到任何有关使用 Testcafe 与 VPN 的文档有什么我可能错过的吗测试通
git clone 永远挂在 github 上

当我按照 github 中的第 5 点测试所有内容时guide http help github com linux set up git ssh 命令也永远挂起根据该指南我应该看到一条消息 Github 不提供 shell 访问
Python 使 UMAP 更快（呃）

我正在使用 UMAP https umap learn readthedocs io en latest https umap learn readthedocs io en latest 以减少数据的维度我的数据集包含 4700 个样本

Python 使 UMAP 更快（呃）

Python 使 UMAP 更快（呃） 的相关文章

随机推荐

热门标签

Python 使 UMAP 更快（呃）的相关文章