python / scikit-learn 中距离计算的稀疏实现

2023-12-06

我有一个 svmlight 格式的大型(100K x 30K)且(非常)稀疏的数据集,加载如下:

import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist, squareform
from sklearn.datasets import load_svmlight_file

X,Y = load_svmlight_file("somefile_svm.txt")

返回一个稀疏 scipy 数组 X

我只需要计算所有训练点的成对距离:

D = pdist(X)

不幸的是,scipy.spatial.distance 中的距离计算实现仅适用于密集矩阵。由于数据集的大小,无法使用 pdist 作为

D = pdist(X.todense())

任何有关此问题的稀疏矩阵距离计算实现或解决方法的指针都将不胜感激。

非常感谢


In scikit-learn有一个sklearn.metrics.euclidean_distances适用于稀疏矩阵和密集 numpy 数组的函数。请参阅参考文档.

然而,稀疏矩阵尚未实现非欧几里德距离。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python / scikit-learn 中距离计算的稀疏实现 的相关文章

  • 如何使用 conda 在一行中安装多个包?

    我需要使用 conda 安装以下多个软件包 我不确定 conda forge 是什么 有些使用 conda forge 有些不使用它 是否可以将它们安装成一行而不需要一一安装 谢谢 conda install c conda forge d
  • 以矢量化方式在另一个 DataFrame 中查找包含值子集的行

    如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
  • matplotlib 中的 R 风格数据轴缓冲区

    R 绘图自动设置 x 和 y 限制 以在数据和轴之间留出一些空间 我想知道 matplotlib 是否有办法自动执行相同的操作 如果没有 是否有一个好的公式或 经验法则 来说明 R 如何设置其轴限制 在 matplotlib 中 您可以通过
  • 神经网络不能立即重现?

    通过使用反向传播导数 弹性 的前馈神经网络中的随机权重初始化 误差图上的初始位置位于某个随机谷的顶部 该随机谷可能是也可能不是局部最小值 可以使用方法来克服局部最小值 但假设这些方法没有被使用 或者在给定的地形上不能很好地工作 那么神经网络
  • NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

    我想知道使用是否有什么区别 优点 缺点 toarray vs todense 在稀疏 NumPy 数组上 例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
  • 张量流和线程

    下面是来自 Tensorflow 网站的简单 mnist 教程 即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
  • 神经网络中的时间序列提前预测(N点提前预测)大规模迭代训练

    N 90 使用神经网络进行提前预测 我试图预测提前 3 分钟 即提前 180 点 因为我将时间序列数据压缩为每 2 个点的平均值为 1 所以我必须预测 N 90 超前预测 我的时间序列数据以秒为单位给出 值在 30 90 之间 它们通常从
  • Python——捕获异常的效率[重复]

    这个问题在这里已经有答案了 可能的重复 Python 常见问题解答 异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
  • 如何使用 PyMongo 在重复键错误后继续插入

    如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作 如果我错了 请随时纠正我 但是 如果我有一个文档列表并想将它们全
  • 如何将类添加到 LinkML 中的 SchemaDefinition?

    中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
  • 在 iPython/pandas 中绘制多条线会生成多个图

    我试图了解 matplotlib 的状态机模型 但在尝试在单个图上绘制多条线时遇到错误 据我了解 以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
  • 将列表中的 None 替换为最左边的非 none 值

    Given a None 1 2 3 None 4 None None I d like a None 1 2 3 3 4 4 4 目前我已经用以下方法强制它 def replaceNoneWithLeftmost val last Non
  • Jupyter Notebook 中的深色模式绘图 - Python

    我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题 我注意到我的绘图不是处于黑暗模式 并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
  • 如何分析组合的 python 和 c 代码

    我有一个由多个 python 脚本组成的应用程序 其中一些脚本正在调用 C 代码 该应用程序现在的运行速度比以前慢得多 因此我想对其进行分析以查看问题所在 是否有工具 软件包或只是一种分析此类应用程序的方法 有一个工具可以将 python
  • 线性同余生成器 - 如何选择种子和统计检验

    我需要做一个线性同余生成器 它将成功通过所选的统计测试 我的问题是 如何正确选择发电机的数字以及 我应该选择哪些统计检验 我想 均匀性的卡方频率测试 每代收集10 000个号码的方法 将 0 1 细分为10个相等的细分 柯尔莫哥洛夫 斯米尔
  • 根据列索引重命名 Dataframe 列

    是否有内置函数可以按索引重命名 pandas 数据框 我以为我知道列标题的名称 但事实证明第二列中有一些十六进制字符 根据我接收数据的方式 我将来可能会在第 2 列中遇到这个问题 因此我无法将这些特定的十六进制字符硬编码到 datafram
  • 在 scipy 中创建新的发行版

    我试图根据我拥有的一些数据创建一个分布 然后从该分布中随机抽取 这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
  • Python 导入非常慢 - Anaconda python 2.7

    我的 python import 语句变得非常慢 我使用 Anaconda 包在本地运行 python 2 7 导入模块后 我编写的代码运行得非常快 似乎只是导入需要很长时间 例如 我使用以下代码运行了一个 tester py 文件 imp
  • 在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

    我在使用 PyTables 存储 numpy csr matrix 时遇到问题 我收到此错误 TypeError objects of type csr matrix are not supported in this context so
  • 使用 SERVER_NAME 时出现 Flask 404

    在我的 Flask 配置中 我将 SERVER NAME 设置为 app example com 之类的域 我这样做是因为我需要使用url for with external网址 如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

  • O(N) 中直到 N 为止的数字的约数计数?

    因此 我们可以使用 sieve 在 O NlogN 算法中计算从 1 到 N 的每个数字的约数 int n cin gt gt n for int i 1 i lt n i for int j i j lt n j i cnt j here
  • CMake将不同子目录中的静态库链接到一个静态库

    我使用CMake构建了一个由多个嵌套静态库组成的项目 下图显示了类似但简单的结构 TestProject CMakeLists txt Main cpp level2 level2 cpp level2 h CMakeLists txt l
  • 需求.txt 与 setup.py

    我开始使用 Python 我已经添加requirements txt and setup py到我的项目 但是 我仍然对这两个文件的用途感到困惑 我读过setup py是为可重新分发的东西而设计的requirements txt是为不可再分
  • 用 C++ 以编程方式打开文档

    我有一个用 C 编写的控制台程序 现在 每当程序用户在控制台中输入 手册 时 我想打开一个手册文档 txt 或 pdf 格式 我怎样才能做到这一点 任何教程的链接都会有帮助 谢谢 尝试编译这段代码 Open cpp to Open exe然
  • 使用递归查找所有索引

    我必须编写一个程序来查找列表或字符串中特定元素的所有索引值 我have to使用递归 我的函数只能接受两个参数 我的问题是我的程序只找到第一个索引然后停止 我该如何更改它以满足我的要求 My code def find all L v re
  • 在 Android 中打开 pdf 时出现问题:文件路径无效

    我需要从我的 Android 应用程序打开一个 pdf 文件 我将 pdf 保存在应用程序包文件夹 data data com app example files 中 我已经在 android 模拟器中安装了 adobe reader 应用
  • Highcharts 中的径向饼图数据标签

    如何将数据标签置于饼图楔形 内部 的中心并与饼图半径对齐 而不是水平或垂直对齐 这是我所追求的图像 如果不是开箱即用的功能 也许有人有一个插件 或者甚至一些实验代码也会有用 Highcharts 不提供在饼图中自动旋转数据标签的选项 您可以
  • 构建 android 项目时出现 CXX1405 cmake 异常

    当我构建项目时出现错误 如下所示 我尝试了很多事情但从未成功 我使用的是 m1 MacBook 这与此错误有关吗 CXX1405 构建 Json 时出现异常启动进程 命令 Users serhat Library Android sdk c
  • 以编程方式创建扩展的 UItableViewCell

    我有一个 tableviewcell 我想在点击时展开和折叠 我找到的所有示例都是故事板基础 我正在尝试以编程方式执行此操作 我最初的想法是创建一个子视图并将其限制到内容视图 但是当我使用以下命令调整单元格的高度时heightForRowA
  • 如何从对于内存来说太大的文件构建(或预先计算)直方图

    python 是否有一个图形库不需要将所有原始数据点存储为numpy数组或列表以绘制直方图 我有一个数据集对于内存来说太大 并且我不想使用子采样来减少数据大小 我正在寻找的是一个可以获取生成器输出的库 从文件生成的每个数据点 作为float
  • 在 Mac 上的 XAMPP 上安装 PHP 7.0 国际化扩展 (Intl)

    我按照此处概述的说明进行操作 在 Mac 上的 XAMPP 上安装 PHP 国际化扩展 Intl 运行 sudo pecl install intl 从地窖中选择了正确的文件 然后发生了这个错误 private tmp pear temp
  • 是否有 CheckStyle 规则强制 if else 关键字位于 if/else 梯形图中的同一行?

    基于这个问题看来 CheckStyle 的默认模板将允许 if else 梯子将if and else有换行符 意思是我愿意this被标记为违规的代码 if true System out println 20 else if true S
  • 按字体计算 Microsoft Word 文档中的字数?

    我有一个包含代码示例的大型文档 我想知道字体 Calibri Body 中所有文本的字数 无论大小如何 我想忽略 Consolas 等 我有一个按斜体计数的宏 作为示例发布 但无法运行它 Sub IgnoreItalics Dim lngW
  • R Shiny 观察事件问题

    当在数据表中选择行并且有人按下 删除行 开关时 我试图从数据框中删除行 input click rows selected 给出所选行的 id 我使用observeEvent和observe似乎有问题 因为代码在我第一次轻按开关时删除了选定
  • Facebook 分享/评论无法正常工作

    在我的页面中 我添加了 Facebook 评论和分享按钮 一切都是按照他们的指示完成的 所以 我已经包含了加载脚本 div div
  • Facelets:使用 ui:param 将 bean 名称传递给操作属性

    由于某些自定义组件在其属性中需要 bean 名称 而不是 bean 实例 因此我需要在页面之间传递实际的 bean 名称 由于 bean 本身也被非自定义组件使用 我想避免使用额外的ui param 就像这里描述的那样在 中传递操作 因为它
  • 奇怪 - mysql 的 sql::SQLException 没有被它的类型捕获,而是被捕获为 std::exception 并成功地返回

    我正在使用 mysql c 连接器和这个 有点简化的 代码 try statement gt setString 1 word statement gt executeUpdate catch sql SQLException e I do
  • 如何以delphi形式使用Gif动画

    我认为 gif 动画图像没有原生支持 怎样才是最好的方法呢 任何允许这样做的免费组件 我正在考虑使用 TImage 和 ImageList Timer 但我需要将 gif 的每一帧导出到单独的 bmp 文件 在现代 Delphi 中这非常简
  • 使用 JSON 填充图表时 Google 图表中的工具提示

    我目前正在使用 JSON 填充我的 Google 图表 但我还需要自定义工具提示 目前我的 JSON 如下所示 cols id label date type string id label price type number rows c
  • python / scikit-learn 中距离计算的稀疏实现

    我有一个 svmlight 格式的大型 100K x 30K 且 非常 稀疏的数据集 加载如下 import numpy as np from scipy cluster vq import kmeans2 from scipy spati