DBSCAN sklearn 非常慢

2024-01-01

我正在尝试对包含超过 100 万个数据点的数据集进行聚类。一列包含文本，另一列包含与其对应的数值。我面临的问题是它被卡住并且永远不会完成。我尝试过处理大约 100,000 个较小的数据集，它运行得相当快，但当我开始增加数据点时，它开始变慢，对于 100 万个数据点，它永远不会完成并挂起。最初，我认为这可能是因为我有一个用于文本的 tfidf 矩阵，并且有 100 个维度，因此需要很长时间。然后我尝试根据每个数据点的单个值的数量进行聚类，但它仍然没有完成。下面是代码片段。知道我可能做错了什么吗？我见过有人处理更大的数据集并且没有任何问题。

Y=data['amount'].values
Y=Y.reshape(-1,1)
dbscan = DBSCAN(eps=0.3, min_samples= 10, algorithm='kd_tree')
dbscan.fit_predict(Y)
labels = dbscan.labels_
print(labels.size)
clusters = labels.tolist()
#printing the value and its label
for a, b in zip(labels, Y):
    print(a, b)

很可能你的 epsilon 太大了。

如果大多数点都在大多数其他点的 epsilon 范围内，则运行时间将为 O(n²) 的二次方。所以开始small values!

您不能只添加/删除功能而让 epsilon 保持不变。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DBSCAN sklearn 非常慢的相关文章

如何屏蔽 PyTorch 权重参数中的权重？

我正在尝试在 PyTorch 中屏蔽强制为零特定权重值我试图掩盖的权重是这样定义的def init class LSTM MASK nn Module def init self options inp dim super LSTM
如何在 Ubuntu 上安装 Python 模块

我刚刚用Python写了一个函数然后我想将其做成模块并安装在我的 Ubuntu 11 04 上这就是我所做的创建 setup py 和 function py 文件使用 Python2 7 setup py sdist 构建分发文
使用 Django 的 post_save() 信号

我有两张桌子 class Advertisement models Model created at models DateTimeField auto now add True author email models EmailField
如何将条目中的部分文本加粗并更改其背景颜色？

我正在创建一个基于 Tkinter 的 GUI 它有一个 Entry 小部件我想将其文本的一部分加粗并更改其背景颜色但我不知道我该怎么做如果我使用文本小部件我可以只使用标签但看起来它们不能与条目小部件一起使用此代码使用文本小部件
NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
Sorted(key=lambda: ...) 背后的语法[重复]

这个问题在这里已经有答案了我不太明白背后的语法sorted 争论 key lambda variable variable 0 Isn t lambda随意的为什么是variable在看起来像的内容中陈述了两次dict 我认为这里的所有
将一个时间序列插入到 pandas 中的另一个时间序列中

我有一组定期测量的值说 import pandas as pd import numpy as np rng pd date range 2013 01 01 periods 12 freq H data pd Series np ran
当x轴不连续时如何删除冗余日期时间 pandas DatetimeIndex

我想绘制一个 pandas 系列其索引是无数的 DatatimeIndex 我的代码如下 import matplotlib dates as mdates index pd DatetimeIndex 2000 01 01 00 00
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
使用 genfromtxt 导入 numpy 中缺失值的 csv 数据

我有一个 csv 文件看起来像这样实际文件有更多的列和行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 假设文件的名称是info csv如果我尝试使用导入它 data numpy genfromtxt i
Pandas：根据列名进行列的成对乘法

我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
Python 中的这种赋值方式叫什么？ a = b = 真

我知道关于元组拆包 http docs python org tutorial datastructures html tuples and sequences但是当一行中有多个等号时这个赋值被称为什么阿拉a b True 它总是让我有
如何逐像素绘制正方形（Python，PIL）

在空白画布上我想使用 Pillow 逐像素绘制一个正方形我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素但它没有执行任何操作 from PIL import Image def newImg img
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
在谷歌Colab中使用cv2.imshow()

我正在尝试通过输入视频来对视频进行对象检测 cap cv2 VideoCapture video3 mp4 在处理部分之后我想使用实时对象检测来显示视频 while True ret image np cap read Expand di
Google App Engine 中的自定义身份验证

有谁知道或知道我可以在哪里学习如何使用 Python 和 Google App Engine 创建自定义身份验证流程我不想使用 Google 帐户进行身份验证并且希望能够创建自己的用户如果不是专门针对 Google App Engin
使用决策树

我知道 tl dr 我将尝试解释我的问题而不会用大量蹩脚的代码来打扰您我正在做一项学校作业我们有蓝精灵的图片我们必须通过前景背景分析来找到它们我有一个 Java 决策树其中包含所有数据 HSV 直方图 1 一个节点然后尝试找到
如何在SqlAlchemy中执行“左外连接”

我需要执行这个查询 select field11 field12 from Table 1 t1 left outer join Table 2 t2 ON t2 tbl1 id t1 tbl1 id where t2 tbl2 id is
将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA

随机推荐

我需要担心阻塞任务吗？

我需要在多大程度上担心 NET 中的阻塞任务即 NET 任务调度程序如何处理线程池中线程的阻塞和超额订阅例如如果我的任务中有一些 IO 我是否应该始终使用LongRunning暗示或者任务调度程序启发式处理得更好吗在C 中有一个O
实现滑动刷新布局后，回收器视图无法正确滚动

在实现滑动刷新视图之前回收器视图运行顺利但每当我尝试向下滚动回收器视图时滑动刷新都会干扰并阻碍滚动移动这是问题的屏幕截图请注意当回收器视图向下滚动时会出现滑动刷新布局这是我的布局片段
命令行 Java 调试器

有没有好的java命令行调试器我给了 JDB 一个机会但命令行界面很糟糕如果我想更改最后一行并重新执行它我必须重新输入整行点击向上箭头只会给我 A 包类方法名也没有完成 GDB 是一个不错的选择但我不知道如何用它进行远程
R 中的全局变量和局部变量

我是 R 的新手我对 R 中局部变量和全局变量的使用感到很困惑我在互联网上读到一些帖子说如果我使用 or lt 我将在当前环境中分配变量并使用 lt lt 我可以在函数内部访问全局变量然而据我记得在 C 中每当在括号内声明变量
如何将引号传递给javascript函数

我有一个 javascript 函数它接受包含引号的字符串并显示在输入字段中但是这个函数不接受引号后面的字符串 function searchFormatter cellvalue options rowObject return
如何在 JavaScript 中实现类似 Swift 的枚举以及关联值？

Swift 语言拥有出色的枚举支持人们不仅可以用案例定义标准枚举而且案例还可以具有与其关联的可选值例如摘自 Swift 文档 enum Barcode case UPCA Int Int Int Int case QRCode
如何关闭Android Studio 3.0标签？ [复制]

这个问题在这里已经有答案了我刚刚升级到 Android Studio 3 0 我注意到我的代码中到处都是奇怪的标签标签我无法手动删除这些标签因为光标只是跳过它们如何关闭这些标签 Android Studio 具有与 Intelli
有什么方法可以在 Java/Eclipse 中对方法进行分组吗？

我希望能够将类似的方法分组并让它们出现在 Eclipse 的大纲视图中这使得浏览大量代码变得更容易并且更容易找到所需的方法在 Objective C 中有一个可以设置的 pragma mark 命令 java eclipse 有类似
当 KVM-QEMU 打开时，Intel-PT 不记录任何数据包

我尝试在主机上使用 Intel PT 同时在客户机上运行通用软件程序所以我期望主机中运行的 Intel PT 将记录所有相关数据包如 PIP FUP TSC 等以及所有基于 VM 的数据包如 VMCS 我使用以下命令 perf kv
授权请求出现问题

我正在尝试在 Sinch 服务中发出conferenceCallout 请求但我在签名方面遇到问题我粘贴代码
如何获取 Administration_area_level_1、2 等类型的名称

我正在使用谷歌地图 API http code google com apis maps documentation geocoding 我了解如何进行查询并解析返回的 JSON 我想要做的是获取 Administration area l
Flask Google Cloud App Engine：OSError：[Errno 98]地址已在使用中

我正在尝试在谷歌云应用程序引擎上部署烧瓶应用程序它在本地虚拟环境中运行顺利但在云中运行时出现 502 错误现在我尝试使用调试模式和 SSH 进入我的实例在云服务器上调试我的代码使用docker exec it ID bin bas
GAE App Engine Websocket 客户端在 1 小时后断开连接

我有一个简单的 Websocket 服务器部署到 AppEngine 恰好 1 小时后客户端断开连接错误代码为 1006 我相信这是由于 nginx 负载均衡器而发生的我尝试更改 nginx app conf 但没有帮助 proxy s
为什么scala无法推断方法参数的类型

我想知道为什么 scala 不能推断方法参数的类型我可以看到在 haskel 也有类型推断中可以做同样的事情那为什么不选择 scala 呢首先 Scala 中的情况与 Haskell 中的情况有很大不同因为它是一种 OO 语言并
突出显示 amcharts 中的最高点和最低点

有人可以帮助我更改项目符号或使用 amcharts 突出显示最高和最低值吗我正在使用序列图函数突出显示中给出的条件是匹配的但是项目符号没有突出显示到最高点和最低点任何帮助将不胜感激请在下面找到我的代码
!= 检查线程安全吗？

我知道复合操作例如i 不是线程安全的因为它们涉及multiple运营但是检查引用本身是线程安全的操作吗 a a is this thread safe 我尝试对此进行编程并使用多个线程但没有失败我想我无法在我的机器上模拟比赛 EDI
检查 PHP 中的会话是否是新的

我有一个网站需要在每个用户会话中执行一次特定的后端功能因此我希望能够确定任何给定的页面视图是否是给定会话中的第一个根据 PHP 文档会话开始创建一个会话或恢复当前会话通过 GET 或 POST 请求传递的会话标识符或通过曲
使用 php 代理跨域 Ajax GET 请求

在过去的几天里我一直在为这件事烦恼我试图从公共 API 获取跨域 ajax GET 请求但我根本无法让它工作 PHP 我正在使用 Ben Alman 的 ba simple proxy https github com cowboy
Spring boot：@ConfigurationProperties 测试不满足

我在测试执行时遇到此异常 UnsatisfiedDependencyException 创建名为 net gencat transversal espaidoc mongo GridFSTest 的 bean 时出错通过字段 resour
DBSCAN sklearn 非常慢

我正在尝试对包含超过 100 万个数据点的数据集进行聚类一列包含文本另一列包含与其对应的数值我面临的问题是它被卡住并且永远不会完成我尝试过处理大约 100 000 个较小的数据集它运行得相当快但当我开始增加数据点时它开始变慢

DBSCAN sklearn 非常慢

DBSCAN sklearn 非常慢 的相关文章

随机推荐

热门标签

DBSCAN sklearn 非常慢的相关文章