HDBSCAN Python 选择簇数

2024-03-30

是否可以在Python中的HDBSCAN算法中选择簇的数量？或者唯一的方法是使用输入参数，例如 alpha、min_cluster_size？

Thanks

UPDATE:这是使用 fcluster 和 hdbscan 的代码

import hdbscan
from scipy.cluster.hierarchy import fcluster

clusterer = hdbscan.HDBSCAN()
clusterer.fit(X)
Z = clusterer.single_linkage_tree_.to_numpy()
labels = fcluster(Z, 2, criterion='maxclust')

值得庆幸的是，2020 年 6 月，GitHub 上的一位贡献者 (平面聚类模块 https://github.com/scikit-learn-contrib/hdbscan/pull/398）提供了一个提交，将代码添加到 hdbscan 中，使我们能够选择生成的集群的数量。

为此：

from hdbscan import flat

clusterer = flat.HDBSCAN_flat(train_df, n_clusters, prediction_data=True)
flat.approximate_predict_flat(clusterer, points_to_predict, n_clusters)

您可以在这里找到代码flat.py https://github.com/scikit-learn-contrib/hdbscan/blob/master/hdbscan/flat.py您应该能够使用 approximation_predict_flat 选择测试点的簇数。

另外，还写了一个jupyter笔记本解释如何使用，Here https://github.com/scikit-learn-contrib/hdbscan/blob/master/notebooks/Flat%20clustering.ipynb.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

hierarchicalclustering

HDBSCAN Python 选择簇数的相关文章

在 Python 中，部分函数应用（柯里化）与显式函数定义

在 Python 中以下方式是否被认为是更好的风格根据更一般的可能是内部使用的功能显式定义有用的功能或者使用偏函数应用来显式描述函数柯里化我将通过一个人为的例子来解释我的问题假设编写一个函数 sort by scoring 它
Python OverflowError：数学范围错误[重复]

这个问题在这里已经有答案了当我尝试这个计算时出现溢出错误 output math exp 1391 12694245 100 我知道发生这种情况是因为使用的数字超出了双精度数的范围但有什么方法可以解决这个问题并获得输出值有人可以帮
以 str.format 切片字符串

我想实现以下目标str format x y 1234 5678 print str x 2 str y 2 我能够做到这一点的唯一方法是 print 0 1 format str x 2 str y 2 现在这是一个例子我真正拥有的是
如何将人物传奇带到前台？

我有一系列子图其中每个子图都有一个图例我想在每个子图之外与相邻子图重叠问题在于图例位于其自己的图的顶部但位于相邻图的下方 Legend 不将 zorder 作为参数所以我不知道如何解决这个问题这是我使用过的代码 import
python中嵌套字典值的总和

我有一本这样的字典 data 11L a 2 b 1 a 2 b 3 22L a 3 b 2 a 2 b 5 a 4 b 2 a 1 b 5 a 1 b 0 33L a 1 b 2 a 3 b 5 a 5 b 2 a 1 b 3 a 1 b
为什么我会得到“ufunc 'multiply' did not contains a loop with Signature Matching types dtype('S32') dtype('S32') dtype('S32')”，其值来自 raw_

我正在尝试创建一个非常简单的程序它将绘制一个抛物线其中v是速度 a是加速度和x是时间用户将输入值v and a then v and a and x将决定y 我试图用这个来做到这一点 x np linspace 0 9 10 a ra
使用 Matplotlib 的范围绘制图像的 3D 轮廓

正如我所介绍的here https stackoverflow com questions 18792624 fits image input to a range in plot python 在二维中我想知道如何缩放要绘制到绘图中
如何将嵌套的Python字典转换为简单的命名空间？

假设我有一个深度为 N 的嵌套字典如何将每个内部嵌套字典转换为简单的命名空间 example input key0a test key0b key1a key2a keyNx key2b test key1b test example o
如何使直方图列的宽度都相同

我在操作直方图时遇到了一些麻烦我有一个包含两列的 df 我将它们绘制为堆叠直方图我将它们放入特定的垃圾箱中请参阅下面的代码但我想在最后制作一个大垃圾箱 4000 10000 但是默认情况下大垃圾箱的列宽很大有没有办法让这个大垃
t /= d 是什么意思？ Python 和错误

t current time b begInnIng value c change In value d duration def easeOutQuad swing function x t b c d alert jQuery easi
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
收到“/：未找到事件。”使用 PyCharm 远程调试器时

当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器很多时候它停止工作并显示未找到事件更具体地说我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
如何在 matplotlib 中第一个 x 轴的底部添加第二个 x 轴？

我指的是已经提出的问题here https stackoverflow com questions 10514315 how to add a second x axis in matplotlib 在此示例中用户通过将第二个轴添加到与标
枚举上的 random.choice

我想用random choice on an Enum I tried class Foo Enum a 0 b 1 c 2 bar random choice Foo 但是这段代码失败了KeyError 我怎样才能随机选择一个成员Enum
如何使用资源模块来衡量函数的运行时间？

我想使用Python代码测量函数的CPU运行时间和挂钟运行时间此处建议资源模块如何以 Python 代码不是从终端的形式分别测量函数的 CPU 运行时间和挂钟运行时间 https stackoverflow com q 192046
Pandas：按日历周分组，然后绘制真实日期时间的分组条形图

EDIT 我找到了一个非常好的解决方案并将其发布在下面作为答案结果将如下所示您可以为此问题生成一些示例数据 codes list ABCDEFGH dates pd Series pd date range 2013 11 01 201
Python 对列表中的值求和（如果它存在于另一个列表中）

我有一个列表和一组 a list 1 2 2 1 1 1 b list 1 2 我正在寻找对应 b list 中的项目并将它们从 a list 中的值相加以便输出为 1 3 2 1 我尝试过的 sum 0 for i in a list
混合两个列表的Pythonic方法[重复]

这个问题在这里已经有答案了我有两个长度为 n 和 n 1 的列表 a 1 a 2 a n b 1 b 2 b n 1 我想要一个函数作为结果给出一个列表其中包含两个中的替代元素即 b 1 a 1 b n a n b n 1 以下方法有
如何继承并重写 django 模型类来创建 listOfStringsField？

我想为 django 模型创建一个新类型的字段它基本上是一个 ListOfStrings 因此在您的模型代码中您将具有以下内容模型 py from django db import models class ListOfString
IOError：在 Linux 上的 ReportLab 中使用 matplotlib PNG 时“解码器 zip 不可用”，适用于 Windows

我正在使用 ReportLab 打印 matplotlib 生成的图表我可以在我的 Windows 开发机器上毫无问题地执行此操作然而当我部署到 Ubuntu 服务器时渲染失败并出现所述错误我假设我缺少一个 Python 模块但

随机推荐

在 Spark 中，广播是如何工作的？

这是一个非常简单的问题在 Spark 中 broadcast可用于有效地将变量发送给执行器这是如何运作的更确切地说何时发送值我一打电话就发送broadcast 或者何时使用这些值数据到底发送到哪里发送给所有执行者还是只发送给
将数字列表转换为范围

我有一堆数字请说以下内容 1 2 3 4 6 7 8 20 24 28 32 那里提供的信息可以用 Python 表示为范围 range 1 5 range 6 9 range 20 33 4 在我的输出中我会写1 4 6 8 20 32
Swing 应用程序 -> 拖放到桌面/文件夹

当 Mac 的 Finder Windows 的 Explorer 将 Swing 应用程序中的特定项目拖放到桌面和文件夹时如何获取我放弃的前路径我很高兴教给我必要的课程和方法这是一个小程序但它适用于任何框架或窗口 public c
根据内容拆分 .txt 文件

我有一个巨大的 txt文件如下 small file content 1 br small file content 2 br small file content n br 我如何将其分割成n个文件最好通过bash Use csplit
将 models.py 拆分为多个文件

我正在尝试拆分models py我的应用程序分成几个文件我的第一个猜测是这样做 myproject settings py manage py urls py init py app1 views py init py models in
如何声明两个列表具有相同的长度？

我需要知道如何比较 Prolog 中两个列表的长度这是我到目前为止所拥有的 sum N1 N2 checklength N1 N2 checklength N1 N2 L1 is length N1 What L2 is length N
如何使用 selenium ide 专注于新窗口？

我正在尝试使用 selenium ide 来复制操作该操作是单击打开新窗口的链接如何让 selenium ide 聚焦在新窗口而不是另一个窗口上它对我不起作用选择窗口为此您需要使用selectWindow windowName命
创建 JSON 并编辑复杂查询 (oracle 11g)

我有 4 个不同的表 table price product 包含与产品相关的信息和他们的价格 table price list 包含与价目表相关的信息 prices per client 包含与价格相关的信息不同的客户给出特定的产品
角度范围绑定 &(&) 是一次性绑定吗？

角度范围绑定是一次性绑定吗我看到它被称为单向绑定但它也是一次性的吗假设我有
在 Java 中嵌入树状图

我正在寻找一个能够绘图的图书馆树状图 http en wikipedia org wiki DendrogramJava中的数据不计算它们我可以自己做你有任何线索吗已经尝试通过谷歌搜索它但没有找到任何不独立的东西虽然我需要将生成
使用 Java Graphics2D API 在 TextLayout 中将文本右对齐

因此我正在使用 Java 教程中的代码来绘制一段文本但我不知道如何将文本与右边距对齐我刚刚包括attstring addAttribute TextAttribute RUN DIRECTION TextAttribute RUN D
如何使用 Hibernate 测试表是否为空

使用 Hibernate 确定表是否为空或非空的最有效方法是什么换句话说该表是否有 0 行或多于 0 行我可以执行 HQL 查询select count from tablename然后检查结果是否为 0 或非 0 但这不是最佳选择
Mysql errno 150 尝试使用外键引用创建表

我正在尝试在 mysql 中创建一个带有外键引用的表如下所示在数据库A中 CREATE TABLE replication id varchar 255 NOT NULL PRIMARY KEY uid varchar 255 NOT
RESTful servlet URL - web.xml 中的 servlet 映射

我觉得这是一个常见问题但我研究过的都还没有起作用在我的 web xml 中我有所有 REST 调用的映射
pip3 安装 pyautogui 失败，错误代码 1 Mac OS

我尝试安装 autogui python 扩展 pip3 install pyautogui 此安装尝试会导致以下错误消息 Collecting pyautogui Using cached PyAutoGUI 0 9 33 zip Com
Blazor 继承 ChildContent RenderFragments？

假设我们有一个基本组件ParentComponent razor div ChildContent div code Parameter public RenderFragment ChildContent get set 可以这样使用
IOS 将 URL 字符串转换为 NSString？

我在转换时遇到问题URL string 我从 XML 文件中提取到NSString The URL string看起来像这样看起来很奇怪但确实如此URL format 3CTEXTFORMAT 20LEADING 3D 222 22 3
Xcode 多个静态库和重复符号

我正在开发一个 iPad 应用程序它依赖于两个静态实用程序库 libBFSDK 和 libBetfair Platform 这两个静态库都包含 AFNetworking 当我尝试在 iPad 应用程序中包含两个静态库时我收到如下链接错误
Docker-Compose 挂载卷覆盖主机文件

我正在从 CMS 装载一个目录其中包含 Docker 容器内的内容文件安装绝对有效 CMS 获得了一些基本文件这些文件在构建过程中被复制到容器中的已安装文件夹中然后它将被挂载到主机上的某个目录中现在容器中的文件也位于主机上我可以
HDBSCAN Python 选择簇数

是否可以在Python中的HDBSCAN算法中选择簇的数量或者唯一的方法是使用输入参数例如 alpha min cluster size Thanks UPDATE 这是使用 fcluster 和 hdbscan 的代码 import

HDBSCAN Python 选择簇数

HDBSCAN Python 选择簇数 的相关文章

随机推荐

热门标签

HDBSCAN Python 选择簇数的相关文章