估计/选择 DBSCAN 的最佳超参数

2024-05-01

我需要根据不同介词的分布找到自然出现的名词类别（如施事、工具、时间、地点等）。我尝试使用 k-means 聚类，但帮助较少，效果不佳，我正在寻找的类有很多重叠（可能是因为类的非球状形状和 k-means 中的随机初始化））。

我现在正在使用 DBSCAN，但我无法理解此聚类算法中的 epsilon 值和小点值。我可以使用随机值还是需要计算它们？有人可以帮忙吗？特别是对于 epsilon，至少如果我需要的话如何计算它？

用你的领域知识选择参数。 Epsilon 是半径。您可以将其视为最小簇大小。

显然随机值不会很好地工作。作为启发式方法，您可以尝试查看 k 距离图；但它也不是自动的。

无论哪种方式，首先要做的就是选择一个好的距离函数为了您的数据。并进行适当的标准化。

至于“minPts”，它再次取决于您的数据和needs。一个用户可能想要与另一个用户截然不同的值。当然，minPts 和 Epsilon 是耦合的。如果将 epsilon 加倍，则大致需要将 minPts 增加 2^d（对于欧几里得距离，因为这就是超球面体积增加的方式！）

如果您想要大量小而精细的簇，请选择较低的 minpts。如果您想要更大和更少的簇（以及更多的噪声），请使用更大的 minpts。如果您根本不需要任何集群，请选择大于您的数据集大小的 minpts...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

估计/选择 DBSCAN 的最佳超参数的相关文章

如何使用 ELKI 中的索引结构？

这些是报价形式http elki dbs ifi lmu de http elki dbs ifi lmu de 本质上我们将抽象距离查询绑定到数据库然后对该距离进行最近邻搜索此时 ELKI 将自动选择最合适的 kNN 查询类如果我
在坐标和非空间特征上对地理空间数据进行聚类

假设我将以下数据帧存储为称为坐标的变量其中前几行如下所示 business lat business lng business rating 0 19 111841 72 910729 5 1 19 111342 72 908387 5
如何分析稀疏邻接矩阵？

我正在研究稀疏邻接矩阵其中大多数单元格为零有些单元格为零两个单元格之间的每个关系都有一个可能很长的多项式描述并且手动分析它们非常耗时我的老师建议使用纯代数方法格罗布纳基地 http pastebin com jwVMxbM2但在继
最相距的 k 个元素（聚类？）

我有一个简单的机器学习问题我有 n 110 个元素以及所有成对距离的矩阵我想选择相距最远的 10 个元素也就是说我想要 Maximize Choose 10 different elements Return min distan
如何在自组织图中关联回原始数据点

我正在使用 R kohonen 包来实现 SOM 我发现将自组织映射产生的代码向量与原始数据点相关联时遇到麻烦我尝试在训练过程中包含没有权重的标签但结果令人难以理解有没有办法在训练过程完成后从每个节点引用原始数据点您将从中获得中心值
聚类和贝叶斯分类器 Matlab

因此我正处于下一步该做什么的十字路口我开始学习一些机器学习算法并将其应用于复杂的数据集现在我已经做到了我从一开始的计划就是结合两种可能的分类器试图建立一个多分类系统但这就是我被困住的地方我选择聚类算法模糊 C 均值在学习了
R 聚类-带有观察标签的轮廓

我用以下方法进行层次聚类clusterR 中的包使用silhouette函数我可以获得树状图中任何给定高度 h 截止点的簇输出的轮廓图 run hierarchical clustering if require cluster ins
DBSCAN 算法可以创建少于 minPts 的簇吗？

我刚刚编写了 DBSCAN 算法我想知道 DBSCAN 算法是否可以允许集群中的点数少于所使用的 minPts 参数我一直在使用http people cs nctu edu tw rsliang dbscan testdatagen
scikit-learn 中聚类超参数评估的网格搜索

我正在对大约 100 条记录未标记的样本进行聚类并尝试使用 grid search 来评估具有各种超参数的聚类算法我正在使用得分silhouette score效果很好我的问题是我不需要使用交叉验证方面GridSearchCV R
K 表示使用 PySpark 进行聚类

我有一个非常大的数据框我必须使用数据框中的特定 8 列其中值要么是强烈同意同意或不同意根据这 8 列我需要创建一个新列来告诉该行属于哪个簇 1 8 最好使用 K 均值聚类这在 PySpark 中可能吗 PS 我是 PySp
在 python 中绘制 sklearn 集群

我使用亲和力传播获得了以下 sklearn 集群 import sklearn cluster import numpy as np sims np array 0 17 10 32 32 18 0 6 20 15 10 8 0 20 21
Matlab - 多维数据的PCA分析与重构

我有一个大型多维数据集 132 维我是数据挖掘的初学者我想使用 Matlab 来应用主成分分析不过我看到网上有很多功能解释但我不明白它们应该如何应用基本上我想应用 PCA 并从我的数据中获取特征向量及其相应的特征值在此步骤之
使用杰卡德距离矩阵进行 Kmeans 聚类

我正在尝试创建 Jaccard 距离矩阵并对其执行 K 均值以给出簇 id 和簇中元素的 id 它的输入是 Twitter 推文以下是代码我无法理解如何使用 kmeans 文件中的初始种子 install packages rjson
射线聚类算法

我知道显然有点的聚类算法但我有不同的场景我有许多光线它们的起点都在 3D 球体上并且其方向矢量向内指向球体一些光线指向 A 点其他光线指向 B 点等并带有一些噪声即光线彼此不完全相交是否有一种聚类算法可以让我根据光线指向的
R：tuneRF 函数的行为不明确（randomForest 包）

我对这句话的含义感到不舒服stepFactor的参数tuneRF http www inside r org packages cran randomForest docs tuneRF函数用于调整mtry进一步使用的参数randomFor
不同长度的时间序列数据的聚类

我有不同系列长度的时间序列数据我想根据 DTW 距离进行聚类但找不到与之相关的 ant 库 sklearn给出直接错误而 tslearn kmeans 给出错误答案我的问题是如果我用零填充它就可以解决但我不确定这在聚类时填充时间序
R 合并具有相似值的行

我有一个数据框行值首先从小到大排序我计算相邻行之间的行值差异组合具有相似差异例如小于 1 的行并返回组合行的平均值我可以使用 for 循环检查每一行的差异但这似乎是一种非常低效的方法还有更好的想法吗谢谢 library
估计/选择 DBSCAN 的最佳超参数

我需要根据不同介词的分布找到自然出现的名词类别如施事工具时间地点等我尝试使用 k means 聚类但帮助较少效果不佳我正在寻找的类有很多重叠可能是因为类的非球状形状和 k means 中的随机初始化我现在正在使用 DBS
有效地将相似的数字分组在一起[重复]

这个问题在这里已经有答案了可能的重复一维数数组聚类 https stackoverflow com questions 11513484 1d number array clustering 我有一个数字数组例如 1 20 300 4
如何将彼此“接近”的纬度/经度点分组？

我有一个用户提交的纬度经度点的数据库并且正在尝试将接近点分组在一起接近是相对的但目前看来约为 500 英尺起初我似乎只能按前 3 个小数位具有相同纬度经度的行进行分组大约是一个 300x300 的盒子了解当您远离赤道

随机推荐

如何在AWS批处理中定义根卷大小

我正在使用 AWS Batch 但发现根卷大小对于我的任务来说太小我尝试创建一个新的计算环境作业队列但没有任何选项来设置卷大小我尝试更改启动配置here https console aws amazon com ec2 autosc
Eclipse 编辑器选项卡环绕

I can switch editors in Eclipse by using Ctrl PgUp PdDown 但是当选择最左边的编辑器选项卡时我无法再将一个选项卡切换到左侧并环绕以到达最右边的选项卡如何使编辑器选项卡环绕 The
用 Java 创建 PDF 的缩略图

我正在寻找一个 Java 库它可以获取 PDF 并从第一页创建缩略图 PNG 我已经看过 JPedal 但其疯狂的许可费完全令人望而却步我目前正在使用 iText 来操作 PDF 文件但我相信它不会生成缩略图我可以在命令行上使用
如何使用Node+Express渲染多个视图

我有一个 header html 和一个 footer html 我希望与其他视图一起呈现我想使用 Node Express 来完成这个任务我尝试通过以下方式渲染视图但显然它不起作用 var express require expre
Javascript 图像 src 属性返回错误值

我有一些 javascript 代码附加到一个带有 onclick 的按钮代码如下 function ondelete var getDiv document getElementById imgdiv var lb img imgdiv
iPhone：应用程序被终止时保留 NSUserDefaults 值

我正在尝试使用 NSUserDefaults 实现添加到收藏夹功能到目前为止我已经编写了以下代码 void favouriteButtonClicked id sender favselected favselected favsel
如何在 Anaconda 中使用 Python Dbus 绑定

我正在尝试在 Anaconda python 环境上安装 dbus 但我很挣扎这是我收到的错误消息 e gateway python Python 3 5 4 Anaconda custom 64 bit default Oct 13 2
在intellij中为java启用ssl调试

从我的问题开始上一期尝试通过 tls ssl 发送 java 邮件 https stackoverflow com questions 39259578 javamail gmail issue ready to start tls th
在python中乘以多维数组

我在 3d 数组中存储了许多 2d 数组我需要将每个数组与一个向量相乘所以我将所有这些向量存储在一个二维数组中就像这样 A np random random L M N B np random random L M 我需要将每个 A
使用 jQuery 测试某个元素是否具有某个类

我正在尝试测试课程是否存在intra field label在一个元素上该元素将有多个类我该怎么做 Use hasClass http api jquery com hasClass http api jquery com hasCla
C# Winforms - ProgressBar 无法正确显示和重置

我有一个 Windows 桌面应用程序正在使用 Visual Basic 中的 Windows 窗体编写在这个应用程序中我想显示一个简单的进度条但我遇到了一个奇怪的问题下面是更新进度条的简单 for 循环示例 pBar Visib
我什么时候应该在 RMI 中实现 java.io.Serializable？

我刚刚开始 Java RMI 对于何时使用 java io Serialized 存在一些问题所以任何人都可以给我一个必须实现 java io Serializing 的 RMI 示例谢谢 UPDATE i had made a sim
单元格显示日期但不显示时间

在我的 Excel 工作表中我在一个单元格中添加了日期和时间如下所示在顶部在效果栏中它显示日期和时间问题是在单元格中它只显示日期但我希望时间和日期都显示在单元格中谁能帮我这个选择 ColumnB 主页 gt 单元格格式
bash：从数组中删除变量？ [复制]

这个问题在这里已经有答案了 bin bash tank one two three x two unset tank x echo tank 我想从数组中删除 x 但不知何故它删除了数组的第一个元素我该如何解决这个问题您有一个索引数组
Chrome 上的 BetterJsPop 错误是什么？

我在 Chrome 上使用 React js 应用程序时遇到此错误但在 Mozilla 上它运行得很好有谁知道这意味着什么或者这个错误指的是什么 VM1407 20 Uncaught TypeError Cannot redefine
在 StackPanel 中拉伸文本框

这是我当前用来执行此操作的 XAML 并且我一生都无法弄清楚如何扩展文本框以填充整个列有人可以指导我正确的方向吗先感谢您
Scipy map_coordinates 双线性插值与 interp 和 IDL 插值比较

我正在将同事的 IDL 代码重写为 python 并发现了一些我感到困惑的差异根据我发现的其他问题和邮件列表线程如果您使用scipy ndimage interpolation map coordinates并指定order 1它应该进
Sql Server 2005 将列名放在方括号中

我最近将数据库从 Sql Server 2000 迁移到 Sql Server 2005 在表设计器中它坚持将方括号放在名为 Content 的列周围我在 Sql Server 的保留字列表中没有看到 Content 所以我不明白它为什
为什么`.forEach`适用于密集数组但不适用于稀疏数组？ [复制]

这个问题在这里已经有答案了我试图理解空稀疏数组之间的区别例如new Array 3 和一个等效的空密集数组具有 3 个未定义条目的数组我可以通过以下两种方式创建一个包含 3 个未定义值的数组 var sparse new A
估计/选择 DBSCAN 的最佳超参数

我需要根据不同介词的分布找到自然出现的名词类别如施事工具时间地点等我尝试使用 k means 聚类但帮助较少效果不佳我正在寻找的类有很多重叠可能是因为类的非球状形状和 k means 中的随机初始化我现在正在使用 DBS

估计/选择 DBSCAN 的最佳超参数

估计/选择 DBSCAN 的最佳超参数 的相关文章

随机推荐

热门标签

估计/选择 DBSCAN 的最佳超参数的相关文章