估计/选择 DBSCAN 的最佳超参数

2024-05-01

我需要根据不同介词的分布找到自然出现的名词类别(如施事、工具、时间、地点等)。我尝试使用 k-means 聚类,但帮助较少,效果不佳,我正在寻找的类有很多重叠(可能是因为类的非球状形状和 k-means 中的随机初始化) )。

我现在正在使用 DBSCAN,但我无法理解此聚类算法中的 epsilon 值和小点值。我可以使用随机值还是需要计算它们?有人可以帮忙吗?特别是对于 epsilon,至少如果我需要的话如何计算它?


用你的领域知识选择参数。 Epsilon 是半径。您可以将其视为最小簇大小。

显然随机值不会很好地工作。作为启发式方法,您可以尝试查看 k 距离图;但它也不是自动的。

无论哪种方式,首先要做的就是选择一个好的距离函数为了您的数据。并进行适当的标准化。

至于“minPts”,它再次取决于您的数据和needs。一个用户可能想要与另一个用户截然不同的值。当然,minPts 和 Epsilon 是耦合的。如果将 epsilon 加倍,则大致需要将 minPts 增加 2^d(对于欧几里得距离,因为这就是超球面体积增加的方式!)

如果您想要大量小而精细的簇,请选择较低的 minpts。如果您想要更大和更少的簇(以及更多的噪声),请使用更大的 minpts。如果您根本不需要任何集群,请选择大于您的数据集大小的 minpts...

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

估计/选择 DBSCAN 的最佳超参数 的相关文章

  • 如何使用 ELKI 中的索引结构?

    这些是报价形式http elki dbs ifi lmu de http elki dbs ifi lmu de 本质上 我们将抽象距离查询绑定到数据库 然后对该距离进行最近邻搜索 此时 ELKI 将自动选择最合适的 kNN 查询类 如果我
  • 在坐标和非空间特征上对地理空间数据进行聚类

    假设我将以下数据帧存储为称为坐标的变量 其中前几行如下所示 business lat business lng business rating 0 19 111841 72 910729 5 1 19 111342 72 908387 5
  • 如何分析稀疏邻接矩阵?

    我正在研究稀疏邻接矩阵 其中大多数单元格为零 有些单元格为零 两个单元格之间的每个关系都有一个可能很长的多项式描述 并且手动分析它们非常耗时 我的老师建议使用纯代数方法格罗布纳基地 http pastebin com jwVMxbM2但在继
  • 最相距的 k 个元素(聚类?)

    我有一个简单的机器学习问题 我有 n 110 个元素 以及所有成对距离的矩阵 我想选择相距最远的 10 个元素 也就是说 我想要 Maximize Choose 10 different elements Return min distan
  • 如何在自组织图中关联回原始数据点

    我正在使用 R kohonen 包来实现 SOM 我发现将自组织映射产生的代码向量与原始数据点相关联时遇到麻烦 我尝试在训练过程中包含没有权重的标签 但结果令人难以理解 有没有办法在训练过程完成后从每个节点引用原始数据点 您将从中获得中心值
  • 聚类和贝叶斯分类器 Matlab

    因此 我正处于下一步该做什么的十字路口 我开始学习一些机器学习算法并将其应用于复杂的数据集 现在我已经做到了 我从一开始的计划就是结合两种可能的分类器 试图建立一个多分类系统 但这就是我被困住的地方 我选择聚类算法 模糊 C 均值 在学习了
  • R 聚类-带有观察标签的轮廓

    我用以下方法进行层次聚类clusterR 中的包 使用silhouette函数 我可以获得树状图中任何给定高度 h 截止点的簇输出的轮廓图 run hierarchical clustering if require cluster ins
  • DBSCAN 算法可以创建少于 minPts 的簇吗?

    我刚刚编写了 DBSCAN 算法 我想知道 DBSCAN 算法是否可以允许集群中的点数少于所使用的 minPts 参数 我一直在使用http people cs nctu edu tw rsliang dbscan testdatagen
  • scikit-learn 中聚类超参数评估的网格搜索

    我正在对大约 100 条记录 未标记 的样本进行聚类 并尝试使用 grid search 来评估具有各种超参数的聚类算法 我正在使用得分silhouette score效果很好 我的问题是我不需要使用交叉验证方面GridSearchCV R
  • K 表示使用 PySpark 进行聚类

    我有一个非常大的数据框 我必须使用数据框中的特定 8 列 其中值要么是 强烈同意 同意 或 不同意 根据这 8 列 我需要创建一个新列来告诉该行属于哪个簇 1 8 最好使用 K 均值聚类 这在 PySpark 中可能吗 PS 我是 PySp
  • 在 python 中绘制 sklearn 集群

    我使用亲和力传播获得了以下 sklearn 集群 import sklearn cluster import numpy as np sims np array 0 17 10 32 32 18 0 6 20 15 10 8 0 20 21
  • Matlab - 多维数据的PCA分析与重构

    我有一个大型多维数据集 132 维 我是数据挖掘的初学者 我想使用 Matlab 来应用主成分分析 不过 我看到网上有很多功能解释 但我不明白它们应该如何应用 基本上 我想应用 PCA 并从我的数据中获取特征向量及其相应的特征值 在此步骤之
  • 使用杰卡德距离矩阵进行 Kmeans 聚类

    我正在尝试创建 Jaccard 距离矩阵并对其执行 K 均值以给出簇 id 和簇中元素的 id 它的输入是 Twitter 推文 以下是代码 我无法理解如何使用 kmeans 文件中的初始种子 install packages rjson
  • 射线聚类算法

    我知道显然有点的聚类算法 但我有不同的场景 我有许多光线 它们的起点都在 3D 球体上 并且其方向矢量向内指向球体 一些光线指向 A 点 其他光线指向 B 点等 并带有一些噪声 即光线彼此不完全相交 是否有一种聚类算法可以让我根据光线指向的
  • R:tuneRF 函数的行为不明确(randomForest 包)

    我对这句话的含义感到不舒服stepFactor的参数tuneRF http www inside r org packages cran randomForest docs tuneRF函数用于调整mtry进一步使用的参数randomFor
  • 不同长度的时间序列数据的聚类

    我有不同系列长度的时间序列数据 我想根据 DTW 距离进行聚类 但找不到与之相关的 ant 库 sklearn给出直接错误 而 tslearn kmeans 给出错误答案 我的问题是如果我用零填充它就可以解决 但我不确定这在聚类时填充时间序
  • R 合并具有相似值的行

    我有一个数据框 行值首先从小到大排序 我计算相邻行之间的行值差异 组合具有相似差异 例如 小于 1 的行 并返回组合行的平均值 我可以使用 for 循环检查每一行的差异 但这似乎是一种非常低效的方法 还有更好的想法吗 谢谢 library
  • 估计/选择 DBSCAN 的最佳超参数

    我需要根据不同介词的分布找到自然出现的名词类别 如施事 工具 时间 地点等 我尝试使用 k means 聚类 但帮助较少 效果不佳 我正在寻找的类有很多重叠 可能是因为类的非球状形状和 k means 中的随机初始化 我现在正在使用 DBS
  • 有效地将相似的数字分组在一起[重复]

    这个问题在这里已经有答案了 可能的重复 一维数数组聚类 https stackoverflow com questions 11513484 1d number array clustering 我有一个数字数组 例如 1 20 300 4
  • 如何将彼此“接近”的纬度/经度点分组?

    我有一个用户提交的纬度 经度点的数据库 并且正在尝试将 接近 点分组在一起 接近 是相对的 但目前看来约为 500 英尺 起初 我似乎只能按前 3 个小数位具有相同纬度 经度的行进行分组 大约是一个 300x300 的盒子 了解当您远离赤道

随机推荐

  • 如何在AWS批处理中定义根卷大小

    我正在使用 AWS Batch 但发现根卷大小对于我的任务来说太小 我尝试创建一个新的计算环境 作业队列 但没有任何选项来设置卷大小 我尝试更改启动配置here https console aws amazon com ec2 autosc
  • Eclipse 编辑器选项卡环绕

    I can switch editors in Eclipse by using Ctrl PgUp PdDown 但是 当选择最左边的编辑器选项卡时 我无法再将一个选项卡切换到左侧并环绕以到达最右边的选项卡 如何使编辑器选项卡环绕 The
  • 用 Java 创建 PDF 的缩略图

    我正在寻找一个 Java 库 它可以获取 PDF 并从第一页创建缩略 图 PNG 我已经看过 JPedal 但其疯狂的许可费完全令人望而却步 我目前正在使用 iText 来操作 PDF 文件 但我相信它不会生成缩略图 我可以在命令行上使用
  • 如何使用Node+Express渲染多个视图

    我有一个 header html 和一个 footer html 我希望与其他视图一起呈现 我想使用 Node Express 来完成这个任务 我尝试通过以下方式渲染视图 但显然它不起作用 var express require expre
  • Javascript 图像 src 属性返回错误值

    我有一些 javascript 代码附加到一个带有 onclick 的按钮 代码如下 function ondelete var getDiv document getElementById imgdiv var lb img imgdiv
  • iPhone:应用程序被终止时保留 NSUserDefaults 值

    我正在尝试使用 NSUserDefaults 实现 添加到收藏夹 功能 到目前为止我已经编写了以下代码 void favouriteButtonClicked id sender favselected favselected favsel
  • 如何在 Anaconda 中使用 Python Dbus 绑定

    我正在尝试在 Anaconda python 环境上安装 dbus 但我很挣扎 这是我收到的错误消息 e gateway python Python 3 5 4 Anaconda custom 64 bit default Oct 13 2
  • 在intellij中为java启用ssl调试

    从我的问题开始 上一期尝试通过 tls ssl 发送 java 邮件 https stackoverflow com questions 39259578 javamail gmail issue ready to start tls th
  • 在python中乘以多维数组

    我在 3d 数组中存储了许多 2d 数组 我需要将每个数组与一个向量相乘 所以我将所有这些向量存储在一个二维数组中 就像这样 A np random random L M N B np random random L M 我需要将每个 A
  • 使用 jQuery 测试某个元素是否具有某个类

    我正在尝试测试课程是否存在intra field label在一个元素上 该元素将有多个类 我该怎么做 Use hasClass http api jquery com hasClass http api jquery com hasCla
  • C# Winforms - ProgressBar 无法正确显示和重置

    我有一个 Windows 桌面应用程序 正在使用 Visual Basic 中的 Windows 窗体编写 在这个应用程序中 我想显示一个简单的进度条 但我遇到了一个奇怪的问题 下面是更新进度条的简单 for 循环示例 pBar Visib
  • 我什么时候应该在 RMI 中实现 java.io.Serializable?

    我刚刚开始 Java RMI 对于何时使用 java io Serialized 存在一些问题 所以任何人都可以给我一个必须实现 java io Serializing 的 RMI 示例 谢谢 UPDATE i had made a sim
  • 单元格显示日期但不显示时间

    在我的 Excel 工作表中 我在一个单元格中添加了日期和时间 如下所示 在顶部 在效果栏中 它显示日期和时间 问题是 在单元格中它只显示日期 但我希望时间和日期都显示在单元格中 谁能帮我这个 选择 ColumnB 主页 gt 单元格 格式
  • bash:从数组中删除变量? [复制]

    这个问题在这里已经有答案了 bin bash tank one two three x two unset tank x echo tank 我想从数组中删除 x 但不知何故它删除了数组的第一个元素 我该如何解决这个问题 您有一个索引数组
  • Chrome 上的 BetterJsPop 错误是什么?

    我在 Chrome 上使用 React js 应用程序时遇到此错误 但在 Mozilla 上它运行得很好 有谁知道这意味着什么或者这个错误指的是什么 VM1407 20 Uncaught TypeError Cannot redefine
  • 在 StackPanel 中拉伸文本框

    这是我当前用来执行此操作的 XAML 并且我一生都无法弄清楚如何扩展文本框以填充整个列 有人可以指导我正确的方向吗 先感谢您
  • Scipy map_coordinates 双线性插值与 interp 和 IDL 插值比较

    我正在将同事的 IDL 代码重写为 python 并发现了一些我感到困惑的差异 根据我发现的其他问题和邮件列表线程 如果您使用scipy ndimage interpolation map coordinates并指定order 1它应该进
  • Sql Server 2005 将列名放在方括号中

    我最近将数据库从 Sql Server 2000 迁移到 Sql Server 2005 在表设计器中 它坚持将方括号放在名为 Content 的列周围 我在 Sql Server 的保留字列表中没有看到 Content 所以我不明白它为什
  • 为什么`.forEach`适用于密集数组但不适用于稀疏数组? [复制]

    这个问题在这里已经有答案了 我试图理解 空 稀疏数组之间的区别 例如new Array 3 和一个等效的 空 密集数组 具有 3 个未定义条目的数组 我可以通过以下两种方式创建一个包含 3 个未定义值的数组 var sparse new A
  • 估计/选择 DBSCAN 的最佳超参数

    我需要根据不同介词的分布找到自然出现的名词类别 如施事 工具 时间 地点等 我尝试使用 k means 聚类 但帮助较少 效果不佳 我正在寻找的类有很多重叠 可能是因为类的非球状形状和 k means 中的随机初始化 我现在正在使用 DBS