如何指定聚类的距离函数？

2024-05-16

我想对给定距离的点进行聚类，奇怪的是，似乎 scipy 和 sklearn 聚类方法都不允许指定距离函数。

例如，在sklearn.cluster.AgglomerativeClustering，我唯一可以做的就是输入一个亲和力矩阵（这将非常占用内存）。为了构建这个矩阵，建议使用sklearn.neighbors.kneighbors_graph，但我不明白如何指定两点之间的距离函数。有人可以启发我吗？

所有 scipy 层次聚类例程都将接受自定义距离函数，该函数接受指定一对点的两个一维向量并返回一个标量。例如，使用fclusterdata https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.fclusterdata.html#scipy.cluster.hierarchy.fclusterdata:

import numpy as np
from scipy.cluster.hierarchy import fclusterdata

# a custom function that just computes Euclidean distance
def mydist(p1, p2):
    diff = p1 - p2
    return np.vdot(diff, diff) ** 0.5

X = np.random.randn(100, 2)

fclust1 = fclusterdata(X, 1.0, metric=mydist)
fclust2 = fclusterdata(X, 1.0, metric='euclidean')

print(np.allclose(fclust1, fclust2))
# True

的有效输入metric=kwarg 与相同scipy.spatial.distance.pdist http://docs.scipy.org/doc/scipy-0.16.0/reference/generated/scipy.spatial.distance.pdist.html.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何指定聚类的距离函数？的相关文章

将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010

随机推荐

使用 BGTaskScheduler 进行后台获取与调试模拟完美配合，但在实践中却不起作用

我在 appDelegate 的 didFinishLaunchingWithOptions 中注册后台获取任务 BGTaskScheduler shared register forTaskWithIdentifier Backgroun
Qt：测量事件处理时间

我想测量我的应用程序中的哪些事件在主线程中需要很长时间才能执行阻塞 GUI 或者至少是否有任何事件花费的时间超过比如说 10 毫秒显然我对需要很长时间的任务使用线程和并发但有时很难在其他线程中放入的内容和可以保留在 GUI 中的内
C++ 中求幂的函数是什么？

如何计算一个数的幂 2 1 2 2 2 3 etc cmath 库中的 pow 更多信息here http en cppreference com w cpp numeric math pow 别忘了放 include
需要使用 iFrame API 隐藏 YouTube 品牌

我正在使用 YouTube iFrame API 在我的自定义播放器 javascript 播放器中加载视频我需要隐藏 Youtube 品牌但是在 iOS 设备上它显示带有以下参数的徽标 playerVars fs 1 autopl
游戏GUI框架

我目前正在重新修改游戏的用户界面 OpenLieroX http www openlierox net即我正在寻找一个可以轻松创建 GUI 的库框架具体来说这是我的要求开源游戏是 LGPL 的遇到许可问题是我们最不想关心的事情
Google reCAPTCHA v2 在幕后如何工作？

本文引用的是 Google ReCaptcha v2 不是最新版本最近谷歌推出了简化的验证码验证系统 video https www youtube com watch v jwslDn3ImM0 使用户只需单击即可通过验证码但它
如何从 Internet Explorer 获取与 cookie 关联的过期日期和标志？

我可以得到 cookie 的值互联网获取Cookie http msdn microsoft com en us library windows desktop aa384710 28v vs 85 29 aspx or InternetG
SQL Server 大小写/排序规则问题

今天我在客户数据库中遇到了一个奇怪的情况 SQL Server 2005 数据库排序规则不区分大小写因此我可以使用任何大小写编写 SQL 查询没有任何问题除了一个一张特定表中的一个特定列称为 DeadZone 如果我这样查询从表名
使用 zip 实用程序从工作区目录中压缩多个文件/文件夹

我们有一个 Jenkins 管道我想压缩位于工作区中多个目录中的多个文件 py 和 cfg 有没有一种方法可以将多个值传递给dirzip 方法的选项 zip zipFile package zip dir WORKSPACE infra
Django + nginx + uwsgi 无法登录

我有非常简单的登录逻辑类似于官方 Django 解决方案 class Login FormView template name login html form class AuthenticationForm def get self a
以有效的方式在循环中附加字符串

很长一段时间我总是按以下方式附加字符串例如如果我想获取用某个符号分隔的所有员工姓名在下面的示例中我选择了管道符号字符串最终字符串 Empty foreach Employee emp in EmployeeList final
通过纯 JavaScript 获取 div 的第 n 个子元素

我有一个名为 myDiv 的 div 元素我怎样才能得到 myDiv 的第n个孩子DOM https en wikipedia org wiki Document Object Model操纵 Markup function reveal
SVG 文本无法在 Chrome 或 Safari 中呈现

我有一些 SVG 文本在 Firefox 上运行良好但在 Chrome 和 Safari 中却没有出现我努力了向 svg 容器添加填充以防文本被隔断从文本中删除 xml space preserve 添加内联填充颜色
在 C# 中使用“C”dll [重复]

这个问题在这里已经有答案了可能的重复如何从 C ASP NET 网页调用非托管 C C 代码 https stackoverflow com questions 720004 how do i call unmanaged c c co
Chrome 扩展程序可以相互通信吗？

我正在编写一个Chrome扩展程序并且想要实现一个接口或api 以便我将来制作的其他扩展程序可以使用它最终的效果可能如下分机 B 呼叫extensionA someMethod someParameters 并向分机A发送一些数据分
AOSP 中 android.Build.SERIAL 何时何地生成？

我知道android Build SERIAL是在第一次设备启动时生成的但我无法准确定位位置和时间我正在建造AOSP Jelly Bean Android平板电脑 nosdcard 第二个问题这个是序列号吗 really对所有人来说都
Swift：协议、结构、类

我开始学习 Swift 语言但在理解协议结构和类方面遇到了困难我来自 Android 方面的编程所以我相信 Swift 协议基本上是 Java 接口其中每一个的正确用例是什么这些类比并不完全正确但这就是我所理解的要点是的
Postgres < 9.0 的 DO 块相当于什么

Postgres 8 4 8 相当于什么 DO BEGIN IF NOT EXISTS THEN EXECUTE END IF END create function f returns void as BEGIN IF NOT EXIST
Bootstrap 标签栏平滑移动导航按钮

我有一个用于切换块的普通引导选项卡面板在导航中切换块时活动选项卡会突出显示但现在当我单击活动选项卡的背景时它会立即发生变化是否可以使切换选项卡时背景不会立即改变而是根据需要哪个选项卡而平滑地左右移动这可以用以下方法完成吗cs
如何指定聚类的距离函数？

我想对给定距离的点进行聚类奇怪的是似乎 scipy 和 sklearn 聚类方法都不允许指定距离函数例如在sklearn cluster AgglomerativeClustering 我唯一可以做的就是输入一个亲和力矩阵这将非常

如何指定聚类的距离函数？

如何指定聚类的距离函数？ 的相关文章

随机推荐

热门标签

如何指定聚类的距离函数？的相关文章