聚类算法采用哪种编程结构

2024-06-26

我正在尝试实现以下（分裂）聚类算法（下面是该算法的简短形式，完整的描述可用here https://dl.dropboxusercontent.com/u/540963/diana.pdf):

从样本 x, i = 1, ..., n 开始，将其视为由 n 个数据点组成的单个簇，并为所有点对定义相异矩阵 D。固定一个阈值T来决定是否分裂簇。

首先确定所有数据点对之间的距离，并选择它们之间距离 (Dmax) 最大的一对。
将 Dmax 与 T 进行比较。如果 Dmax > T，则使用所选对作为两个新簇中的第一个元素，将单个簇一分为二。剩余的 n - 2 个数据点被放入两个新簇之一。如果 D(x_i, x_l)
在第二阶段，在两个新簇之一中找到值 D(x_i, x_j)，以找到簇中距离 Dmax 最大的一对。如果Dmax

输出是集群数据记录的层次结构。我恳请您提供如何实现聚类算法的建议。

EDIT 1:我附上定义距离（相关系数）的Python函数和查找数据矩阵中最大距离的函数。

# Read data from GitHub
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/nico/collectiveintelligence-book/master/blogdata.txt', sep = '\t', index_col = 0)
data = df.values.tolist()
data = data[1:10]

# Define correlation coefficient as distance of choice
def pearson(v1, v2):
  # Simple sums
  sum1 = sum(v1)
  sum2 = sum(v2)
  # Sums of the squares
  sum1Sq = sum([pow(v, 2) for v in v1])
  sum2Sq = sum([pow(v, 2) for v in v2]) 
  # Sum of the products
  pSum=sum([v1[i] * v2[i] for i in range(len(v1))])
  # Calculate r (Pearson score)
  num = pSum - (sum1 * sum2 / len(v1))
  den = sqrt((sum1Sq - pow(sum1,2) / len(v1)) * (sum2Sq - pow(sum2, 2) / len(v1)))
  if den == 0: return 0
  return num / den


# Find largest distance
dist={}
max_dist = pearson(data[0], data[0])
# Loop over upper triangle of data matrix
for i in range(len(data)):
  for j in range(i + 1, len(data)):
     # Compute distance for each pair
     dist_curr = pearson(data[i], data[j])
     # Store distance in dict
     dist[(i, j)] = dist_curr
     # Store max distance
     if dist_curr > max_dist:
       max_dist = dist_curr

EDIT 2:下面粘贴的是 Dschoni 答案中的函数。

# Euclidean distance
def euclidean(x,y):
  x = numpy.array(x)
  y = numpy.array(y) 
  return numpy.sqrt(numpy.sum((x-y)**2))

# Create matrix
def dist_mat(data):
  dist = {}
  for i in range(len(data)):
    for j in range(i + 1, len(data)):
      dist[(i, j)] = euclidean(data[i], data[j])
  return dist


# Returns i & k for max distance
def my_max(dict):
    return max(dict)

# Sort function
list1 = []
list2 = []
def sort (rcd, i, k):
  list1.append(i)
  list2.append(k)
  for j in range(len(rcd)):
    if (euclidean(rcd[j], rcd[i]) < euclidean(rcd[j], rcd[k])):
      list1.append(j)
    else:
      list2.append(j)

EDIT 3:当我运行 @Dschoni 提供的代码时，算法按预期工作。然后我修改了create_distance_list函数，以便我们可以计算多元数据点之间的距离。我使用欧几里德距离。对于玩具示例，我加载iris数据。我仅对数据集的前 50 个实例进行聚类。

import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header = None, sep = ',')
df = df.drop(4, 1)
df = df[1:50]
data = df.values.tolist()

idl=range(len(data))
dist = create_distance_list(data)
print sort(dist, idl)

结果如下：

[[24]、[17]、[4]、[7]、[40]、[13]、[14]、[15]、[26、27、38]、[3、16、 39]、[25]、[42]、[18、20、45]、[43]、[1、2、11、46]、[12、37、41]、 [5]、[21]、[22]、[10、23、28、29]、[6、34、48]、[0、8、33、36、44]、 [31]、[32]、[19]、[30]、[35]、[9、47]]

一些数据点仍然聚集在一起。我通过添加少量数据噪声来解决这个问题actual词典中的sort功能：

# Add small random noise
for key in actual:    
  actual[key] +=  np.random.normal(0, 0.005)

知道如何正确解决这个问题吗？

欧氏距离的正确工作示例：

import numpy as np
#For random number generation


def create_distance_list(l):
'''Create a distance list for every
unique tuple of pairs'''
    dist={}
    for i in range(len(l)):
        for k in range(i+1,len(l)):
            dist[(i,k)]=abs(l[i]-l[k])
    return dist

def maximum(distance_dict):
'''Returns the key of the maximum value if unique
or a random key with the maximum value.'''
    maximum = max(distance_dict.values())
    max_key = [key for key, value in distance_dict.items() if value == maximum]
    if len(max_key)>1:
        random_key = np.random.random_integers(0,len(max_key)-1)
        return (max_key[random_key],)
    else:
        return max_key

def construct_new_dict(distance_dict,index_list):
'''Helper function to create a distance map for a subset
of data points.'''
    new={}
    for i in range(len(index_list)):
        for k in range(i+1,len(index_list)):
            m = index_list[i]
            n = index_list[k]
            new[(m,n)]=distance_dict[(m,n)]
    return new

def sort(distance_dict,idl,threshold=4):
    result=[idl]
    i=0
    try:
        while True:
            if len(result[i])>=2:
            actual=construct_new_dict(dist,result[i]) 
                act_max=maximum(actual)
                if distance_dict[act_max[0]]>threshold:
                    j = act_max[0][0]
                    k = act_max[0][1]
                    result[i].remove(j)
                    result[i].remove(k)
                    l1=[j]
                    l2=[k]
                    for iterr in range(len(result[i])):
                        s = result[i][iterr]
                        if s>j:
                            c1=(j,s)
                        else:
                            c1=(s,j)
                        if s>k:
                            c2=(k,s)
                        else: 
                            c2=(s,k)
                        if actual[c1]<actual[c2]:
                            l1.append(s)
                        else:
                            l2.append(s)
                    result.remove(result[i])
    #What to do if distance is equal?
                    l1.sort()
                    l2.sort()
                    result.append(l1)
                    result.append(l2)
                else:
                    i+=1
            else:
                i+=1
    except:
        return result


#This is the dataset
a = [1,2,2.5,5]
#Giving each entry a unique ID
idl=range(len(a))
dist = create_distance_list(a)
print sort(dist,idl)

我编写代码是为了提高可读性，有很多东西可以变得更快、更可靠、更漂亮。这只是为了让您了解如何做到这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

datastructures

clusteranalysis

hierarchicalclustering

聚类算法采用哪种编程结构的相关文章

安装后找不到pip命令

我被一个问题困住了我有一个 Python 脚本我想在我的 OSX 上运行但似乎我在很多问题上都遇到了问题要运行该脚本我应该安装 Python 和 Moviepy 为了安装 Moviepy 我使用了这个命令 sudo pip ins
嵌套生成器表达式 - 意外结果[重复]

这个问题在这里已经有答案了这是测试代码 units 1 2 tens 10 20 nums a b for a in units for b in tens units 3 4 tens 30 40 x for x in nums 假设第
创建一个支持 json 序列化的类以与 Celery 一起使用

我正在使用 Celery 来运行一些后台任务其中一项任务返回我创建的 python 类考虑到有关使用 pickle 的警告我想使用 json 来序列化和反序列化此类有没有一种简单的内置方法可以实现这一目标该类非常简单它包含 3
查找数据集中的异常值

我有一个 python 脚本它创建服务器正常运行时间和性能数据列表的列表其中每个子列表或行包含特定集群的统计信息例如格式良好的它看起来像这样 Cluster Availability Requests Sec Errors S
Django表单中的隐藏字段不在cleaned_data中

我有这个表格 class CollaboratorForm forms Form user forms CharField label Username max length 100 canvas forms IntegerField wi
我如何知道Python的unicode函数识别的所有支持的编码

Python 有一个unicode将字节流转换为 unicode 字符串的内置函数我只是希望我能查询所有可用的encoding在我的系统上但如何这个问题的原因是有人使用 MAC OS X 向我发送了一封内容编码为 iso 2022
使用 Python 访问内存映射文件

我希望利用激战 2 中的内存映射文件该文件旨在链接到 Mumble 以获得位置音频该文件包含有关字符坐标的信息和其他有用的信息我已经能够使用此脚本访问坐标信息 import mmap import struct last while
在 Python 中解压存档时出现错误

我使用 Python 下载 bz2 文件然后我想使用以下方法解压存档 def unpack file dir file cwd os getcwd os chdir dir print Unpacking file s file cmd
为什么我的字符串中出现不需要的换行符？

这应该很简单这很愚蠢但我无法让它发挥作用我有一个在读取文件时定义的标头 if gene env in line or gene HIV2gp7 in line header line 现在这个标题看起来像 gt lcl NC 0018
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
python 函数中的对象不可迭代错误

我有一个简单的功能如下 comdList range 0 27 for t in comdList print t 但是它返回一个 in object not iterable 错误在函数之外它工作正常这是怎么回事尝试这个 for t
如何在Python中将N毫秒添加到日期时间

我正在设置一个日期时间变量 fulldate datetime datetime strptime date time Y m d H M S f 其中日期和时间是适合日期时间性质的字符串如何将此日期时间增加 N 毫秒 Use timed
构建wheel失败/“错误：INCLUDE环境变量为空”

我正在使用 Python 2 7 11 并尝试 pip install 模块但是其中一些模块失败了我收到的消息是无法为 X 构建轮子和错误包含环境变量为空我尝试安装 Scrapy LXML 和 Twisted 但都失败了我尝
numpy.polyval() 的反函数

我想知道 np polyval 是否有一个方便的反函数我在其中给出 y 值并求解 x 我知道我可以做到这一点的一种方法是 import numpy as np Set up the question p np array 1 1 10 y
Python - 从一定范围内随机采样，同时避免某些值

我一直在阅读有关random sample 函数在random模块但没有看到任何可以解决我的问题的东西我知道使用random sample range 1 100 5 会给我来自人群的 5 个独特样本我想得到一个随机数range
Python httplib 和 POST

我目前正在使用别人编写的一段代码它用httplib向服务器发出请求它以正确的格式提供所有数据例如消息正文标头值等问题是每次尝试发送 POST 请求时数据都在那里我可以在客户端看到它但没有任何内容到达服务器我已经阅读了库规
ValueError：序列太大；不能大于 32

我写了这段代码 from Crypto Cipher import AES import numpy as np import cv2 base64 BLOCK SIZE 16 PADDING pad lambda s s BLOCK SI
Python pandas：向我的数据框中添加一列来计算变量

我有一个像这样的数据框 gt org group org1 1 org2 1 org3 2 org4 3 org5 3 org6 3 我想将列 count 添加到 gt 数据帧以计算组的成员数量预期结果如下 org group count
Mac 无法安装 Tensorflow

我检查了我的 pip3 和 python3 版本 tensorflow MacBook Pro de Hector 2 tensorflow hectoresteban pip3 V pip 10 0 1 from Users hector
定义Python类时，如何在其中设置随机变量？

假设我有一个名为Person 其中只有该人的姓名和性别性别应从男性和女性中随机选择为此我导入random randint 功能根据随机int确定随机性别 import random class Person alias random

随机推荐

为什么我不能分配 const 但我可以控制台记录它？

我做了一些java脚本练习让几个链接按字母顺序排列这是 HTML a href a is good a a href c is good a a href b is good a JavaScript const allhref doc
Python 子进程在发出 HTTP 请求时无提示崩溃

我在组合多处理请求或 urllib2 和 nltk 时遇到问题这是一个非常简单的代码 gt gt gt from multiprocessing import Process gt gt gt import requests gt g
将变量传递给 SSIS 中的项目参数

我是这个网络的新手希望我能找到这个问题的答案我有一个 SSIS 项目其中包含多个使用项目参数的包我正在尝试更新项目参数例如 PeriodStart 2014年5月31日我找不到动态写入项目参数的方法我在 4 0 框架中使用 V
直接从我的 github 存储库部署到 heroku

如何直接从 GitHub 远程存储库将应用程序部署到 Heroku 是否存在这样的命令 heroku push https github com user repository git 有小费吗技巧你可以将服务放在 Github 和 H
Android 上的 charles ssl 证书安装无法正常工作

As per SSL 代理 Charles 和 Android 问题 https stackoverflow com questions 17823434 ssl proxy charles and android trouble 我正在尝
jQuery find() 只返回第一个匹配的结果？

我在 jQuery 中使用 find 方法但无法获得与选择器条件匹配的所有结果这是我的 HTML div class something div
成员函数的Decltype

class A int f int x int j return 2 decltype f p 给我错误 error decltype cannot resolve address of overloaded function 我不明白为什
Delphi 生成的 Dylib 在 OSX 上的可靠部署

我想在 OSX 上部署一个 dylib 它是用 Delphi 创建的这个 dylib 应该是可由第三方应用程序加载这看起来像是一个重复的问题但经过大量搜索后我找不到答案这和这个是同一个问题 https forums embarca
如何在mvc视图中的表中显示数据库数据

在我的 MVC 应用程序中我从数据库检索数据我想在表格中显示退役数据控制器代码 public ActionResult MyAccount var user User Identity Name string sThumbnails
Angular ui 路由器状态 - 具有相同模板和控制器的多个状态

我使用 Angular ui 路由器状态提供程序在 AngularJS 应用程序中定义了如下状态而且我想用相同的配置定义多个状态即使用相同的模板和控制器 stateProvider state parent templateUrl
Openlayers 3 中心地图

我在唱歌开放层 3 http openlayers org en v3 0 0 apidoc 显示地图我想使用经纬度坐标将地图居中我正在使用快速入门代码 http openlayers org en v3 1 1 doc quickst
Web API 2 c# 中的 Google reCaptcha

我有一个 ASP NET Web API 2 项目我正在尝试从表单中读取 Google Captcha 我尝试了这段代码 public string Post FoundingRequest model var response Requ
如何使用 xpath 提取
标记之间的文本

以下是我的应用程序中按钮的代码 span class ms cui ctl largelabel New br Map span 我想单击该按钮并使用 Selenium Webdriver 我尝试了多种组合但它对我不起作用以下是我尝试过
一键安装 Safari 扩展

当用户下载插件 Firefox 例如时下载完成后插件安装就会开始在 Safari 中是否有可能实现同样的目标即用户单击链接下载插件下载后会自动开始安装我认为这不可能在任何其他域上执行除了extensions apple com
Cmake：在自定义目录中查找 protobuf 包

我有 cmake 3 10 x 并下载了当前的 protobuf 源 3 6 1 使用 cmake 我创建了 bin 目录 PROTOBUF SOURCE DIR bin 在其中成功构建了该库下一步我想在我的基于 cmake 的项目中使用
在 Jenkins 服务器上找不到 tcpSlaveAgentListener

我正在尝试从从机连接到 Jenkins 主实例从连接的角度来看一切看起来都很好我可以在 Jenkins 的配置全局安全性中设置选定的 JNLP 代理的 TCP 端口从那里启动从节点 curl http myjenkinsurl
在方法签名中使用 new 关键字通常只是为了可读性吗？

我读过关于new关键词在方法签名中并看到了下面的例子this https stackoverflow com questions 1014295 c sharp new keyword in method signature发帖了但还是不
连接到 Amazon EC2 实例时 SSH 挂起

我可以使用以下命令连接到 ec2 实例但今天我无法使用它进行连接 ssh i abcKey pem email protected cdn cgi l email protection v 以下是详细内容我已经在 EC2 中打开了 SS
Java 中使用 PBKDF2 进行密码验证

我正在用 Java 进行基于密码的文件加密我使用 AES 作为底层加密算法PBKDF2WithHmacSHA1使用以下代码从盐和密码组合中派生密钥我从本网站上的另一位慷慨的海报获得 SecretKeyFactory f SecretKe
聚类算法采用哪种编程结构

我正在尝试实现以下分裂聚类算法下面是该算法的简短形式完整的描述可用here https dl dropboxusercontent com u 540963 diana pdf 从样本 x i 1 n 开始将其视为由 n 个数据点

聚类算法采用哪种编程结构

聚类算法采用哪种编程结构 的相关文章

随机推荐

热门标签

聚类算法采用哪种编程结构的相关文章