使用杰卡德距离矩阵进行 Kmeans 聚类

2024-04-13

我正在尝试创建 Jaccard 距离矩阵并对其执行 K 均值以给出簇 id 和簇中元素的 id。它的输入是 Twitter 推文。以下是代码，我无法理解如何使用 kmeans 文件中的初始种子。

install.packages("rjson" ,dependencies=TRUE)
library("rjson")
install.packages("jsonlite" ,dependencies=TRUE)
library("jsonlite")

install.packages("stringdist" ,dependencies=TRUE)
library("stringdist")
data <- fromJSON(sprintf("[%s]", paste(readLines(file("C:\\Users\\Yuzuru Onathoshi\\Desktop\\Assignment5_pxv142730_sxl162530\\Part2\\Input\\Tweets.json")),collapse=",")))

t.feature <- data
t.feature$geo<-NULL


Jmatrix<-stringdistmatrix(t.feature$text,t.feature$text,method = "jaccard")
colnames(Jmatrix) <- t.feature$from_user_id
rownames(Jmatrix) <- t.feature$from_user_id

fit <- kmeans(Jmatrix, 10)

k 均值确实不使用距离矩阵.

这很容易看出：它不适用于成对距离，但它只需要一个点与一个点的偏差center（这通常不是您的数据集的一个点）。

它需要连续的数值输入数据进行聚类，并且确实not支持任意距离函数。

k-means的核心思想是最小化方差（这与最小化欧几里得距离平方相同）。与一些教程甚至教科书相反，k-means 事实上not最小化距离（它最小化squared距离，如果你的距离是欧几里得距离；但这可能是与最小距离最小值不同的最小值）。如果您希望 k 均值最小化另一个距离，则必须找到适当的“均值”，即估计最小距离中心点的函数。已经提出了一些通用替代品，例如帕姆。

如果您将 Jaccard 距离矩阵放入 k 均值中，它通常会产生一些有用的结果，但这不是您所期望的。不是用杰卡德来比较积分，而是你通过距离向量的欧几里得平方对它们进行聚类。很容易看出，如果点与所有其他点（包括它们自己）具有相同的 Jaccard 距离，则该值恰好为 0，因此特别是它们的 Jaccard 距离必须为 0。但是如果您的数据集不平衡（有一些集群有很多物体），那么它们在这个对偶空间中也会有太大的重量。

如果您需要其他距离（并且能够计算距离矩阵），请使用层次聚类 (HAC) 而不是 k 均值！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用杰卡德距离矩阵进行 Kmeans 聚类的相关文章

将 r 数据框中的列字符串转换为数字

我有一个数据框其中有一列字符串如下所示 mydata lt c 1 356670 35 355030 1 356670 35 355030 1 356620 35 355890 1 356930 35 358660 1 357000 3
如何在 switch 语句中将向量作为参数传递

我对问题的谷歌搜索没有返回有用的结果和文档 switch没有告诉我如何做所以我希望我能在这里得到答案假设我有一个向量 cases lt c one two three 我想使用 switch 语句并将这些元素作为 switch 语句的参
自定义 colorRampPalette 中的颜色条

我定义了一个 colorRampPalette my colors colorRampPalette c light green yellow orange red 如何为其绘制颜色条图例项目最好仅使用基本包我正在寻找一个充满该颜色
向图像添加坐标，以用作 R 中的 Leaflet、Shiny 和 Shinydashboard 包中的地图

我计划使用 Leaflet Shiny 和 Shinydashboard 沿着以下很棒的路线创建一个带有医院 OHS 事件标记的交互式地图交互式地图和直方图模板 http shiny rstudio com gallery superzip
选择一个单元格内的最小值或最大值（分隔字符串）

我有一个数据框其中每个样本的列可以有多个值例如 Gene Pvalue1 Pvalue2 Pvalue3 Beta Ace 0 0381 0 00357 0 01755 0 001385 0 0037 NA 0 039 0 03 1 1
无重叠的抖动点

My data a lt sample 1 5 100 replace TRUE b lt sample 1 5 100 replace TRUE c lt sample 1 10 100 replace TRUE d lt sample
使用 purrr::map() 更改和分配新变量名称

我刚刚开始掌握编写函数并使用 lapply purrr map 使我的代码更加简洁但显然还没有完全理解它在我当前的示例中我想重命名 lm robust 对象的系数名称然后更改 lm robust 对象以合并新名称我目前这样做 li
计算 R 中数据帧的每一行中特定值的连续出现次数

我有一个data frame许多位置这么多行的变量的每月值我想计算值为零的连续月份即连续单元格的数量如果只是从左到右阅读这很容易但增加的复杂性是年底与年初是连续的例如在下面的缩短示例数据集中用季节而不是月份位置 1
如何融合颜色和形状？

当我有一个超过 6 个值的变量时我的麻烦就开始了因为这是 ggplot2 中 scale shape 函数的当前最大值由于这个问题我尝试使用另一个变量来解决这个问题我只是将原始变量的长度包裹起来这是我的示例代码 dataf lt
Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

我正在尝试动态构建一个需要运行循环的报告并为每次迭代打印一些消息表格和绘图我可以让一切正常运转except为了情节示例 rmd r echo FALSE results asis fig keep all message FALSE
R 中的 as.numeric 有什么问题？ [复制]

这个问题在这里已经有答案了 gt X864291X8X74 1 8 0000000000 9 0000000000 10 0000000000 6 0000000000 8 0000000000 10 Levels 0 0000000000
在 R 中按组检查重叠开始和结束时间

我想检查数据的重叠这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
删除 R 中具有重复属性的行

我有一个大数据框其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目在该数据框中对于某些IDs存在多个条目行我想删除这些多行显然同一 ID 的其他属性会有所不同或者换句话说我只想要每个 ID 一个条目行
按具有作业的组划分的 R 分位数

我有以下 df group rep seq 1 3 30 variable runif 90 5 0 7 5 df data frame group variable 我需要 i 按组定义分位数 ii 将每个人分配到相对于其组的分位数因此
使用 stargazer 分析包含时间序列的数据帧

我有一个面板数据集共 10 个观测值和 3 个变量观测值 30 的数量 10 行国家地区 2 列迁移参数相应年份的 1 列可以这么说我的数据框由 3 个年度数据框组成我该如何申请观星者考虑到它是一个面板数据集所以最大 N
在 Shiny 应用程序中过滤数据时，长度为 1 的字符向量除了第一个元素之外的所有元素都将被忽略错误

我有以下闪亮的应用程序 library shiny library rhandsontable library shinydashboard library ggplot2 library dplyr setwd C Users Marc
在ggplotly散点图中添加自定义数据标签

我想显示Species对于每个数据点当光标位于该点上方而不是 x 和 y 值时我用iris数据集另外我希望能够单击数据点以使标签持久存在并且当我在图中选择新位置时标签不会消失如果可能的话最基本的是标签持久性问题是一个优点这
对于多项式，获取其所有极值并通过突出显示所有单调部分来绘制它

有人问我这个有趣的问题我认为值得将其发布在这里因为 Stack Overflow 上还没有任何相关线程假设我有长度为的多项式系数n vector pc 其中次数多项式n 1对于变量x可以以其原始形式表示 pc 1 pc 2 x pc
编写健壮的 R 代码：命名空间、屏蔽和使用 `::` 运算符

简洁版本对于那些不想阅读我的案例的人来说这就是本质最小化新包破坏现有代码即编写您编写的代码的机会的推荐方法是什么尽可能坚固充分利用该功能的推荐方法是什么命名空间机制 when a just using贡献的软件包比如在一
有没有一种简单的方法可以根据多个标准进行排名，从而保留 R 中的联系？

当单个标准排序良好时 rank 函数会返回明显的结果 rank c 2 4 1 3 5 1 2 4 1 3 5 当单个标准具有联系时排名函数默认情况下将平均排名分配给联系 rank c 2 4 1 1 5 1 3 0 4 0 1 5

随机推荐

通过Powershell为证书私钥分配权限（Win 2012 R2）

在附加到域的 Windows Server 2012 R2 计算机上我运行以下语句 target machine fqdn System Net Dns GetHostByName env computerName certificate
Javascript clientHeight 和替代方案

我目前正在尝试修改一个滑入的 Javascript 函数该脚本要求您定义 div 的高度因此它在动态填充的中几乎没有用处我在 javascript 中的 clientHeight 属性上发现了一些文本但它似乎不支持将显示设置为
如何将浮点数包装到区间 [-pi, pi)

我正在寻找一些可以有效完成的不错的 C 代码 while deltaPhase gt M PI deltaPhase M TWOPI while deltaPhase lt M PI deltaPhase M TWOPI 我有什么选择更新
Git Status 使用 Cygwin 挂起

在我的 Windows 机器上我有一个可以与 msysgit 很好地配合的存储库但当我尝试跑步时git status在 cygwin 上它只是挂起不打印任何内容直到我按 Ctrl C 我怎样才能调查这个问题以找出这种行为的原因造
使用 getid3 (id3v2) 将 APIC 写入 mp3 文件

我正在尝试使用 getid3 将 APIC 图片写入 mp3 文件这是代码 cover home user public html artwork cover jpg TagData attached picture array pict
LINQ：从列表中选择项目（分组/选择/求和和最大值！）

我只是沉浸在 Linq 中并享受很多乐趣任何人都可以帮助我查询以下内容我有一个数据列表 Key Value Aaa 12 AaA 10 AAa 5 BBB 2 Bbb 1 1 I want to group by Key ToUpper
BOOST_PP_REPEAT 带数组

我的结构如下 struct E1 typedef boost tuple lt boost optional lt N type A gt N namespace boost optional lt N type B gt boost op
如何使用多个朋友的 Facebook ID 在他们的墙上发帖

在我的应用程序中我需要将图像和消息发布到多个朋友的墙上我看过关于这个问题的 stackoverflow 帖子我发现需要批量请求概念来做到这一点我不明白如何创建 json 对象我在一些帖子中看到我们不能一次发布超过 10 个帖子
如何在javascript中编写Or条件？

这是对的吗 if expiryMonth MM expiryMonth mm 对那是正确的 MDC Mozilla 开发者中心有有关逻辑运算符的大量信息 https developer mozilla org en JavaScript
如何在我的命名空间中使用默认的 php 类？

我正在使用命名空间来解决项目中使用的两个 SDK 中的类名冲突我已经在其中一个文件中声明了一个名称空间例如 namespace temp class abc extends stdClass my class def 当我点击这段代码时
Apple 推送通知服务：证书安装服务器端？

我已按照以下说明进行操作如何构建 Apple 推送通知提供程序服务器教程 http blog boxedice com 2009 07 10 how to build an apple push notification provider
Pandas 在 Groupby 中重新索引日期

我有一个以零星日期作为索引的数据框列 id 和 num 我想pd groupby id 列并将重新索引应用于数据框中的每个组我的示例数据集如下所示 id num 2015 08 01 1 3 2015 08 05 1 5 2015 0
获取 iPhone 唯一 ID 的 API？

两部分问题除了 MAC 地址之外 iPhone 是否还有唯一的 ID 如果是这样我可以使用 API 调用来获取它吗希望这不是重复的我找不到任何东西 iPhone 确实有一个唯一标识符称为 UDID 这与设置设备进行开发或进行临时分
DT with Shiny：多页可编辑数据表在编辑后跳转到第一页

我有以下程序正如标题所示每次我在第一页之后的页面上编辑项目时表格都会返回到第一页我希望表格保留在我正在编辑的页面上而不跳回到第一页我在这里的其他线程上看到了这个问题但他们的解决方案似乎不适用于当前版本DT and shiny包
foreach，性能方面。我们应该在循环之前或内部声明一次变量吗？

在 foreach 语句外部声明变量并每次在其内部分配它 foreach 或在 foreach 内创建一个新变量对于性能更好例如 private List
LINQ GroupBy 使用匿名类型比应有的效果更好

假设我有一个类定义为 public class DataHolder public string PropA get set public string PropB get set public string PropC get set p
调整文本视图中的文本无法正常工作

我正在参考TextJustify Android https github com bluejamesbond TextJustify Android 我正在实施option 2在上面的链接中当我在模拟器上运行我的应用程序时文本会在一行
PHP7 中类型声明之前的问号（？string 或？int）的用途是什么？

你能告诉我这个怎么称呼吗 string and string 使用示例 public function string parameter1 string parameter2 我想了解一些关于它们的知识但我在 PHP 文档和 google
通过 Android 应用程序在 Twitter 和 Facebook 上分享

我正在开发一个 adroid 应用程序我可以通过 facebook 和 twitter 分享文本以及后来的图片我发现一些代码正在打开 facebook twitter 共享窗口但需要共享的文本位于应用程序中的 EditText 中
使用杰卡德距离矩阵进行 Kmeans 聚类

我正在尝试创建 Jaccard 距离矩阵并对其执行 K 均值以给出簇 id 和簇中元素的 id 它的输入是 Twitter 推文以下是代码我无法理解如何使用 kmeans 文件中的初始种子 install packages rjson

使用杰卡德距离矩阵进行 Kmeans 聚类

使用杰卡德距离矩阵进行 Kmeans 聚类 的相关文章

随机推荐

热门标签

使用杰卡德距离矩阵进行 Kmeans 聚类的相关文章