R - 二进制博客数据的聚类分析

2024-02-03

我有一个与下面的示例类似的网络数据。它仅具有用户和二进制值，用于表明该用户是否点击了网站内的特定链接。我想对这些数据进行一些聚类。我的主要目标是根据用户的在线行为找到相似的用户。对此有什么好的聚类算法？我尝试过 k-means，它不适用于二进制数据。我也尝试过球形 k 均值skmeans()。我想做一个平方误差屏幕图，但我不知道如何从 skmeans 获取 SSE。

   User   link1 link2 link3 link4
    abc1     0     1     1     1
    abc2     1     0     1     0
    abc3     0     1     1     1
    abc4     1     0     1     0

如果“单击链接”是不对称的，您可以尝试使用像 jaccard 这样的二进制距离度量进行层次聚类：

dat <- read.table(header = TRUE, row.names = 1, text = "User   link1 link2 link3 link4
abc1     0     1     1     1
abc2     1     0     1     0
abc3     0     1     1     1
abc4     1     0     1     0")
d <- dist(dat, method = "binary")
hc <- hclust(d)
plot(hc)

(clusters <- cutree(hc, k = 2))
# abc1 abc2 abc3 abc4 
#    1    2    1    2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

clusteranalysis

kmeans

R - 二进制博客数据的聚类分析的相关文章

如何在 R 树形图中省略标签？

我一直在使用R 树形图包 http cran r project org web packages treemap treemap pdf我有一个 2 层深的树形图我希望打印第二级标签但不打印第一级标签使用手册页中的示例 tmPlot
mclapply 调用应该嵌套吗？

正在筑巢parallel mclapply是个好主意吗 require parallel ans lt mclapply 1 3 function x mclapply 1 3 function y y x unlist ans Outpu
读取并绘制从大文件中读取的数据

我们有相当大的文件大约为 1 1 5 GB 主要是日志文件其中包含易于解析为 csv 的原始数据随后应该将其绘制成图表以生成一组图形图像目前我们正在使用 bash 脚本将原始数据转换为 csv 文件其中仅包含需要绘制图表的数字
使用 igraph 将边缘属性显示为标签

我在 R 中使用 igraph 进行网络分析我想在图中的每条线上显示边缘属性下面是一个例子 df lt data frame a c 0 1 2 3 4 b c 3 4 5 6 7 nod lt data frame node c 0
根据另一个向量替换向量中的值

我想替换向量中的值 x 与另一个向量 y 陷阱 22 方法需要是动态的以适应向量中不同数量的级别 x 例如考虑向量x x lt sample c 1 2 3 4 5 100 replace TRUE gt x 1 2 4 1 1 3
如何加速 R for 循环？

我正在为 R 中 GWmodel 包中的 gwr basic 函数运行以下 for 循环我需要做的是收集任何给定带宽的估计参数的平均值代码如下 library GWmodel data DubVoter Dub voter LARent
使用 purrr::map() 更改和分配新变量名称

我刚刚开始掌握编写函数并使用 lapply purrr map 使我的代码更加简洁但显然还没有完全理解它在我当前的示例中我想重命名 lm robust 对象的系数名称然后更改 lm robust 对象以合并新名称我目前这样做 li
在 R 中使用 spplot 将多个绘图放在一个页面上？

我知道如何在使用简单函数图时绘制两个图 old par lt par mfrow c 1 2 plot faithful main Faithful eruptions plot large islands main Islands yla
lmer（来自 R 包 lme4）如何计算对数似然？

我试图理解 lmer 函数我发现了很多关于如何使用该命令的信息但关于它实际执行的操作的信息却很少除了这里的一些神秘注释 http www bioconductor org help course materials 2008 PHSI
Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

我正在尝试动态构建一个需要运行循环的报告并为每次迭代打印一些消息表格和绘图我可以让一切正常运转except为了情节示例 rmd r echo FALSE results asis fig keep all message FALSE
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
在嵌套 tibbles 上应用 ntile

我正在尝试申请ntile在一些嵌套的小标题上但我似乎无法让它工作你能看出我错在哪里吗 data iris iris gt group by Species gt mutate quintile ntile Petal Length 5
循环中的knitr模板和子文档

圣诞节前我之前问过跨多个 knitr 文档的单一样式表 https stackoverflow com questions 20370584 single style sheet across multiple knitr document
确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
使用 R 从字符串中提取函数参数

最好使用stringr包我想创建一个函数extract 以字符串向量作为参数 vec lt c div span icon hospital user i18n t Enrolments or i18n t Paper a string
建模前减少因子水平数量

我有一个 2600 个级别的因子我想在建模之前将其减少到 10 我想我可以通过这样的操作来做到这一点如果一个因素列出的次数少于 x 次则应将其放入名为其他的存储桶中这是一些示例数据 df lt data frame colour
在ggplotly散点图中添加自定义数据标签

我想显示Species对于每个数据点当光标位于该点上方而不是 x 和 y 值时我用iris数据集另外我希望能够单击数据点以使标签持久存在并且当我在图中选择新位置时标签不会消失如果可能的话最基本的是标签持久性问题是一个优点这
在 R Shiny 中，如何使用可排序 js 将其在列表中出现的顺序次数附加到每个列表元素？

下面的可重现代码适用于将元素从一个面板拖动到另一个面板并在拖动到面板中自动使用 HTML CSS 对拖入的每个元素进行排名顺序编号但是我现在尝试附加到每个拖动到列表元素的末尾使用某种形式的paste0 我假设该元素在拖至
有没有一种简单的方法可以根据多个标准进行排名，从而保留 R 中的联系？

当单个标准排序良好时 rank 函数会返回明显的结果 rank c 2 4 1 3 5 1 2 4 1 3 5 当单个标准具有联系时排名函数默认情况下将平均排名分配给联系 rank c 2 4 1 1 5 1 3 0 4 0 1 5
将 read.csv 与符号链接文件一起使用

我正在尝试做什么我的源文件非常大我想避免将其复制到其他文件夹中我决定创建一个指向大文件的符号链接并想使用read csv读取文件文件夹结构项目1 数据源文件 csv 项目2 数据别名到源文件 csv 什么地方出了错读取源文件

随机推荐

为什么 DoctrineMongoORMModule 从 github 的递归子模块更新失败？

这是我做错了什么还是一个更广泛的错误如果我在空目录中执行以下 git 命令 git init git submodule add https github com doctrine DoctrineMongoODMModule vend
OpenCV Java中使用Mat显示图像

我正在用Java用OpenCV编写我的第一个程序我想问一下是否可以仅使用Mat从文件加载和显示图像我在这个网站上找到了解决方案http answers opencv org question 31505 how load and di
Reflection.Emit：如何可靠地将MethodBuilder转换为RuntimeMethodInfo？

动态生成类型并调用 TypeBuilder CreateType 后我想创建一个指向新类型中的方法的委托但如果我使用类似的代码 loadedType typeBuilder CreateType myDelegate MyDelegat
APC - 无法加载动态库

这是我的 PHP ini 中的内容 extension php apc dll APC apc enabled 1 我在 Windows Server 2003 上运行 Apache 2 0 59 PHP 版本 5 2 3 我已经安装了用v
OleDbException。没有为一个或多个必需参数给出值

string connString Provider Microsoft ACE OLEDB 12 0 Data Source Application StartupPath a xlsx Extended Properties Excel
后续问题：Modelica仿真和方程初始化总时间计算

我正在写这个相关问题this https stackoverflow com questions 61375492 modelica total time calculation of simulation and equation ini
如何在 python Gekko 中加速具有 1446 个变量的整数非线性规划？

我正在解决一个整数非线性编程问题与蟒蛇壁虎其中有 1446 个整数变量 31 个变量线性组合的约束以及 1 个要最大化的非线性目标该程序需要很长时间我想知道是否可以speed up 以及如何更好地调整m solver options
在reactjs中convert-csv-to-json返回错误

使用时https www npmjs com package convert csv to json https www npmjs com package convert csv to json在reactjs中我收到错误Uncaugh
雪花上带有 RANGE 的滑动窗框的替代品

我正在将一些 BigQuery 代码迁移到雪花但在使用带有范围的 Window 函数时遇到了一些麻烦这是因为 Snowflake 系列不支持滑动窗框我需要使用 2 PRECEDING AND CURRENT ROW 之间的范围逻辑
什么是“.dll.a”文件？

我正在尝试使用 Windows 应用程序中的开源库我能找到的唯一预构建版本是一个名为 lib dll a 的文件这是什么格式我可以将其转换为普通的dll文件吗命名输出文件libjvm dll a会允许gcc认识到它是一个图书馆名为
如何将日期时间格式化为国际格式？

国际字符串表示格式为 YYYY MM DD HH MM SS HHMM 例如2010 06 10 21 21 10 0400 基本上我遇到的问题是弄清楚如何获得与 GMT 的差异 DateTime dt new DateTime 2008
django 中过滤图书列表的每位作者的图书数量

简短的问题我有两个模型 class Author models Model name models CharField max length 250 class Book models Model title models CharFie
取代 Watin 的测试框架，是否会停止维护？

我的印象是 Watin 不再被维护并询问哪个框架最适合在 net 浏览器中测试网站早在 7 月份 Jeroen 就在 WatiN 邮件列表中发表了以下言论 WatiN 还活着吗是的活动对外部是否可见 world 不这是一件坏事在
.NET 6.0 未显示在 Visual Studio 2022（常规版本）中

我已经安装了 NET 6 0 SDK和Visual Studio 2022 但是 Visual Studio 2022 不提供选择 NET 6 0 的功能我知道我可以使用目标框架编辑项目文件所以请不要这样做这个问题特别围绕 Visua
BCP - 导入到包含 IDENTITY 列的表时，转换规范的字符值无效

我正在尝试将文件从 UNIX 加载到 SQL Server 当我运行 BCP 时出现以下错误但当我将数据类型更改为 Char 时我能够加载相同的文件使用的命令 bcp SQLAAA APP XXX ACTIVITY V1 in hom
如何在 Openssl 中使用 AES 进行加密

我正在尝试编写一个示例程序来使用 Openssl 进行 AES 加密我尝试浏览 Openssl 文档这很痛苦但无法弄清楚太多我浏览了代码并找到了 API 我使用它编写了一个小程序如下所示请省略行号我没有看到任何加密发生我错过
Laravel 6.0 Eloquent - 按日期和状态排序

尝试先按最新日期订购我的桌子然后按状态订购状态可以是新建审核中拒绝已关闭状态是数据库中的枚举字段我尝试了几件事但没有成功这是我用这段代码得到的最接近的结果我是 Laravel 新手所以不知道该怎么做 inquiries
在 iOS 16.2 上水平布局 2 个文本字段时应用程序崩溃

当水平布局 2 文本字段时我的应用程序在 iOS Simulator 16 2 上崩溃了在 iOS Simulator 16 2 上逐步重现环境 Xcode 14 2 iOS 16 2 模拟器 Step 1 2 text fields
如何限制MySQL距离查询

我正在尝试执行距离计算以返回特定距离内的地点列表这是基于使用邮政编码数据库并确定从出发地到每个位置的距离我想要做的是将结果限制在距原点一定距离内但我的 MySQL 查询遇到了问题这是基本查询 SELECT ROUND DEGREES
R - 二进制博客数据的聚类分析

我有一个与下面的示例类似的网络数据它仅具有用户和二进制值用于表明该用户是否点击了网站内的特定链接我想对这些数据进行一些聚类我的主要目标是根据用户的在线行为找到相似的用户对此有什么好的聚类算法我尝试过 k means 它不适用于二

R - 二进制博客数据的聚类分析

R - 二进制博客数据的聚类分析 的相关文章

随机推荐

热门标签

R - 二进制博客数据的聚类分析的相关文章