R中使用余弦距离的层次聚类

2024-05-31

我想通过使用余弦相似度与 R 编程语言对文档语料库进行层次聚类，但出现以下错误：

if (is.na(n) || n > 65536L) stop("大小不能为 NA 或超过 65536") ：需要 TRUE/FALSE 时缺少值

我应该怎么办？

为了重现它，这里有一个例子：

library(tm)
doc <- c( "The sky is blue.", "The sun is bright today.", "The sun in the sky is bright.", "We can see the shining sun, the bright sun." )
doc_corpus <- Corpus( VectorSource(doc) )
control_list <- list(removePunctuation = TRUE, stopwords = TRUE, tolower = TRUE)
tdm <- TermDocumentMatrix(doc_corpus, control = control_list)



tf <- as.matrix(tdm)
( idf <- log( ncol(tf) / ( 1 + rowSums(tf != 0) ) ) )
( idf <- diag(idf) )
tf_idf <- crossprod(tf, idf)
colnames(tf_idf) <- rownames(tf)

tf_idf

cosine_dist = 1-crossprod(tf_idf) /(sqrt(colSums(tf_idf^2)%*%t(colSums(tf_idf^2))))
cluster1 <- hclust(cosine_dist, method = "ward.D")

然后我得到错误：

if (is.na(n) || n > 65536L) stop("大小不能为 NA 或超过 65536") ：需要 TRUE/FALSE 时缺少值

有2个问题：

1: cosine_dist = 1-crossprod(tf_idf) /(sqrt(colSums(tf_idf^2)%*%t(colSums(tf_idf^2))))因为除以 0，所以会产生 NaN。

2: hclust需要一个 dist 对象，而不仅仅是一个矩阵。看?hclust更多细节

两者都可以通过以下代码解决：

.....
cosine_dist = 1-crossprod(tf_idf) /(sqrt(colSums(tf_idf^2)%*%t(colSums(tf_idf^2))))

# remove NaN's by 0
cosine_dist[is.na(cosine_dist)] <- 0

# create dist object
cosine_dist <- as.dist(cosine_dist)

cluster1 <- hclust(cosine_dist, method = "ward.D")

plot(cluster1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tm

hierarchicalclustering

R中使用余弦距离的层次聚类的相关文章

为什么 ggplot2 图例不结合手动填充和缩放值？

预期行为如果我用 ggplot2 创建一个绘图并使用单独的形状和填充比例来描绘数据我希望图例会在白色填充点看起来是空心的和黑色填充点看起来不空洞的在下面的示例代码中 Windows 的图例项应为白色空心点 Linux 的
在闪亮仪表板中显示/隐藏菜单项

当进入应用程序时我需要隐藏一个菜单项当用户选择某个值时菜单项必须出现我努力了shinyjs功能hidden 并且它隐藏了一个 menuItem 但是当使用show or toggle 菜单项不会出现我发现了Rshinydashbo
glmnet R 包中的 cv.glmnet 出现“drop(y %*% rep(1, nc)) 错误”错误

我有一个返回 cv glmnet 模型的 auc 值的函数尽管不是大多数时间但在执行 cv glmnet 函数时它经常返回以下错误下降误差 y 代表 1 NC 在为函数 drop 选择方法时评估参数 x 时出错 y 中的错误 rep
不同大小组的高效递归随机抽样

这个问题是我之前关于递归随机抽样问题的后续问题高效的递归随机采样 https stackoverflow com questions 69824065 efficient recursive random sampling 当组大小相同或每
评估 R 中字符串指向的函数

假设我有以下内容 x lt 1 10 squared lt function x x 2 y lt squared 我希望能够使用 y 定义的字符串来评估该函数像 eval y 这样的东西我知道这是错误的但会返回 1 1 4 9 16
什么是 data.frame 可以做而 data.table 不能做的事情？

我刚刚开始使用 R 并遇到了 data table 我发现它很棒一个非常天真的问题我可以忽略 data frame 来使用 data table 以避免两个包之间的语法混淆吗来自数据表常见问题解答 http datatable r f
如何规划庭院灯最有效的路线

我正在尝试挂一些庭院灯基于另一个问题 https cs stackexchange com questions 80134 christmas light route efficiency我问我意识到我需要一种算法来解决路由检查问题 h
哪种 LaTeX 包与 knit 一起使用以获得更多的表格控制？禁忌？

我正在用 knitr 写一张更长的桌子xtable和tabular environment longtable 在 longtable 包中时print将它们纳入我的 Rnw file 问题是我对longtable环境控制不够我有一些文本
根据绘图单击事件对数据框进行子集化

我有下面的数据框 Name lt c John Bob Jack Number lt c 3 3 5 NN lt data frame Name Number 还有一个简单闪亮的应用程序可以从中创建一个绘图直方图我的目标是单击直方图的一
R：使用 as.formula 修复模型中的模型调用

我有一个gls模型其中我将公式来自另一个对象分配给模型 equation lt as formula aic obj row model gt equation temp avg I year 1950 mod1 lt gls equ
ts(x) 中的错误：“ts”对象必须有一个或多个观察结果

当我使用进行预测时forecast库我注意到以下代码没有按预期运行 library forecast library dplyr df1 lt data frame gp gl 20 5 dt seq 1 100 get lt funct
R 中整数向量的大小

我原以为 R 有一个用于存储对象的标准开销看起来是 24 字节至少对于整数向量而言但一个简单的测试表明它比我意识到的要复杂例如采用长度为 100 的整数向量使用随机采样希望避免任何可能存在的偷偷摸摸的序列压缩技巧 https
在 R 中使用科学记数法和 xtable

我将 data frame 传递给 xtable dat table lt xtable dat 1 20 digits 10 我宁愿使用科学记数法而不是像那样显示数字我该怎么做呢看过了但我发现的只是R 格式化xtable中的数字
如何连接 R 列表中的多个 .wav 文件？

我有一个 wav 文件列表my list library seewave library tuneR data tico audio lt tico freq lt 22050 breaks lt c 0 0 2 0 4 0 6 0 8 i
当 header=TRUE 时 read.fwf 出错

我的模拟数据如下所示 LastName Date email CreditCardNum AgeZip Amount Paul 21 02 14 email protected cdn cgi l email protection 4241
根据第二个数据帧中的匹配创建新列

如果有两个数据框 top3df http dpaste com 1709875 and qw qw lt structure list id structure 1 25 Label c w01 w02 w03 w04 w05 w06 w0
在R中提取其他两个字符串之间的字符串

我试图找到一种简单的方法来提取出现在两个已知子字符串之间的未知子字符串可以是任何内容例如我有一个字符串 a lt anything goes here STR1 GET ME STR2 anything goes here 我需要提取
在ggplot2中添加水平线到绘图和图例

这段代码创建了一个漂亮的图但我想在 y 50 处添加一条水平黑线并让图例显示一条黑线并在图例中显示文本 cutoff 但在图例中保留源点我可以使用 geom line 添加该行但无法在图例中获取该行 library ggplot2
生成与现有变量具有预定义相关性的二进制变量

对于模拟研究我想生成一组随机变量连续变量和二元变量这些变量与已经存在的变量具有预定义的关联binary变量此处表示为x 对于这篇文章假设x是按照下面的代码生成的但请记住在现实生活中 x是一个已经存在的变量 set seed 1
用于检查和批量线性模型的数据表选项

我想知道是否有data table用于从数据集中批量处理线性模型并首先进行检查的选项我需要对每个唯一标识符运行一堆线性模型但首先我需要进行检查对于每个唯一的 id 和年份我需要检查是否有至少 24 个月的先前每月数据但不超过 60

随机推荐

是否可以使用 Javascript 读取 PHP 会话？

我正在使用 cakePHP 1 26 在控制器中我得到了一个包含以下代码行的函数 this gt Session gt write testing user this gt Session gt read testing 现在系统编写了一
ruby 1.9.1 的 gem install mongrel 失败

昨天我开始了 Rails 开发我安装了 ruby 1 9 1 rubygems 和 Rails 跑步gem install mongrel工作得很好表面上也安装了杂种我有点困惑因为 script server 默认启动 webric
设计良好且安全的 Web 应用程序示例

大多数人都会意识到OWASP WebGoat http www owasp org index php Category OWASP WebGoat Project或 Foundstone 的哈克姆图书 http www foundston
在IOS中，引导模式中的iframe无法滚动

我在引导程序模态体内有一个 iframe div class modal fade div class modal dialog div class modal content div class modal header div div
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
使用 Puppeteer 检测导航

当我在页面上使用 Puppeteer 时我正在寻找最佳实践除了不要这样做 may 但并非总是在单击单选按钮选择一个选择选项等时重新加载用例是我正在使用选项导航电子商务页面其中一些选项会导致页面重新加载其中一些不会导致页面重
为什么这条路线不匹配

我在获取匹配路线时遇到一些问题我使用 base 32 编码的 int 作为 Web 应用程序中幻灯片的短链接每个幻灯片有 5 个不同的版本我使用首字母来区分每个版本路由始终匹配除非 Base 32 编码 int 的第一个字符与指定
用 OpenCL C 编写快速线性系统求解器

我正在编写一个 OpenCL 内核它将涉及求解线性系统目前我的内核太慢了提高线性系统部分的性能似乎是一个不错的起点我还应该注意我并没有尝试使我的线性求解器并行我正在研究的问题在宏观层面上已经是令人尴尬的并行以下是我编写的 C
闪亮：在 downloadHandler 中使用 validate()

我有一个闪亮的应用程序单击按钮后会打印报告报告创建是通过 downloadHandler 函数进行的我希望在导出报告之前有一个强制输入字段合适的 Shiny 函数是 validate https shiny rstudio com
在选择项目之前设置微调器的文本

我有一个包含三个项目的微调器我使用 XML 字符串数组资源来为其提供数据当您打开活动时微调器通常会显示数组列表中的第一项我想更改它并在选择项目之前在微调器中显示文本选择一个我怎样才能做到这一点您可以通过以下两种方式之一进行操作
MySQL 中的断言

我有一个针对大型数据库运行的 SQL 脚本我想在开始时提出几个简单的查询作为健全性检查有没有办法在MySQL中写断言或者任何类型的选择如果它与该值不匹配则中止整个脚本一些疯狂的代码要点是 SET可能会引发 mysql 变量
Git 用户配置文件 - 自定义忽略

我们有一个由 5 名开发人员组成的团队致力于硬件项目我们有一个 user config h 文件其中包含每个用户的特定环境和偏好的 defines 例如他们使用的硬件版本是否应该打开声音等目前该文件位于我们的 gitignore
如何在 SQL Server 中什么都不做[重复]

这个问题在这里已经有答案了可能的重复 T SQL 中的空语句 https stackoverflow com questions 3234871 empty statement in t sql 我怎样才能让它在 SQL Server 中
RecyclerView：禁用焦点变化引起的滚动

TL DR我有一个RecyclerView of EditTexts 当用户注意力集中时EditText 1并点击EditText 2 我想EditText 2获得焦点但我不想要ReyclerView滚动我怎样才能实现这个目标我正在尝
如何排除CSS伪类选择器中的最后一个子元素

我想为从 4 到 n 1 的子 div 应用特定样式我能够从 4 到 n 执行此操作但无法排除最后一个 div 这是 jsfiddlehttp jsfiddle net 8WLXX http jsfiddle net 8WLXX con
PHP 5 的 SQLite 编译设置是什么？

SQLite 3 7 附带了新的预写日志记录 WAL http www sqlite org wal html并且有很多设置可以被配置 http www sqlite org compile html 但是似乎没有任何方法可以改变任何事情
为什么我收到编译错误“使用已删除的函数 'std::unique_ptr ...”

我收到一条巨大的编译错误消息 c mingw include c 6 1 0 bits predefined ops h 123 18 error use of deleted function std unique ptr lt Tp D
如何检查jquery数据表中的每个复选框？

我有一个第一列带有复选框的表格我使用 jQuery DataTable 插件显示我的表格我制作了 2 个链接来选择取消选择每个复选框这是选择全部的一个 a href Select all a 和 JavaScript functio
将 std::pair const 转换为 std::pair const 安全吗？

理论上或实践上安全吗reinterpret cast a std pair
R中使用余弦距离的层次聚类

我想通过使用余弦相似度与 R 编程语言对文档语料库进行层次聚类但出现以下错误 if is na n n gt 65536L stop 大小不能为 NA 或超过 65536 需要 TRUE FALSE 时缺少值我应该怎么办为了重现它

R中使用余弦距离的层次聚类

R中使用余弦距离的层次聚类 的相关文章

随机推荐

热门标签

R中使用余弦距离的层次聚类的相关文章