R 中的对称非负矩阵分解

2024-04-01

I am trying to implement NMF in R based on the following formula :
H is initially guess and then iteratively update based on this formula. I wrote this code but it takes like ever to execute. How can I rewrite this code? W is similarity matrix.

sym.nmf <- function ( W )
{
        N <- ncol(W)
        set.seed(1234)
        H <- matrix(runif(N * k, 0, 1),N,k)

        J1 <- 0

        while (0 < 1)
        {
                HT <- t(H)
                A <- W %*% H
                B <- H %*% HT %*% H
                H <- 0.5 * ( H * ( 1 + ( A / B )))
                J = W - (H %*% t(H))
                J = sum (J^2)
                if ( (J1 != 0 ) && (J > J1) )
                        return (H1)
                H1 <- H
                J1 <- J
        }

}

这是一个重做的sym.nmf在此过程中进行了一些统计上重要的改进和速度增益。

Add a 相对耐受性 (rel.tol) 参数，当 J[i] 在范围内时中断循环rel.tolJ[i-1] 的百分比。按照您的设置方式，只有当 0 == 1 或机器精度变得比拟合本身更加可变时，您才会停止循环。理论上，你的函数永远不会收敛。
Add a seed，因为再现性很重要。沿着这条线，您可能会考虑使用非负双 SVD 进行初始化以获得领先优势。但是，根据您的应用程序，这可能会将您的 NMF 推向局部最小值，而该局部最小值不能代表全局最小值，因此可能很危险。就我而言，我被锁定在类似 SVD 的最小值中，并且 NMF 最终收敛到完全不同于随机初始化的因式分解的状态。
Add a 最大迭代次数 (max.iter），因为有时您不想运行一百万次迭代来达到您的容忍阈值。
替代在crossprod and tcrossprod基础功能%*%功能。根据矩阵大小，这可实现约 2 倍的速度增益。
减少检查收敛的次数，因为计算残差信号W减去后HH^T占用了近一半的计算时间。您可以假设需要数百到数千次迭代才能收敛，因此只需每 100 个周期检查一次收敛情况。

更新功能：

sym.nmf <- function (W, k, seed = 123, max.iter = 10000, rel.tol = 1e-10) {
  set.seed(seed)
  H <- matrix(runif(ncol(W) * k, 0, 1),ncol(W),k)
  J <- c()
  for(i in 1:max.iter){
    H <- 0.5*(H*(1+(crossprod(W,H)/tcrossprod(H,crossprod(H)))))

    # check for convergence every 100 iterations
    if(i %% 100 == 0){
      J <- c(J,sum((W - tcrossprod(H))^2))
      plot(J, xlab = "iteration", ylab = "total residual signal", log = 'y')
      cat("Iteration ",i,": J =",tail(J)[1],"\n")
      if(length(J) > 3 && (1 - tail(J, 1)/tail(J, 2)[1]) < rel.tol){
        return(H)
      }    
    }
    if(i == max.iter){
      warning("Max.iter was reached before convergence\n")
      return(H)
    }
  }
}

目标函数也可以被隔离，并且Rfast可以用于并行计算Rfast::Crossprod() and Rfast::Tcrossprod()以及。

sym.nmf <- function (W, k, seed = 123, max.iter = 100, rel.tol = 1e-10) {
  set.seed(seed)
  require(Rfast)
  H <- matrix(runif(ncol(W) * k, 0, 1),ncol(W),k)
  J <- c()
  for(i in 1:max.iter){
    H <- 0.5 * fit_H(W,H, num.iter = 100)
    J <- c(J,sum((W - tcrossprod(H))^2))
    plot(J, xlab = "iteration", ylab = "total residual signal", log = 'y')
    cat("Iteration ",i,": J =",tail(J, n = 1),"\n")
    if(length(J) > 3 && (1 - tail(J, 1)/tail(J, 2)[1]) < rel.tol){
      return(H)
    }
    if(i == max.iter){
      warning("Max.iter was reached before convergence\n")
      return(H)
    }
  }
}

fit_H <- function(W,H, num.iter){
  for(i in 1:num.iter){
    H <- 0.5*(H*(1+(Rfast::Crossprod(W,H)/Rfast::Tcrossprod(H,Rfast::Crossprod(H,H)))))
  }
  H
}

现在这个目标函数可以转换为 Rcpp 以进一步提高速度。并行化还可以在目标函数（并行化crossprod and tcrossprod）或并行运行多个分解（因为通常需要多次重新启动才能发现可靠的解决方案）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

R 中的对称非负矩阵分解的相关文章

如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p
使用 ggplot 构面时增加闪亮的绘图大小

有没有办法增加绘图窗口的大小shiny取决于在一个中使用的面的数量ggplot图也许使用垂直滚动例如使用下面的示例当输入为 A 有三个方面情节看起来不错当选项 B 选择绘图数量会增加但绘图窗口保持相同大小导致绘图太小是否有
如何返回包含最大值标签的向量

我有一个 4 列数组我想获得一个向量其中每行包含包含该行最大值的列的标签我可以在循环中执行此操作但我想使用矩阵函数来提高速度我怎样才能在不编写自己的库函数的情况下做到这一点有一个函数可以做到这一点如果x是你的矩阵尝试max
如何从 R 数据框中提取关键字

我是 R 中文本挖掘的新手我想从数据框的列中删除停用词即提取关键字并将这些关键字放入新列中我尝试制作一个语料库但它对我没有帮助 df C3是我目前拥有的我想添加栏目df C4 但我无法让它工作 df lt structure l
R中整数类和数字类有什么区别

我想先说我是一个绝对的编程初学者所以请原谅这个问题是多么基本我试图更好地理解 R 中的原子类也许这适用于一般编程中的类我理解字符逻辑和复杂数据类之间的区别但我正在努力寻找数字类和整数类之间的根本区别假设我有一个简单的向量x
在 igraph 中为社区分配颜色

我在 igraph 中使用 fastgreedy community 检测算法在 R 中生成社区代码返回 12 个社区但是在绘图时很难识别它们因为它返回的图的颜色数量有限我怎样才能用十二种不同的颜色绘制这个图表 l2 lt layo
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
更快的 %in% 运算符

The 快速匹配 https cran r project org web packages fastmatch index html包实现了更快的版本match对于重复匹配例如在循环中 set seed 1 library fastma
读取R中打开的Excel文件

有没有办法将打开的Excel文件读入R 当Excel中打开一个excel文件时 Excel会对文件加锁比如R中的read方法无法访问该文件你能绕过这个锁吗 Thanks 编辑这发生在带有原始 Excel 的 Windows 下发生错
排序因素与水平

有人能解释一下 R 中 ordered 参数的用途吗 R says ordered逻辑标志来确定级别是否应被视为有序按给定的顺序所以如果我有一个名为名称的因素并设置ordered TRUE names lt factor c fred
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
ubuntu中R的igraph包的安装

我使用以下命令在 ubuntu 中安装 R 的 igraph 包 install packages igraph 但我收到一条错误消息警告无法访问存储库的索引 http ftp iitm ac in cran src contrib h
如何在knitr和RStudio中为word和html设置不同的全局选项？

我正在使用 RStudio 0 98 932 和 knitr 1 6 想要为word和html设置不同的全局knitr选项例如想要将word的fig width和fig height设置为6 html的fig width和fig hei
无法更新/编辑从 R 中的包（`gratia`）导出的 ggplot2 对象

我希望我在这里遗漏了一些令人痛苦的明显的东西我希望更新例如修复标题实验室等由生成的 ggplot 对象gratia draw 不太确定为什么我无法更新该对象有一个简单的解决方案吗 devtools install github
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
警告消息 - 来自 dummies 包的 dummy

我正在使用 dummies 包为分类变量生成虚拟变量其中一些变量具有两个以上类别 testdf lt data frame A as factor c 1 2 2 3 3 1 B c A B A B C C C c D D E D D E
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t

随机推荐

如何识别您正在虚拟机下运行？

有没有办法从虚拟机内识别您的代码正在虚拟机内运行我想有或多或少简单的方法来识别特定的虚拟机系统特别是如果虚拟机安装了提供商的扩展例如 VirtualBox 或 VMWare 但是有没有一个通用的方法来识别你不是直接在CPU上运行的呢
标准是否要求重命名是原子的？

当我试图回答这个问题时出现了一个有趣的问题 mv 在我的 fs 上是原子的吗 https unix stackexchange com questions 322038 is mv atomic on my fs 322074 32207
Windows 无法将参数传递给 python 脚本

在 py script py 中 import os import sys l len sys argv if l 1 print no args else if l gt 1 print first arg is s sys argv 1
基于 NSSplitViewController 的应用程序几乎永远不会以正确的大小启动

我有这个应用程序它使用NSSplitViewController作为根并且有一个NSTabViewController作为其详细视图控制器连接此应用程序设置为以 1024x768 启动左窗格应以 320x768 启动右窗格 tabV
如果组件的容器被移除，是否需要调用`unmountComponentAtNode`？

我渲染一个 React 组件SettingsTab在一个名为的包装器中TeamView 它的 API 看起来像 class TeamView constructor this el document createElement div re
TreeView、HierarchicalDataTemplate 和递归数据

对于我的树视图我有两个不同的类提供 ItemsSource public class TreeViewModel ViewModelBase public ObservableCollection
找不到我的语法错误，VC++ 说有一个

我在这里遇到了一些问题我正在搞乱机器代码和函数指针并且 VC 根本拒绝编译我的一些代码这完全按照预期编译和运行 include
Hibernate 使用错误的表名进行三级继承的 order by 表达式

在我们的项目中我们有不同类别呈现的不同用户类型我们有一个 BaseEntity 类作为 MappedSuperclass 当我们尝试将用户类与 InheritanceType JOINED 一起使用时 hibernate 会创建一条我们
如何为react-native应用程序设置URL方案/链接

我想使用 oauth 为 Spotify Web API 授予对 React Native 应用程序的访问权限我知道我需要使用linking https facebook github io react native docs linki
即使具有 SELECT 权限也无法选择表

我有两个用户 USER1 and USER2 USER1有特权create table and USER2没有这个特权 USER1创建了一个名为EMPLOYEE并授予select该表的特权USER2 使用 USER1 凭据 1 创建表 CR
如何知道我的二进制可执行文件的内存占用量

我想知道是否有办法知道用 C 语言编码的二进制可执行文件的内存占用量有关二进制可执行文件的信息使用OpenWrt分支 Attitude Adjustment 的工具链编译架构为x86 在 Linux Unix 系统上您可以使用siz
构建 Keras Tensorboard 图

当我创建一个简单的 Keras 模型时 model Sequential model add Dense 10 activation tanh input dim 1 model add Dense 1 activation linear
如何在 UNIX shell 中将制表符分隔的文本复制到剪贴板，同时保留制表符？

我正在尝试将 UNIX 环境中的文件的几行复制并粘贴到网页中我想通过破坏选项卡来保留原始格式但是当我选择一段文本并将其复制并粘贴到网页中时所有选项卡都已转换为不同长度的空格有人可以告诉我如何保留原始标签吗它需要尽可能简单以便新
数据库表命名，复数或单数[重复]

这个问题在这里已经有答案了命名数据库的表和模式时最好使用单数或复数例如应该是客户还是客户命名时应该用Capital 如Customer或customer吗关于命名有什么最佳实践吗这个问题需要一场宗教战争我毫不怀疑它应该是复数
C++11 空列表联合的初始化 - 是否保证初始化联合的完整长度？

在 C 11 中我有以下联合 union SomeData std uint8 t Byte std uint16 t Word std uint32 t DWord unsigned char String 128 如果我这样初始化联合
Git checkout——恢复丢失的文件

我不小心删除了 git 存储库上的本地文件更改他们没有被承诺甚至没有被推动我做了什么 git 状态然后显示未暂存提交的文件并且我意外地通过此命令删除了名为 smdr 的整个文件夹 git checkout smdr 然后文件更改就
Latex中如何设置标题字体颜色

Latex 中可以更改标题字体颜色吗你可以看看sectsty包裹 secsty 包提供了一组命令用于更改标准 LATEX 2 文档类中各个章节标题所使用的字体 1 从手册中确保您在文档中包含该包方法是在您的文件序言 usepack
C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？

我有一个像这样的印地语脚本文件 3 我必须编写一个程序为每个句子中的每个单词添加一个位置因此特定单词位置的每一行的编号应以括号中的 1 开头输出应该是这样的 3 1 2 3 4 5 6 7 8 9 上面这句话的意思是 3 India
我需要在 asp.net 中屏蔽文本框

该文本框中只能包含数字条目必须在 100 到 500 之间文本框需要包含 3 位小数我不希望在将值插入数据库时出现任何错误我需要使用 jQuery 或 ASP NET 验证控件吗如果 jQuery 有用那么我会使用哪个插件或
R 中的对称非负矩阵分解

I am trying to implement NMF in R based on the following formula H is initially guess and then iteratively update based

R 中的对称非负矩阵分解

R 中的对称非负矩阵分解 的相关文章

随机推荐

热门标签

R 中的对称非负矩阵分解的相关文章