我正在尝试根据如下数据创建一个市场篮子矩阵:
input <- matrix( c(1000001,1000001,1000001,1000001,1000001,1000001,1000002,1000002,1000002,1000003,1000003,1000003,100001,100002,100003,100004,100005,100006,100002,100003,100007,100002,100003,100008), ncol=2)
这代表以下数据:
colnames(input) <- c( "Customer" , "Product" )
由此创建一个矩阵,其中将客户作为行,将所有产品作为列。这可以通过首先创建带有零的矩阵来实现:
input <- as.data.frame(input)
m <- matrix(0, length(unique(input$Customer)), length(unique(input$Product)))
rownames(m) <- unique(input$Customer)
colnames(m) <- unique(input$Product)
这一切都足够快(有 750 000 多行数据,创建一个 15000 x 1500 矩阵),但现在我想在适当的地方填充矩阵:
for( i in 1:nrow(input) ) {
m[ as.character(input[i,1]),as.character(input[i,2])] <- 1
}
我认为必须有一种更有效的方法来做到这一点,正如我从 stackoverflow 了解到的那样,for 循环通常可以避免。那么问题来了,有没有更快的方法呢?
我需要矩阵中的数据,因为我想使用插入符之类的包。之后我可能会遇到与这里相同的问题R 内存管理建议(插入符、模型矩阵、数据框) https://stackoverflow.com/questions/6449588/r-memory-management-advice-caret-model-matrices-data-frames,但这是以后要关心的问题。