大数据读取子样本R

2023-11-23

我非常感谢您花时间阅读本文。

我有一个 30GB 的超级文件，其中包含 600 万条记录和 3000 个 csv 格式的列（主要是分类数据）。我想引导子样本进行多项回归，但事实证明，即使我的机器中有 64GB RAM 和两倍的交换文件，这个过程也会变得非常慢并停止。

我正在考虑在 R 中生成子样本索引并使用 sed 或 awk 将它们输入到系统命令中，但不知道如何执行此操作。如果有人知道一种仅使用 R 命令来完成此操作的干净方法，我将非常感激。

一个问题是我需要选择子样本的完整观察值，也就是说我需要拥有特定多项观察值的所有行 - 它们从观察值到观察值的长度不同。我计划使用 glmnet，然后使用一些奇特的变换来获得多项式情况的近似值。另一点是我不知道如何选择样本大小以适应内存限制。

非常欣赏你的想法。

R.version
platform       x86_64-pc-linux-gnu          
arch           x86_64                       
os             linux-gnu                    
system         x86_64, linux-gnu            
status                                      
major          2                            
minor          15.1                         
year           2012                         
month          06                           
day            22                           
svn rev        59600                        
language       R                            
version.string R version 2.15.1 (2012-06-22)
nickname       Roasted Marshmallows

Yoda

正如themel 所指出的，R 在读取 csv 文件时非常非常慢。
如果你有 sqlite，它确实是最好的方法，因为看起来数据挖掘不仅仅是为了一次，但以多种方式进行多次会话。

让我们看看我们有哪些选择

将 csv 读取到 R（慢）

与用 C 编写的工具（在我的机器上）相比，在 R 中执行此操作大约慢 20 倍

这很慢

read.csv( file='filename.csv' , head=TRUE , sep=",")

预先转换为 stata dta 文件并从那里加载

不是那么好，但它应该可以工作（我从未在 30 gig 文件上尝试过它，所以我不能肯定地说）

编写一个程序将 csv 转换为 dta 格式（如果你知道你在做什么）

使用来自的资源http://www.stata.com/help.cgi?dta和代码来自https://svn.r-project.org/R-packages/trunk/foreign/src/stataread.c读写和http://sourceforge.net/projects/libcsv/
（以前做过，不过我没用过，不知道效果如何）

然后使用foreign包裹（http://cran.r-project.org/web/packages/foreign/index.html），一个简单的

library(foreign)
whatever <- read.dta("file.dta")

会加载你的数据

直接使用mysql导入csv数据（有点难用，不过懂SQL也好）

从 SQL 控制台

LOAD DATA LOCAL INFILE 'file.csv' INTO TABLE my_table 
IGNORE 1 LINES              <- If csv file contains headers
FIELDS TERMINATED BY ',' ENCLOSED BY '"' ESCAPED BY '\\' LINES TERMINATED BY '\n'

mysql -e "LOAD DATA INFILE 'ls.dat' INTO TABLE mytable1" mydatabase

然后从 R 控制台播放，使用RMySQLR 与 MySQL 数据库的接口http://cran.r-project.org/web/packages/RMySQL/index.html

install.packages('RMySQL')

然后像这样玩

mydb = dbConnect(MySQL(), user=username, password=userpass, dbname=databasename, host=host)
dbListTables(mydb)
record <- dbSendQuery(mydb, "select * from whatever")
dbClearResult(rs)
dbDisconnect(mydb)

使用 R 执行所有 sqlite/postgreSQL/MySQL 后端 SQL 操作来导入 csv（推荐）

下载，来自https://code.google.com/p/sqldf/如果您没有包裹
or svn checkout http://sqldf.googlecode.com/svn/trunk/ sqldf-read-only

从 R 控制台，

install.packages("sqldf")
# shows built in data frames
data() 

# load sqldf into workspace
library(sqldf)
MyCsvFile <- file("file.csv")
Mydataframe <- sqldf("select * from MyCsvFile", dbname = "MyDatabase", file.format = list(header = TRUE, row.names = FALSE))

然后你就出发吧！

就我个人而言，我会推荐library(sqldf)选项:-)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)