RMySQL 的文档非常好 - 但它确实假设您了解 SQL 的基础知识。这些都是:
- 创建数据库
- 创建一个表
- 获取数据到表中
- 从表中取出数据
第 1 步很简单:在 MySQL 控制台中,只需“创建数据库 DBNAME”。或者从命令行使用mysql管理员,或者通常有 MySQL 管理 GUI。
第 2 步有点困难,因为您必须指定表字段及其类型。这取决于 CSV(或其他分隔)文件的内容。一个简单的例子如下:
use DBNAME;
create table mydata(
id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
height FLOAT(3,2)
);
这表示创建一个包含 2 个字段的表:id,这将是主键(因此必须是唯一的),并且将随着新记录的添加而自动增量;和height,这里指定为浮点数(数字类型),总共 3 位数字,小数点后 2 位(e.g.100.27)。你明白这一点很重要数据类型 http://dev.mysql.com/doc/refman/5.0/en/data-types.html.
第 3 步 - 将数据导入表的方法有多种。最简单的方法之一是使用mysql导入公用事业。在上面的示例中,假设您的数据位于与表(mydata)同名的文件中,第一列是制表符,第二列是高度变量(没有标题行),这将起作用:
mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata
第 4 步 - 要求您知道如何运行 MySQL 查询。再次,一个简单的例子:
select * from mydata where height > 50;
意思是“从 mydata 表中获取高度大于 50 的所有行(id + height)”。
一旦掌握了这些基础知识,您就可以转向更复杂的示例,例如创建 2 个或更多表并运行连接每个表中数据的查询。
然后 - 您可以查阅 RMySQL 手册。在 RMySQL 中,您设置数据库连接,然后使用 SQL 查询语法从表中返回行作为数据框。因此,掌握 SQL 部分确实很重要 - RMySQL 部分很简单。
网上有大量的 MySQL 和 SQL 教程,包括“官方”tutorial http://dev.mysql.com/doc/refman/5.0/en/tutorial.html在 MySQL 网站上。只需谷歌搜索“mysql 教程”。
就我个人而言,我根本不认为 80 Mb 是一个大数据集;我很惊讶这会导致 RAM 问题,并且我确信本机 R 函数可以很轻松地处理它。但是学习 SQL 等新技能是件好事,即使您不需要它们来解决这个问题。