最近在做一个数据挖掘的算法,用到了R语言,对遇到的一些坑(基础知识)做一个简单记录
文件编码问题
脚本写完之后保存可以选择UTF-8或者GB2313,可以解决中文乱码问题。
同样,读文件的时候如果出现读不出来的情况,记得加一个’encoding’
dataset <- read.csv('C:/***/data.csv', encoding = 'GB2313')
数据对象的结构
R的数据对象从结构角度来看包括向量、矩阵、数组、数据框、列表、因子。
向量∈矩阵∈数组∈数据框∈列表
体现在Environm中主要是列表第二列的区别
Data |
|
x1 |
n obs. of m variables |
x2 |
list of n |
x3 |
num[1:n] |
x4 |
num[1:n,1:m] |
最容易混淆的就是x1和x4,两者打印出来一样但是
data[1:5]
x1打印出来的是前5列
x4打印出来的是前5个数
lm()线性回归函数报错
In summary.lm(temp_reg) : essentially perfect fit: summary may be unreliable
可能存在的问题数据格式符合但不足以拟合导致结果不够理想