本文涉及到的主题如下所示:
- 预处理
- 基于逻辑回归的分类
- 基于支持向量机的分类
- 基于ElasticNetCV的回归分析
- 支持向量回归
- 基于相似性传播
- 均值漂移算法
- 遗传算法
- 神经网络
- 决策树算法
1、预处理
在上一章,我们已经做过一次预处理,即过滤掉停用词。一些机器学习算法对某些数据比较头疼,因为这些数据不服从高斯分布,即不满足数学期望为0,标准差为1的条件。模块sklearn.preprocessing从而应运而生,本节详细介绍该模块的使用方法。在https://www.knmi.nl/nederland-nu/klimatologie/daggegevens下载编号260的De Blit数据。我们所要的数据只是原始数据文件中的一列而已,这一列记录的是日降雨量。
代码:
#coding:utf8
import numpy as np
from sklearn import preprocessing
from scipy.stats import anderson
# 加载数据
rain = np.load('rain.npy')
rain = .1 * rain
rain[rain < 0] = .05 / 2
print("Rain mean", rain.mean()) #计算期望值
print("Rain Variance", rain.var()) #计算标准差
print("Anderson Rain", anderson(rain))#安德森检验
scaled = preproc