机器学习漫谈

2023-05-16

机器学习漫谈

数据挖掘/机器学习项目一般包括四个关键部分，分别是，数据分析，特征工程，建立模型，验证。

1 数据分析

从广义上讲，数据分析包括数据收集，数据处理，数据清洗，探究性数据分析，建模和算法设计，数据可视化等等[1]。从狭义上讲，数据分析指的是探究性数据分析（EDA）。

所谓探索性数据分析（Exploratory Data Analysis，以下简称EDA），是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法[2]。

数据分析常用工具有Excel，SPSS，python，R等等。我常用的工具是Excel和python。

数据分析可以做什么？

1、计算数据中每个属性的范围，四分位点，百分位点等。

2、单属性排序，多属性排序，取Top N或Bottom N。

3、按条件过滤。多个条件联合过滤，做交并差。

4、利用图表查看某个属性值在给定数据集上的分布情况。比如箱线图，直方图，折线图。

5、利用散点图查看两个属性的相关性。

6、聚类分析，通过可视化数据发现相似的对象。聚类是将相似的对象划为同一组，使得组内对象相似度高，组间对象差异大[3]。

7、利用散点图查看异常点。

2 特征工程

特征工程与领域知识紧密相关，需要深入理解当前业务。特征可以分为两类，稀疏特征和紧密特征。稀疏特征是指只有极少的属性值非零的特征。

2.1 设计特征

以商品推荐为例，首先构建三类基本特征。

1、用户对商品的行为特征。最近3天（7天/14天/30天/总的）用户点击（收藏/加入购物车/购买）商品的次数；最后一次点击时间；点击（收藏/加入购物车/购买）的天数……

2、品牌自身的特征。最近7天（30天/总的）被点击（收藏/加入购物车/购买）次数，最近7天（30天/总的）点击（收藏/加入购物车/购买）该商品的用户数目，回头客的数目……

3、用户自身的特征。购买的商品件数；第一次（最后一次）访问时间（购买时间）……

由基本特征衍生出一些特征，其中包含很多强相关特征。例如，转化率，回头率，最近一个月用户点击（购买）该商品的次数除以用户对所有商品的点击（购买）次数……

特征的扩充通常是将基本特征两两相除、相乘、求交、求并等等，获得新的特征。将单特征的属性值用0-1编码扩充成多个特征也是常用的技术之一，俗称“哑变量”。也可以将多个特征的属性值按一定的权值相加，构成新的特征。

2.2 特征归一化

通常情况下，SVM和GBDT模型需要预先进行特征归一化，而RF不需要。常用特征归一化方法有三种。

1、最大最小值归一化。x' = (x - min) / (max - min)

2、Z-score归一化。x' = (x -μ) /σ

3、对数归一化。x' = log(1+x)

如果机器学习模型使用梯度下降法求最优解，那么往往需要归一化，否则很难收敛甚至不能收敛【7】。

2.3 特征选择

非正式地说，特征选择是从大量原始特征集合中，选择一个子集，使得模型简单有效。特征选择有三大好处：1、增强了模型的泛化能力，改善了预测器的性能；2、缩小了算法消耗的空间，缩短了算法消耗的时间；3、模型更容易解释。

特征选择算法分三类。

1、特征排序，又称筛选器特征选择方法（Filter Methods）。不考虑特征间的依赖性，按一定的标准为每个特征打分，从高到低选取特征。例如，分别计算每个特征与目标变量的相关系数，取绝对值最大的Top N个变量。常见的标准包括卡方检验（卡方值越大越相关），信息增益（信息增益最大越好），基尼指数（基尼指数越小越好），相关系数（相关系数越大越好）。三类经典决策树模型的主要区别在于特征选择算法不同，ID3采用信息增益，C4.5采用信息增益率，CART 采用基尼系数。优点：计算简单、快速。缺点：忽略特征间的相关性。

2、包装器方法（Wrapper Methods）。包装器方法主要有三种，向前贪心算法，向后贪心算法，向前向后算法。向前贪心算法，即从空特征集合起，每次向集合中添加一个特征，直到模型性能不再改善为止。向后贪心算法，即从满特征集合起，每次从集合中删除一个特征，直到模型性能不再改善为止。该类方法的缺点有两个，分别是容易过拟合和计算时间比较长。优点：考虑特征间的相关性。缺点：比Filter方法更容易过拟合，且计算量大。

3、嵌入式方法（Embedded Methods）。嵌入式方法和包装器方法类似，但是嵌入式方法不容易过拟合且消耗时间较短。举一个嵌入式方法的例子，引入L1正则项，训练后权重为0的特征就是被丢弃的特征。优点：考虑特征间的相关性，且比Wrapper方法计算量小得多。

“scikit-learn”文档[5]中介绍的特征选择方法包括，丢弃低方差的特征，卡方检验，用交叉检验的方法递归消除特征，用带L1正则项的线性模型训练然后选择权重非0的特征，基于树的特征选择等等。

3 建立模型

常见的四种模型分别是LR（线性回归/ logistic回归）、SVM、RF、GBDT。每种模型有自己的损失函数，损失函数由损失项和正则项两部分构成。线性回归采用平方误差损失函数，logistic回归采用log损失函数，SVM采用hinge损失函数。对于分类问题，RF通常采用基尼指数作为损失函数，又称评价标准，有时也选择将信息增益率作为评价标准。对于回归问题，RF通常将均方误差作为损失函数。对于分类问题，GBDT通常将负的二项式对数似然函数作为损失函数。对于回归问题，GBDT通常采用的损失函数包括平方误差损失函数，Huber 损失函数（对异常值不敏感），指数损失函数，对数损失函数等。

3.1 LR（线性回归/logistic回归）

一般来讲，线性回归适用于回归问题，logistic回归适用于分类问题。LR（线性回归/logistic回归）模型非常简单，不容易过拟合，适合做baseline。线性拟合好不好一般看R²，R²越接近1越好。LR计算速度很快，与L1正则化配合使用，可以处理包含成千上万维稀疏特征的海量数据。LR模型的可解释性很强，应用广泛，是其他模型的基石。LR容易吸收新的数据，并更新模型（用随机梯度下降算法）。对于很多实际问题（如广告点击率预测），往往特征非常多，这时候时间约束通常不允许我们使用很复杂的非线性分类器。这也是为什么算法发展这么多年，广告点击率预测最常用的方法还是logistic回归[6]。LR的缺点是不适合解决非线性问题，不适合处理无序类别特征（比如职业分类为工、农、商、学、兵5类）。前者的解决措施是进行特征变换，后者的解决措施是采用哑变量进行编码。

3.2 SVM

通俗点讲，线性SVM是在给定的数据集上找一个超平面，使得支持向量（超平面两边距离超平面最近的点）到超平面的距离最大。线性SVM不仅适用于大样本，也适用于小样本的分类问题。核函数使得SVM能够解决非线性问题，最常用的核函数是径向基核函数。

SVM在研究实验室中比较常见，在工业界用的比较少。线性SVM和logistic回归效果差不多，非线性SVM由于速度慢，可解释性差，参数难调等缺点，不适合处理海量数据。在工业界用的最多的还是logistic回归，特征以稀疏特征为主。

线性SVM和logistic回归的主要差别在于，SVM中只有决策边界附近的点才有意义，离决策边界很远的点在SVM模型中没有意义，而对logistic回归模型影响较大[8]。

3.3 RF

学习随机森林模型前，一定要先了解决策树模型。树越深，模型越复杂。

决策树模型的优点如下。

1、容易理解和解释，树可以被可视化。

2、不需要太多的数据预处理工作，即不需要进行数据归一化，创造哑变量等操作。

3、隐含地创造了多个联合特征，并能够解决非线性问题。

决策树模型最大的缺点是容易过拟合。

随机森林由很多棵不同的决策树构成，对于一个给定的预测对象，每棵决策树都输出一个label，最后采取“投票”的方式，选择得票最多的label作为最终结果。随机森林是一种集成方法，也被认为是最近邻预测器的一种。集成方法是将一组弱分类器以一定的方式组合起来，形成一个强分类器。

构建单棵树的步骤：

1、有放回的随机采样，样本数占总数的2 / 3左右（1 - 1/e）。

2、对于每一个结点，随机选择m个特征，从中选择能提供最好划分的特征和划分点，在下一个结点重复前两个步骤直到所有训练样例都属于同一类。

随机森林的错误率依赖两件事。

1、树之间的相关性越大，整体错误率越高。

2、单棵树的错误率越高，整体错误率越高。

随机森林的优点：

1、容易理解和解释，树可以被可视化。

2、不需要太多的数据预处理工作，即不需要进行数据归一化，创造哑变量等操作。

3、隐含地创造了多个联合特征，并能够解决非线性问题。

4、和决策树模型，GBDT模型相比，随机森林模型不容易过拟合。

5、自带out-of-bag (oob)错误评估功能。

6、易于并行化。

7、可以处理无序类别特征。

随机森林的缺点：

1、不适合小样本，只适合大样本。

2、大多数情况下，RF模型的精度略低于GBDT模型的精度。

3、适合决策边界是矩形的，不适合对角线型的。

4、不适合处理稀疏特征。（之前参加阿里比赛时，我们加了一批稀疏特征后，预测效果下降得很厉害，后来把那些稀疏特征合并后，预测效果就变好了）

3.4 GBDT

GBDT的优点：

1、能够解决非线性问题。

2、精度较高，特别是在回归问题上，GBDT的效果通常要好于RF。

GBDT的缺点：

1、需要做一些数据预处理工作，例如特征归一化。

2、与RF模型相比，GBDT模型的参数较多，且模型对参数较敏感。

3、与RF模型相比，GBDT模型更容易过拟合。

4、不容易并行化。

4 验证

最常用的验证方式是交叉验证。有时为了方便，我们也可以进行一个简单的验证：把原始数据随机拆分成两部分，一部分作训练集，另一部分作验证集。先在训练集上训练出一个模型，然后将这个模型用在验证集上，根据验证集上的预测结果和“标准答案”就可以计算出准确率、召回率或者其他指标了。

参考资料

【1】https://en.wikipedia.org/wiki/Data_analysis

【2】http://blog.sciencenet.cn/blog-350729-662859.html

【3】https://en.wikipedia.org/wiki/Cluster_analysis

【4】http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf

【5】http://scikit-learn.org/stable/supervised_learning.html#supervised-learning

【6】http://breezedeus.github.io/2014/11/15/breezedeus-feature-processing.html

【7】http://www.cnblogs.com/LBSer/p/4440590.html

【8】http://www.quora.com/Support-Vector-Machines/What-is-the-difference-between-Linear-SVMs-and-Logistic-Regression

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)