Developing and Evaluating an Anomaly Detection System
异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 y 的值来告诉我 们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。
对于异常检测算法,我们使用的特征是至关重要的,下面谈谈如何选择特征: 异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够 工作,但是最好还是将数据转换成高斯分布,例如使用对数函数: x = log(x+c),其中 c 为非负常数; 或者 x=xc, c 为 0-1 之间的一个分数,等方法。