多少年后,小f想起了自己还是刚刚出道的小萌新时候犯的一个错误,当时模型的准确率贼高,高的离谱,就像下面这种情况
precision recall f1-score support
-1 1 1 1 1934
0 1 1 1 535
1 1 1 1 1624
micro avg 1 1 1 4093
macro avg 1 1 1 4093
weighted avg 1 1 1 4093
大佬走过来,瞄了一眼说,肯定是数据偷窥了。(意思就是去)
于是他慌了,调整数据训练集和测试集的比例,没卵用,0.1:0.99也不成,完了完了;接着调整因子呢?或者说features,100多个因子,找到了点数据偷窥的根据,你看这个因子用了全数据集的rank,嗯,使用了下面测试集的数据,有道理有道理,然后,删到了10来个,噢,随机森林的叶子和决策树的数目也要调过来,改一下改一下,花了将近一天时间来做这个。满心欢喜重新开始——
然后。。。
precision recall f1-score support
-1 1 1 1 1934
0 1 1 1 535
1 1 1 1 1624
micro avg 1 1 1 4093
macro avg 1 1 1 4093
weighted avg 1 1 1 4093
。。。场面一度非常尴尬~~~
直到这时,人们才想起来了按步debug这个破局之策~~~
因子不能手算吧,况且公式我们还检查过了,扔了很多因子呢。
看看列的头吧,嗯。??
用来计算label,也就是y值的列怎么混到X里面来了???mmp
一言以敝之,数据偷窥了,除了这个没有别的可能嗯,尤其是这么离谱的准确率,一般的偷窥还做不到吧