2019/03/07
这里记录几个认为比较好的kaggle kernel,有些是数据分析,有些是针对算法。
这个kernel通过对变量分析(他的数据集都是数值型的),利用图显示了一些相关的关系;比较有意义的事他中间画的那个正太分布的曲线,不过我没看懂;
另外就是x轴是类似类别式的变量,画的箱线图;还有就是他相关分析选取的一些变量,应该有某种过滤式的算法就是这样做的。
这个kernel关注的变量依然是数值型的。首先利用可视化展示了数据,(琴图)。
但他的有些特征选择是基于主观的(最开始的时候);采用了三种方法吧,用来做特征选择:相关性,单一变量分析,最后是利用随机森林。随机森林最后并没有给出怎么来使用这些变量,这就有点尴尬。最后讲解了一下PCA的方式。
亮点:
- 那个类似箱线图的散点图,第一次见;
- 混淆矩阵用图画出来,也很有直观的参考意义。
这个kernel比较完整,基本上所有的操作都做了,数据分析、预处理、特征工程(特征选择好像没做),模型调优、模型选择等,后面可以按照这个kernel的过程过一遍。另外,他将一些内容进行函数封装,这个过程还是很不错的,代码也好整理, 我现在很多的notebook就有点乱