机器学习可解释性

2023-11-19

20210508 -
（随笔，后续有时间在对概念有了深入理解之后再进行整理）

0. 引言

今天不想写论文，就想起了之前关注的一个内容，机器学习的可解释性。在之前的时候，或多或少了解这个东西，发现他更多的是从特征的角度来解释，这个特征怎么影响了模型。但是我一直理解不了的就是，这个概念跟以往机器学习中的特征选择又有什么区别。

今天看了一些文章之后，感觉似懂非懂；但是本质上还是没有解决这个关键疑惑。但是他们两者肯定是有不同的，不然也不可能看了这么多文章之后都没有提到。可能是我理解的角度不太准确。

1. 参考的文章

最早的时候，看这部分内容是有一个gitbook专门来进行介绍，但是实际上那篇内容说实话理论性太强，也不怎么能看的下去，也就是当时的时候得到了一些简单的理解。这次在看文章的时候，直接选择在谷歌搜索，能够得到一些基本的理解。

Machine Learning Explainability

我觉得这篇文章的介绍，算是一个非常基础的内容。首先，在第一篇文章中解释，为什么要对这个模型进行深入的理解，主要涉及三个方面：模型认为哪些特征是最重要的，对于单个预测结果来说，每个特征发挥了什么作用；在大规模的预测中，每个特征是如何影响的。

实际上在一些其他的文章中，提到了两个关键的信息：全局解释性和局部解释性。全局解释性就是每个特征对模型的贡献度概念，而局部解释性就是单个预测中，每个特征的效果。跟前面这篇文章的第三个内容还有点不一致。

在这篇文章中，最重要的部分应该就是SHAP的内容，而且这也是其他文章强调比较多的地方。

我觉得这篇文章，从基础的角度来讲，还是值得一看的，使用的范例，同时也有图进行解释。

Black-Box models are actually more explainable than a Logistic Regression

SHAP Values Explained Exactly How You Wished Someone Explained to You

Understanding SHAP for Interpretable Machine Learning

这三篇文章专注SHAP的内容进行解释，其中有一个让我疑惑的点，在第二篇文章中特别重点说明
**Indeed, SHAP is about local interpretability of a predictive model.**SHAP是局部解释性的。这点又跟其他文章不太一样，其他文章还会说SHAP具备全局解释性，通过将所有的独立样本进行完整分析。

所以这里还是有点不理解。

第三篇文章从理论的角度来进行阐述。

Explain Your Model with the SHAP Values

这篇文章，算是更完整的进行了SHAP的应用，也正是这篇文章中，明确提到了局部解释性和全局解释性，而且SHAP都能够兼顾。同时其中的代码内容，所绘制的图像基本上涵盖了很多见过的图片类型。因为已经有开源的SHAP库，进行制图会非常方便。

2. 个人思考

由于并不是专门进行研究这个方向，所以有时候就觉得很混乱；如果要进行系统学习的话，还是要看那篇gitbook的书。
但是，更应该去思考，如何应用这个内容，如果仅仅是为了应用，那么跑一个自己的数据集，也就完了。但是这样真的完了吗？得看更多的论文才行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习