首页>国内 > 正文

击穿黑盒模型！MIT华人博士发布ExSum，模型解释新神器

2022-05-17 08:14:01来源：新智元

人工智能近些年的快速发展主要归功于神经网络模型，但随着模型越做越大、越来越复杂，研究人员渐渐也无法完全理解模型究竟是如何做出预测的，「黑匣子」也就变得越来越黑。

能否理解黑盒模型的运行机制对于模型部署来说至关重要，关乎模型的可靠性和易用性，所以也有研究人员正在开发模型的可解释方法。

为了尝试理解模型，之前大多采用测试样例的方法来描述和解释模型的决策过程，比如在情感分析任务中，对电影评论数据高亮显示模型认为正向还是负向的关键词，也叫「局部解释」。

但对于复杂一些的任务，人类可能就没办法轻易理解了，甚至可能会产生误解，那这种解释方法就毫无用处。

最近，麻省理工学院的研究人员提出了一个全新的数学框架ExSum，可以形式化地量化和评估机器学习模型的可解释性的可理解度，论文已被NAACL 2022接收。

论文链接：https://arxiv.org/pdf/2205.00130.pdf

说得通俗点，就是看你「解释模型的规则」适不适用于更多的数据。

局部解释的一大弊端就是没法判断规则是不是可以扩展到其他测试样例上，比如高亮了「精彩」作为电影评论的正向词，那是不是意味着「不」之类的否定词就对测试没影响了？

使用ExSum，用户可以用三个指标来查看规则是否成立：覆盖率、有效性和清晰度。

覆盖率衡量规则在整个数据集中的适用范围；有效性则显示有多少样例使得规则成立；清晰度描述了规则的精确程度：一个有效的规则可能也很通用，但对于理解模型来说则没有用处。

文章的第一作者Yilun Zhou是麻省理工学院电子工程和计算机科学系（EECS）的五年级博士生，导师为Julie Shah教授。目前的研究方向是帮助人类更好地理解那些在世界上做出重要决策的模型，主要问题包括如何确保一个黑盒模型的正确工作？如何对预期的和更重要的非预期的模型行为有一个全面的理解？人类对这种复杂推理过程的理解有什么局限性？

为了回答这些问题，他开发了可解释机器学习的模型、算法和评估，并将其应用于不同的领域，包括计算机视觉（CV）、自然语言处理（NLP）和机器人学。

用数学描述经验

在训练文本分类模型时，对模型进行解释通常会怎么做？

先给模型输入一个句子，然后模型给文本预测一个标签。如果预测正确，就分析一下句子中每个词在预测中的重要度。

比如下图中的例句，在情感分类任务中的标签为正向，使用SHAP解释方法可以对文本中的每个词测量贡献度，比如「memorable」和「great」的评分更高，在情感分类时预测重要度更高；而停用词「for」得分只有-0.02，基本就是忽略掉了，对预测结果没有影响。

这么一验证，再加上模型的分类性能特别好，你可能会得出结论：模型能够正确地识别所有正向词、忽视停用词。

但事实果真如此吗？

孤证不立，模型在其他数据上是否能满足这个结论，还是个未知数；并且用人来观察这种方式也不够自动化。

ExSum框架的做法就是将这条规则「数学化」，在进行模型解释时，每个单词的每个特征都称之为一个基本的解释单元（fundamental explanation unit, FEU），在这个例子里，用到的特征就是SHAP评分。

然后生成一条规则，比如句子的情感评分（0.638）比「memorable」的评分更高，然后以0.479的评分作为正向词的基准，判断在其他句子上该条规则的正确率（3.1%）。

这种方法可以自动地测量规则的覆盖度、有效性和清晰度，能够帮助开发者更深入地理解模型的行为。

上手指南