2022年1月12日
第19卷，第6期

可解释的机器学习

从神话走向诊断

Valerie Chen、Jeffrey Li、Joon Sik Kim、Gregory Plumb、Ameet Talwalkar

在过去的十年中，机器学习作为一项改变社会的技术的兴起，引发了人们对无法理解日益复杂的模型的推理的担忧。IML（可解释的机器学习）领域正是在这些担忧中发展起来的，其目标是使各种利益相关者能够解决用例，例如建立对模型的信任、执行模型调试以及通常为实际的人类决策提供信息。^7,10,17

然而，尽管过去几年 IML 方法论发展迅速，但当前总体方法的一个显著特点是脱节。如图 1 所示，IML 研究人员开发的方法通常针对多样但狭隘的技术目标进行优化，但他们为消费者声称的用例仍然广泛且常常未明确指定。与对该领域的类似批评相呼应，¹⁷ 因此，充分评估这些主张并将方法论的进步转化为广泛的实际影响仍然很困难。

本文概述了 ML 社区解决这种脱节并促进更广泛采用的未来发展道路，重点关注两个关键原则

• 拥抱 IML 的“诊断”愿景。 IML 领域不应致力于为诸如“调试”和“信任”等定义不清的问题提供完整的解决方案，而应专注于开发一套经过严格测试的诊断工具这一重要但不太宏伟的目标。通过将 IML 方法视为诊断，每种方法都可以被视为提供对模型行为的有针对性的、明确的洞察力。从这个意义上说，这些方法应与更经典的统计诊断（例如，误差条、假设检验、异常值检测方法）并行使用，并以类似于它们的方式使用，这些诊断具有更清晰的何时以及如何应用它们的指南。在这种愿景下，现有的 IML 方法应被视为潜在的诊断，直到它们经过严格的测试。

• 严格评估和建立潜在的 IML 诊断。 IML 研究人员通常通过关注可量化的技术目标（例如，最大化各种忠实度概念或遵守某些理想的公理^4,18,24）来开发和评估方法。虽然这些 IML 方法通常针对模型行为的看似相关的方面，但为了证明其作为实用诊断工具的效用，必须衡量它们在具体用例中的有效性。

这两个原则促使我们首先通过一个不完整的分类法来说明我们的诊断愿景，该分类法综合了关于 IML 方法和评估的基础性工作。分类法（抽象层面如图 2 左侧所示）不仅可以作为在潜在的 IML 诊断和特定用例之间建立显式映射的模板，还可以作为统一 IML 在现实世界环境中有效性的研究的工具。此外，当前分类法的不完整性强调了研究人员和消费者需要共同努力，以扩大用例组织的覆盖范围（即在“用例目标”中），并通过遵循以下提出的工作流程来建立方法和用例之间的联系。

（1）问题定义，研究人员与消费者合作定义明确的目标用例。

（2）方法选择，他们通过浏览分类法的方法部分和/或利用先前建立的类似用例和方法之间的联系来识别目标用例的潜在 IML 方法。

（3）方法评估，研究人员与消费者合作测试所选方法是否可以满足目标用例。

然后，本文的后半部分包括关于此 IML 工作流程的最佳实践的广泛讨论，以充实分类法并向消费者提供经过严格测试的诊断。最终，可能会有一个越来越完整的分类法，允许消费者 (C) 为其用例找到合适的 IML 方法，并帮助研究人员 (R) 将其技术工作扎根于实际应用中（如图 2 右侧所示）。例如，表 1 重点介绍了三个不同的潜在诊断的具體示例，每个诊断分别对应于不同类型的 IML 方法（局部特征归因、局部反事实和全局反事实），如何为三个用例提供有用的见解。特别是，表 1 中的计算机视觉用例被扩展为一个运行示例。

背景

最近提出了一组越来越多样化的方法，并被广泛归类为 IML 的一部分。然而，鉴于这种快速发展，人们表达了多重担忧，重点是 IML 的基本基础以及研究与实践之间的差距。

对该领域基础的批评

Zachary C. Lipton 提出了早期的批评，强调 IML 的既定动机变化很大，并且可能与提出的方法不一致。¹⁷ Maya Krishnan 从哲学的角度补充了这些论点，认为可解释性作为一个统一的概念既不明确，其有用性也值得怀疑。¹⁵ 相反，应该更加关注最终目标，IML 只是其中一种可能的解决方案。

研究与实践之间的差距

多项研究也强调了现有方法与其声称的实际用途之间存在重要差距。一些研究表明，流行的方法缺乏稳定性/鲁棒性。^1,2,16 与此同时，其他研究讨论了常见的 IML 方法如何无法在现实世界中帮助人类，既指出了隐藏的假设和危险，^6,21 也通过与用户进行案例研究。^5,14

最近，许多评论文章^3,10,19,20 试图清理和组织 IML 的各个方面，但在很大程度上没有正面解决这些问题。相比之下，本文提出的将 IML 方法重新定义为诊断工具自然而然地源于这些担忧。值得注意的是，本文接受了 IML 方法的看似缺点，即仅提供关于模型的“事实”¹⁵ 或“摘要统计”²¹，而是专注于这些方法何时以及如何有用的实际问题。

IML 的诊断愿景

在我们的愿景中，诊断是一种提供关于模型的某些可操作见解的工具。作为一个类比，考虑医生可支配的一套诊断工具，这些工具类似地提供关于患者的各种见解。X 射线可能有助于识别骨折，而心率监测器可能有助于识别心律不齐。重要的是，这两种工具都不能使医生广泛地“理解”一个人的健康状况，但如果适当地应用于范围明确的问题，每种工具都可能有用。对于建立 IML 方法和明确定义的用例之间的联系，同样严格的方法对于 IML 社区至关重要。

为了开始这样的追求，让我们识别并协调您当前可能遇到的许多方法目标和用例目标。根据当前的实践和讨论，让我们考虑一个分类法，该分类法组织了顶端的方法目标和底端的用例目标的单独层次结构（如图 3 所示）。虽然该领域的诊断愿景理想地涉及一套明确定义的用例和这两方面之间的一组稳健的联系，但云用于说明当前总体上缺乏完善的诊断。展望未来，研究人员和消费者的目标是进行有原则的研究，重点是填补这两个方面的空白。首先，他们应该努力改进当前用例的组织，其中包含一个不完整的常用讨论的广泛目标列表，通过消费者-研究人员握手定义更明确的目标用例（以绿色显示）。其次，他们的目标是建立这些目标与技术目标（以蓝色显示）之间的明确联系。

方法目标

每种 IML 方法都提供对给定模型的特定类型的洞察力。这些洞察力的形式有助于提供分层组织，将现有 IML 方法的集合划分为八个方法集群。在诊断愿景中，每个方法集群都被广泛地认为是解决 TO（技术目标）的一类诊断。稍后，将以允许指定单个方法目标的方式描述每个 TO。

分层组织

分类法的顶端旨在根据现有文献中常用的三个因素区分解释提供的各种视角：^3,9,11

• 解释表示。 模型解释通常以输入和输出之间的特征关系或训练示例的形式给出。

• 特征关系的类型。 在基于特征关系的解释的上下文中，有三种不同的方法来解释模型推理的不同方面：（1）特征归因；（2）反事实；和（3）近似。请注意，由于 IML 社区较少关注生成基于示例的解释，因此我们考虑沿该分支的一个主要分组：样本重要性解释。

• 解释尺度。 解释在所需洞察力的尺度方面有所不同，其范围从局部（即，对于单个实例）到全局（即，对于输入空间的明确定义的区域）。

叶节点是 TO，它是足够精确的目标类别，可以通常链接到最直接解决它们方法集群。总共有八个 TO/方法集群，它们捕获了现有 IML 方法的大部分目标。关于 TO 的表征，有一些重要的细微之处。

• 首先， 尽管在提出的分类法中 TO 和方法集群是一对一的，但明确区分这两个概念非常重要，因为存在跨集群适应的可能性。之所以出现这个概念，是因为方法经常有可能以临时的方式进行调整以解决不同的 TO。

• 其次， 每个 TO 都应被视为定义一类相关目标。实际上，对于给定的 TO，我们假设必须考虑哪些关键技术细节才能完全参数化同一更广泛目标的有意义的不同实例化。这些重要的技术细节与 TO 一起，使您可以定义反映您的解释的期望属性的单个代理指标。然后，代理指标可以用作单个方法优化的易于处理的目标函数，以及衡量任何方法在多大程度上解决特定 TO 实例化的指标。

技术目标

以下是与各种方法集群相对应的 TO（及其技术细节）的概述。由于内容重叠，同一通用方法类型/目标的局部和全局版本被组合在一起。（有关每个方法的更多详细信息和示例，请参阅我们更长篇的论文“可解释的机器学习：从神话走向诊断”，作者 Chen 等人。⁸）。

• 特征归因解释 解决当特征存在（或缺失）时，模型的预测如何受到影响，即每个特征对模型的预测有多“重要”。通常，重要性度量是根据模型的预测相对于其对某些基线输入的预测的变化来定义的。基线输入有时是隐式的并且特定于域（例如，灰度图像的所有黑色像素或表格数据中的平均输入）。因此，技术细节既是“重要性”的确切概念，也是基线输入的选择。相关的代理指标通常衡量模型预测对于根据每个方法计算的“重要性”值应用于个体（或训练数据）的不同类型的扰动变化了多少。

• 反事实解释 解决可以应用于数据点以实现期望预测的“低成本”修改。最常见的技术细节是成本的具体度量，最常见的代理指标是反事实改变模型预测的频率。

• 近似方法 解决如何通过近似模型在区域中的预测来概括模型，该区域可以是数据点周围的局部区域、尽可能多的点周围的全局区域，或者输入空间的特定区域。这些方法需要区域的定义和简单函数的模型族的技术细节。对于局部近似，规范指标是局部保真度，它衡量方法在数据点附近的某个邻域内的预测效果。对于全局近似，代理指标是覆盖率，它衡量解释适用于多少个数据点。

• 样本重要性方法 解决哪些训练点对单个点的模型预测或整个模型的影响最大。技术细节因方法而异，因此很难确定统一的变化轴。可以使用代理指标评估这些方法，这些指标通过模拟实验来表示所提供解释的有用性，例如查找损坏的数据点、检测负责数据分布偏移的点以及使用被认为重要的样本恢复高精度。

按设计的方法如何适应？

虽然按设计的方法在这个分类法中没有对应的方法集群，但讨论另一系列 IML 方法也很重要，这些方法提出了按设计本身可解释的模型。²¹ 这些模型与上述部分中引用的事后方法的区别属性在于，这些方法的 TO 与模型族本身内在相关；因此，模型仅在满足所述 TO 的情况下才是按设计可解释的。也就是说，按设计的方法也适用于此框架，应被视为回答分类法中相同 TO 的不同方式。当提出或使用按设计的方法时，它们应明确指定它们打算解决哪些 TO。

用例目标

当前关于 IML 用例的大部分讨论都围绕区分相当广泛的目标，例如调试模型、获得各种利益相关者的信任以及为用户提供可操作的追索权（图 3）。虽然这种分类级别代表了一个良好的开端，但它的实用性有限，因为它将这些类别中的每一个都视为 IML 要解决的整体问题。首先，这些问题很复杂，不应假定 IML 本身可以完全或单独解决这些问题。相反，IML 只是一组潜在的工具，必须证明其有用性。也就是说，为了证明 IML 方法是一种有效的诊断方法，必须识别并证明特定的用例。¹⁵

其次，每个广泛的目标实际上都包括多个独立的技术问题，这些问题与许多可能的实际设置和约束条件交叉。给定的 IML 方法不太可能在所有这些子问题和领域中都同样有用。

因此，关于实际用途的主张最好明确到充分定义的 TUC（目标用例）的级别。与方法方面的 TO 类似，TUC 对应于学习关于底层模型的特定相关特征（例如，模型的特定属性或行为概念）。但是，与 TO 不同，它们代表现实世界的问题，虽然可以对其进行评估，但通常可能不适合直接优化。

例如，您可以设置评估来确定 IML 方法是否可用于识别模型中的特定类型的错误（例如，正的虚假相关性），但如何优化 IML 方法以在这些评估中取得成功并不是那么明显。

建立诊断的工作流程

现在让我们转向如何更充分地实现 IML 的诊断愿景，讨论如何将方法确立为诊断，从而填补现有分类法中的空白。具体而言，为消费者-研究人员团队定义了一个理想的工作流程，以进行关于 IML 方法的未来研究。它描述了分类法如何指导三个关键步骤的最佳实践：（1）问题定义；（2）方法选择；和（3）方法评估。此工作流程既适用于希望研究现有 IML 方法的团队，也适用于提出新方法的团队。

一个运行示例有助于将此讨论置于上下文中，它建立在表 1 中的计算机视觉模型调试示例之上。模型调试不仅是常见的消费者用例，^7,13 而且还是一个基础良好的用例。这是一个自然的起点，因为其假定的消费者数据科学家具有多功能性，他们通常既具有大量的 ML 知识又具有领域专业知识，从而最大限度地减少了数据科学家和 IML 研究人员之间的沟通差距。

步骤 1：问题定义

对于任何有原则的研究来说，重要的第一步是定义明确的 TUC。此过程称为消费者-研究人员握手（图 3），研究人员与消费者合作，逐步将后者的现实世界问题细化为相关的 TUC。在此过程中，一些有用的信息包括：可用的数据、使用的 ML 管道以及执行评估所需的领域知识。最终，更充实的分类法将帮助研究人员手头有更具体的用例来激励他们的方法开发，并且消费者将获得关于 IML 可以为他们做什么和不能做什么的更实际的指导。

运行示例： 考虑一位想要调试其基于图像的对象检测模型的数据科学家。她希望利用 IML 研究人员的专业知识，但如图 4 中用例分类法的假设版本所示，模型调试的保护伞包括几个子问题，例如检测虚假相关性和识别不良的边缘情况行为。因此，研究人员和数据科学家团队需要识别一个比“执行模型调试”更具体的 TUC，方法是明确 IML 方法应该检测到的“错误”概念。通过消费者-研究人员握手，结果表明，数据科学家担心模型可能不是基于实际目标对象做出正确的决策，而是依赖于也恰好存在的关联对象。例如，模型可能将人的存在用作图像中存在网球拍的指标，而不是网球拍本身。

此信息允许团队浏览分类法的相关分支。在这里，通过考虑数据科学家的担忧，他们首先将目标从模型调试缩小到检测虚假相关性。然后，通过同时考虑特定设置（即，网球拍与网球运动员同时存在），他们能够得出更具体的用例，即检测两个正相关的对象之间的虚假相关性（以图 4 中的白色边框标记）。在这种情况下，团队注意区分它与检测对负相关的对象的依赖性的类似问题，理由是后者从根本上是不同的（即，如果共同出现的情况一开始就很罕见，则更难判断输出是否依赖于对象）。

步骤 2：方法选择

在正确定义 TUC 后，下一步是考虑哪些 IML 方法可能适用。这确实假设 IML 方法是必要的——也就是说，团队应该证明 TUC 对更“平凡”或传统的诊断提出了挑战。例如，Bansal 等人发现模型置信度是针对 AI/人类决策团队的专用可解释性方法的有竞争力的基线。⁵

如果非 IML 诊断不成功，则可以使用分类法通过两种方式选择方法。首先，研究人员和消费者可以默认遍历分类法的方法部分，以识别可能最符合 TUC 的 TO（以及相应的方法集群）。这样做应依赖于研究人员在应用先前的知识和关于各种方法类型的直觉方面的最佳判断，以尝试缩小潜在 TO 的集合。如果要提出一种方法，则应将其映射到适当的方法集群，并应遵循相同的选择过程。其次，团队还可以从用例部分开始导航，利用和扩展先前研究建立的联系。当然，如果某些方法已经被证明在 TUC 上效果良好，那么在研究相同（或相似）的用例时，这些方法（或类似方法）可以提供直接的基线。

在任何一种情况下，对于每种方法都必须做出一个重要但微妙的选择：应如何解释其结果解释（即，正在解决哪个 TO）。正如关于方法目标的部分所讨论的那样，属于特定集群的方法可能最自然地解决相关的 TO，但也可能并且确实很常见地尝试跨集群适应以解决其他 TO。不幸的是，虽然这种适应有时可能有用，但它们通常以临时的方式执行。具体而言，在适应过程中，通常会忽略每个 TO 的技术细节之间的差异，如下面两个示例（以及 Chen 等人⁸ 中更深入的探讨）所示。

首先，您可能会尝试使用“特征重要性权重”，通过 SHAP（Shapley 加性解释），¹⁸ 作为局部近似中的线性系数。这种适应假设局部“重要性”的概念也可以反映与期望近似区域上的特征的线性交互。然而，SHAP 并不能保证这一点，相反，SHAP 对重要性值强制执行一组不同的博弈论理想，并且可以设置为考虑与目标近似区域相比完全不同的扰动集。

相反，您可以将通过 vanilla 梯度²³ 获得显着性图视为相反方向的适应。这些显着性图是一种局部近似，其中有效邻域区域非常小，更常用于解决局部特征归因目标，例如识别图像的哪些部分对预测影响最大。然而，这种适应带有潜在的假设，即具有最大梯度的像素也是最“重要”的。这种近似可能不准确，因为由梯度测量的局部形状不一定表示模型在离较远的基线输入附近的行为。

运行示例： 在这种情况下，假设之前没有关于检测正虚假相关性的已建立结果。团队遵循分类法的方法部分，为哪种类型的局部解释最适合他们理解单个图像的需求生成假设。他们反对基于近似的目标，因为随着输入在像素空间中变化，简单的近似不太可能在连续的局部邻域内保持或在语义上有意义。他们选择特征归因，因为他们认为可视化模型认为最重要的特征将有助于检测这些类型的虚假相关性。

该团队提出了一种局部反事实方法集群中的方法，该方法识别必须更改的超像素，以便将预测从“网球拍”翻转为“无网球拍”。通过像显着性图一样“可视化”反事实解释，团队执行跨集群适应以将反事实解释解释为特征归因解释。为此，他们假设更改最多的特征对于检测网球拍也是最重要的。他们认为，对于此 TUC，特征归因解释对于数据科学家来说将是一种更直观的格式。在比较方面，团队选择进行比较的特征归因方法是 Grad-CAM（梯度加权类激活映射），²² 它也生成显着性图。

步骤 3：方法评估

一旦选择了适当的方法，最后一步就是评估它们。评估是测试提出的方法是否真的可以帮助解决指定的 TUC 的关键步骤。然而，尽管其重要性，但此步骤的执行方式通常与其声称要测试的属性不一致。一个常见的错误是，对解释忠实度（即，满足指定 TO 的能力）的评估通常与对其有用性（即，适用于解决实际 TUC）的评估有问题地混淆在一起。虽然两者都可能发挥重要作用，但它们针对的是根本不同的主张。

在 IML 应用程序的整个管道中考虑这些评估（如图 5 所示）解决了这种错误。它首先通过回顾本文中提出的分类法来突出显示这些评估的目标差异；忠实度对应于满足方法部分中特定 TO 的目标，有用性对应于满足用例部分中的 TUC。然后，它还列出了影响每种类型的各种移动组件，灰色框表示需要更仔细研究的组件。这有助于说明每种类型可能如何执行，我们将在接下来更详细地讨论。

忠实度评估是根据使用来自目标 TO 类的相关技术细节指定的代理指标进行的。例如，如果目标是显示作为反事实适应的基于近似的解释的有用性，则忠实度评估应相对于反事实代理指标进行。参考 Doshi-Velez 和 Kim⁹ 中的术语，这些类型的评估称为功能性接地——即，涉及自动化代理任务且无人参与。虽然此类评估最容易执行，但它们也存在关键限制。

一般来说，您应该期望一种方法至少在其选定的 TO 的代理指标上表现良好，并且自然地，那些不直接针对此特定代理指标的方法可能不会表现得那么好。解释的性能也可能由于技术细节的不公平或有偏差的设置而与另一个解释的性能进行错误比较。例如，尽管 GAM（广义加性模型）¹² 和线性模型都提供局部近似，但仅在保真度的上下文中比较这些方法会忽略 GAM 可能生成更“复杂”的解释这一事实。

此外，虽然忠实度评估可以充当运行更昂贵的有用性评估之前的初步健全性检查，但在相应的代理指标和 TUC 之间建立直接联系之前，仅显示一种方法对模型忠实并不能最终确定该方法的现实世界有用性。一旦建立了这些联系，这些代理指标就可以更自信地用于帮助排除不良设置，然后再执行昂贵的有用性评估。

与忠实度相反，有用性评估衡量用户在将解释应用于指定的 TUC 方面的成功程度。由于它们最终是对用户如何处理解释的评估，因此有用性至关重要地取决于诸如用户的先验知识等因素——例如，他们的领域和 ML/IML 经验。再次使用 Doshi-Velez 和 Kim⁹ 中的术语，可以通过对执行简化或实际任务的真人进行研究来纳入用户的观点（即，以人为本的或以应用为本的评估）。特别是，作为进行有用性研究的一部分，您需要考虑用户可能会如何根据解释的呈现方式和提供的明确说明而采取不同的行动。

如图 5 中的云所示，用户究竟如何在（在他们的脑海中）将解释计算转换为他们的最终判断仍然模糊不清。这促使人们进一步研究以更好地理解用户理解解释告诉他们什么以及他们如何根据这些理解采取行动。然后，在建立新的诊断时，对于研究人员在未来的研究中使用该方法以及消费者部署该方法时，应明确阐明这些假设/限制。

在这些挑战的推动下，研究人员可能还想考虑另一种类型的有用性评估：模拟评估。这是一种对真实任务的模拟版本进行的算法评估，其中成功和失败由领域专家提炼为可衡量的量（如运行示例所示）。这种类型的评估仍然基于真实任务，但比用户研究更容易且可能更可靠地运行。

通过以算法方式模拟用户及其决策过程，从而控制有用性评估的一些更嘈杂的方面，研究人员可能能够更好地理解为什么他们的方法“失败”：是因为算法本身还是用户的实际决策过程？

总的来说，在这些不同级别的评估中取得成功为建立问题方法与 TUC 之间的联系提供了证据。具体而言，团队应检查先前考虑的代理指标是否与 TUC 的成功相关。如果是这样，这将为是否应在未来的研究中再次使用所考虑的代理指标提供证据，从而将忠实度评估和有用性评估联系起来。

运行示例： 团队首先使用每个方法定义的各自的重要性概念，对两种方法执行单独的局部特征归因忠实度评估。例如，对于提出的方法，团队确保每个生成的解释忠实地执行其预期的 TO，即识别超像素的存在或不存在的效果。然而，任何代理指标的良好性能都不能最终意味着在实际 TUC 上的良好性能，因此团队转向有用性评估。

团队首先进行模拟评估，其中创建的数据集包含对象对之间的人为诱导的正相关或不包含此类相关性。通过仔细控制训练和验证分布，他们可以自动验证模型是否学习了他们想要检测的问题行为。然后，他们可以为解释定义评分函数（即，它们对虚假对象的关注程度），并衡量该评分与每个解释的真实值的相关性。

其次，团队使用多个模型运行人类研究，他们在其中知道哪些模型使用虚假相关性的真实值。他们根据数据科学家是否能够使用反事实与 Grad-CAM 生成的每个解释来识别使用虚假相关性的模型来对数据科学家进行评分。如果这些方法在人类研究中获得成功，则该团队已证明它们与检测正相关的对象的 TUC 之间的联系。

结论

假设 IML 的诊断愿景，本文提出的分类法是一种澄清并开始弥合方法和用例之间差距的方法。此外，本文讨论了研究人员和消费者如何使用和随着时间的推移改进分类法的最佳实践，以确定哪些方法对哪些用例有用。随着消费者-研究人员团队进行更多研究来充实分类法，我们的愿景是，它将对双方个人越来越有用（图 2，右）。总的来说，目标是促进在发现、测试和应用新的和现有的 IML 方法方面的更好实践。

参考文献

1. Adebayo, J., Gilmer, J., Muelly, M., Goodfellow, I., Hardt, M., Kim, B. 2018. 显着性图的健全性检查。在第 32 届神经信息处理系统国际会议论文集, 9525-9536; https://dl.acm.org/doi/10.5555/3327546.3327621。

2. Alvarez-Melis, D., Jaakkola, T. 2018. 关于可解释性方法的稳健性。arXiv:1806.08049; https://arxiv.org/abs/1806.08049。

3. Arya, V., Bellamy, R.K., Chen, P.-Y., Dhurandhar, A., Hind, M., Hoffman, S. C., Houde, S., Liao, Q.V., Luss, R., Mojsilović, A., et al. 2019. One explanation does not fit all: a toolkit and taxonomy of AI explainability techniques. arXiv:1909.03012; https://arxiv.org/pdf/1909.03012.pdf.

4. Bach, S., Binder, A., Montavon, G., Klauschen, F., Müller, K.-R., Samek, W. 2015. On pixelwise explanations for non-linear classifier decisions by layer-wise relevance propagation. PloS ONE 10(7): e0130140; https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0130140.

5. Bansal, G., Wu, T., Zhu, J., Fok, R., Nushi, B., Kamar, E., Ribeiro, M.T., Weld, D S. 2020. Does the whole exceed its parts? The effect of AI explanations on complementary team performance. arXiv:2006.14779; https://arxiv.org/pdf/2006.14779.pdf.

6. Barocas, S., Selbst, A. D., Raghavan, M. 2020. The hidden assumptions behind counterfactual explanations and principal reasons. In Proceedings of the Conference on Fairness, Accountability, and Transparency, 80-89; https://dl.acm.org/doi/abs/10.1145/3351095.3372830.

7. Bhatt, U., Xiang, A., Sharma, S., Weller, A., Taly, A., Jia, Y., Ghosh, J., Puri, R., Moura, J.M.F., Eckersley, P. 2020. Explainable machine learning in deployment. In Proceedings of the Conference on Fairness, Accountability, and Transparency, 648-657; https://dl.acm.org/doi/abs/10.1145/3351095.3375624.

8. Chen, V., Li, J., Kim, J.S., Plumb, G., Talwalkar, A. 2021. Interpretable Machine Learning: Moving from Mythos to Diagnostics. arXiv:2103.06254.

9. Doshi-Velez, F., Kim, B. 2017. Towards a rigorous science of interpretable machine learning. arXiv:1702.08608; https://arxiv.org/pdf/1702.08608.pdf.

10. Gilpin, L.H., Bau, D., Yuan, B.Z., Bajwa, A., Specter, M., Kagal, L. 2018. Explaining explanations: an overview of interpretability of machine learning. In Fifth IEEE International Conference on Data Science and Advanced Analytics; https://ieeexplore.ieee.org/document/8631448.

11. Guidotti, R., Monreale, A., Ruggieri, S., Turini, F., Giannotti, F., Pedreschi, D. 2018. A survey of methods for explaining black box models. Computing Surveys 51(5), 1–42; https://dl.acm.org/doi/10.1145/3236009.

12. Hastie, T.J., Tibshirani, R.J. 1990. Generalized Additive Models. Monographs on Statistics and Applied Probability, 43. Chapman and Hall/CRC.

13. Hong, S.R., Hullman, J., Bertini, E. 2020. Human factors in model interpretability: industry practices, challenges, and needs. In Proceedings of the on Human-Computer Interaction 4(CSCW1), 1–26; https://dl.acm.org/doi/10.1145/3392878.

14. Kaur, H., Nori, H., Jenkins, S., Caruana, R., Wallach, H., Wortman Vaughan, J. 2020. Interpreting interpretability: understanding data scientists' use of interpretability tools for machine learning. In Proceedings of the CHI Conference on Human Factors in Computing Systems, 1-14; https://dl.acm.org/doi/abs/10.1145/3313831.3376219.

15. Krishnan, M. 2020. Against interpretability: a critical examination of the interpretability problem in machine learning. Philosophy & Technology 33, 487–502; https://link.springer.com/article/10.1007/s13347-019-00372-9.

16. Laugel, T., Lesot, M.-J., Marsala, C., Detyniecki, M. 2019. Issues with post-hoc counterfactual explanations: a discussion. arXiv:1906.04774; https://arxiv.org/pdf/1906.04774.pdf.

17. Lipton, Z.C. 2018. The mythos of model interpretability. 16(3), 31–57; https://queue.org.cn/detail.cfm?id=3241340.

18. Lundberg, S.M., Lee, S.-I. 2017. A unified approach to interpreting model predictions. In Advances in Neural Information Processing Systems 30; https://papers.nips.cc/paper/2017/hash/8a20a8621978632d76c43dfd28b67767-Abstract.html.

19. Mohseni, S., Zarei, N., Ragan, E. 2020. A multidisciplinary survey and framework for design and evaluation of explainable AI systems. Transactions on Interactive Intelligence Systems 1(1); https://arxiv.org/pdf/1811.11839.pdf.

20. Murdoch, W.J., Singh, C., Kumbier, K., Abbasi-Asl, R., Yu, B. 2019. Interpretable machine learning: definitions, methods, and applications. In Proceedings of the National Academy of Sciences 116(44), 22071-22080; https://www.pnas.org/content/116/44/22071.

21. Rudin, C. 2019. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence 1, 206–215; https://www.nature.com/articles/s42256-019-0048-x.

22. Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., Batra, D. 2017. Grad-CAM: visual explanations from deep networks via gradient-based localization. In IEEE International Conference on Computer Vision, 618-626; https://ieeexplore.ieee.org/document/8237336.

23. Simonyan, K., Vedaldi, A., Zisserman, A. 2013. Deep inside convolutional networks: visualising image classification models and saliency maps. arXiv:1312.6034; https://arxiv.org/abs/1312.6034.

24. Sundararajan, M., Taly, A., Yan, Q. 2017. Axiomatic attribution for deep networks. In Proceedings of the 34th International Conference on Machine Learning; http://proceedings.mlr.press/v70/sundararajan17a.html.

Valerie Chen 是卡内基梅隆大学机器学习系的一名博士生。她的研究方向是可解释性技术，旨在辅助人类决策，更广泛地说是作为一种研究机器学习社会影响的方式。

Jeffrey Li 是华盛顿大学计算机科学专业的博士生。他对解决限制机器学习在实践中部署的挑战的课题感兴趣，包括从弱监督源中学习和可解释的机器学习。

Joon Sik Kim 是卡内基梅隆大学机器学习系的一名博士生。他对能够促进理解复杂机器学习模型及其对模型可解释性和公平性的影响的方法感兴趣。

Gregory Plumb 是卡内基梅隆大学机器学习系的一名博士生。他的研究重点是可解释的机器学习，重点是开发用于模型调试的新技术。

Ameet Talwalkar 是卡内基梅隆大学机器学习系的一位助理教授。他目前的工作的动机是普及机器学习的目标，重点是与自动化、可解释性和分布式学习相关的主题。

最初发表于 Queue 杂志第 19 卷，第 6 期—
在数字图书馆中评论这篇文章

更多相关文章

Mark Russinovich, Ahmed Salem, Santiago Zanella-Béguelin, Yonatan Zunger - 智能的代价
LLM 容易产生幻觉、提示注入和越狱的漏洞，对其广泛采用和负责任的使用构成了重大但可以克服的挑战。我们认为这些问题是固有的，当然在当前这一代模型中是这样，而且很可能在 LLM 本身中也是如此，因此我们的方法永远不能基于消除它们；相反，我们应该应用“深度防御”策略来缓解它们，并且在构建和使用这些系统时，要假设它们有时会在这些方面失败。

Sonja Johnson-Yu, Sanket Shah - 你对 AI 一窍不通
长期以来，很难确定人工智能到底是什么。几年前，这样的讨论会演变成长达数小时的会议，在会上绘制维恩图并尝试绘制人工智能不同子领域的地图。快进到 2024 年，我们现在都知道人工智能到底是什么。人工智能 = ChatGPT。或者不是。

Jim Waldo, Soline Boussard - GPT 和幻觉
这项实验的发现支持了这样的假设，即基于 LLM 的 GPT 在更受欢迎且已达成普遍共识的提示下表现良好，但在有争议的主题或数据有限的主题上则表现不佳。应用程序响应的可变性强调模型依赖于其训练数据的数量和质量，这与依赖于多样化和可靠贡献的众包系统相似。因此，虽然 GPT 可以作为许多日常任务的有用工具，但应谨慎解释它们对晦涩和两极分化主题的参与。

Erik Meijer - 虚拟阴谋：将大型语言模型用作神经计算机
我们探讨了大型语言模型 (LLM) 如何不仅可以充当数据库，还可以充当动态的、最终用户可编程的神经计算机。这种神经计算机的原生编程语言是一种受逻辑编程启发的声明式语言，它形式化和外化了思维链推理，因为它可能发生在一个大型语言模型内部。