下载本文的PDF版本 PDF

模型可解释性的神话

在机器学习中,可解释性的概念既重要又难以捉摸。

Zachary C. Lipton

监督式机器学习模型拥有卓越的预测能力。但是,您能信任您的模型吗?它在部署中会有效吗?它还能告诉您关于世界的什么信息?模型不仅应该好,而且应该可解释,然而,解释的任务似乎未明确指定。学术文献为可解释性提供了多样且有时不重叠的动机,并提供了无数种技术来呈现可解释的模型。尽管存在这种歧义,但许多作者都公理般地宣称他们的模型是可解释的,而没有进一步的论证。问题在于,尚不清楚是什么共同属性将这些技术联系在一起。

本文旨在改进关于可解释性的讨论。首先,它考察了先前关于可解释性的论文的目标,发现它们是多样且偶尔不一致的。然后,它探讨了被认为赋予可解释性的模型属性和技术,将对人类的透明度和事后解释确定为相互竞争的概念。通篇讨论了不同可解释性概念的可行性和期望性。本文质疑了经常提出的关于线性模型是可解释的,而深度神经网络则不然的断言。

 

导言

直到最近,人类还垄断着社会中的能动性。如果您申请工作、贷款或保释,人类会决定您的命运。如果您去医院,人类会尝试对您的疾病进行分类并推荐治疗方案。对于诸如此类的重大决定,您可能会要求决策主体给出解释。

例如,如果您的贷款申请被拒绝,您可能想了解代理人的推理,以便加强您的下一次申请。如果该决定是基于有缺陷的前提,您可能会质疑这个前提,希望能推翻该决定。在医院里,医生的解释可能会让您了解自己的病情。

在社会背景下,决策的理由通常很重要。例如,故意造成死亡(谋杀)与非故意(过失杀人)是不同的罪行。同样,招聘决定(直接或间接地)基于受保护的特征(如种族)会影响其合法性。然而,今天的预测模型根本不具备推理能力。

在过去的20年中,机器学习(ML)的快速发展导致了自动决策过程的部署。实际应用中大多数基于机器学习的决策制定都以以下方式工作:训练机器学习算法以获取一些输入并预测相应的输出。例如,给定一组表征金融交易的属性,机器学习算法可以预测长期投资回报。给定来自CT扫描的图像,该算法可以分配扫描描绘癌性肿瘤的概率。机器学习算法接收大量的(输入,输出)对,并输出一个模型,该模型可以预测与先前未见输入相对应的输出。形式上,研究人员将此问题设置称为监督学习。然后,为了完全自动化决策,将模型的输出馈送到一些决策规则中。例如,垃圾邮件过滤器会以编程方式丢弃预测为垃圾邮件且置信度超过某个阈值的电子邮件。

因此,基于机器学习的系统不知道为什么给定的输入应该接收某个标签,只知道某些输入与该标签相关联。例如,在一个数据集中,只有橙色物体是篮球,图像分类器可能会学习将所有橙色物体分类为篮球。

即使在保留的图像上,该模型也会获得高精度,尽管未能掌握真正重要的区别。

随着机器学习渗透到医学、刑事司法系统和金融市场等关键领域,人类无法理解这些模型似乎存在问题。有些人建议将模型可解释性作为补救措施,但在学术文献中,很少有作者明确阐述可解释性的含义或他们提出的解决方案的用途。

尽管缺乏定义,但越来越多的文献提出了据称可解释的算法。由此,您可能会得出结论:要么:(1)可解释性的定义已达成普遍共识,但没有人费心将其写下来;要么:(2)术语可解释性定义不明确,因此,关于各种模型可解释性的主张表现出准科学的特征。对文献的调查表明后者。文献中提出的关于可解释性的目标和方法都是多样的,这表明可解释性不是一个单一的概念,而是几个不同的想法,必须在取得任何进展之前将其理清。

本文重点关注监督学习,而不是其他机器学习范式,如强化学习和交互式学习。此范围源于监督学习在实际应用中的当前首要地位,以及对线性模型是可解释的而深度神经网络则不然的常见主张的兴趣。15为了获得概念上的清晰性,请考虑以下细化问题:什么是可解释性?为什么它很重要?

让我们首先解决第二个问题(在“可解释性研究的期望”部分中展开)。许多作者都提出了可解释性作为获得信任的一种手段。9,24 这引出了一个类似的棘手的认识论问题:什么是信任?它指的是对模型表现良好的信心吗?或者,可解释性是否仅仅意味着对模型的低级机械理解?信任是主观定义的吗?

其他作者认为,可解释的模型是可取的,因为它可能有助于揭示观测数据中的因果结构。1 法理上的解释权概念为可解释性提供了另一种视角。最后,有时可解释性的目标可能仅仅是从模型中获取更多有用的信息。

虽然所讨论的期望,或可解释性的目标是多样的,但它们通常指的是标准机器学习问题公式(例如,最大化一组保留数据的准确性,其中训练数据是完美的代表性数据)与它们旨在解决的复杂现实生活任务不完全匹配的情况。考虑使用纵向数据的医学研究。真正的目标可能是发现可能指导干预的潜在因果关联,例如吸烟与癌症。29 然而,大多数监督学习模型的优化目标仅仅是最小化误差,这可以通过纯粹的相关方式来实现。

这种不匹配的另一个例子是,可用的训练数据不能完美地代表可能的部署环境。真实环境通常具有变化的动态。想象一下为在线商店训练产品推荐器,其中定期引入新产品,并且客户偏好会随着时间而变化。在更极端的情况下,来自基于机器学习的系统的操作可能会改变环境,从而使未来的预测失效。

在讨论了可解释性的期望之后,本文考虑了模型的哪些属性可能使其可解释(在“可解释模型的属性”部分中展开)。一些论文将可解释性等同于可理解性或可理解性,16 (即,您可以掌握模型的工作原理)。在这些论文中,可理解的模型有时被称为透明,而不可理解的模型被称为黑盒。但什么构成透明度?您可能会查看算法本身:它会收敛吗?它会产生独特的解决方案吗?或者您可能会查看其参数:您是否理解每个参数代表什么?或者,您可以考虑模型的复杂性:它是否足够简单,可以让人类一次性检查?

其他工作研究了所谓的事后解释。这些解释可能会解释预测,而无需阐明模型的工作机制。示例包括人产生的口头解释或用于分析深度神经网络的显着性图。因此,尽管人脑本质上是黑盒,但人类的决策可能允许事后可解释性,这揭示了两种流行的可解释性概念之间的矛盾。

 

可解释性研究的期望

本节阐明了可解释性研究的各种期望。当监督学习的形式目标(测试集预测性能)与部署环境中的实际成本之间出现不匹配时,就会产生对可解释性的需求。

通常,评估指标仅需要预测和地面实况标签。当利益相关者额外要求可解释性时,您可能会推断存在无法以这种方式捕获的目标。考虑一下,最常见的监督学习评估指标仅需要预测以及地面实况即可生成分数。因此,对解释的渴望本身表明,有时仅凭预测以及基于预测计算的指标不足以表征模型。那么您应该问,这些其他目标是什么,以及在什么情况下会寻求这些目标?

通常,现实世界的目标很难编码为简单的数学函数。否则,它们可能只会纳入目标函数,问题将被视为已解决。例如,用于制定招聘决策的算法应同时优化生产力、道德和合法性。但是,您将如何编写一个衡量道德或合法性的函数呢?当您希望对训练和部署环境之间动态变化具有鲁棒性时,也可能会出现问题。

 

信任

一些作者认为,可解释性是信任的先决条件。9,23 同样,什么是信任?它仅仅是对模型表现良好的信心吗?如果是这样,那么足够准确的模型应该被证明是值得信赖的,而可解释性将毫无用处。信任也可以主观定义。例如,即使这种理解没有明显的用途,一个人也可能会对一个被充分理解的模型感到更自在。或者,当训练和部署目标发散时,信任可能表示对模型在实际目标和场景方面表现良好的信心。

例如,考虑越来越多地使用机器学习模型来预测犯罪率,以用于分配警官。该模型可能被信任能够做出准确的预测,但不能考虑训练数据中的种族偏见或模型自身在某些社区过度治安从而使监禁循环永久化的影响。

最终用户可能被认为信任机器学习模型的另一种意义是,他们是否愿意放弃对模型的控制权。通过这个视角,您可能不仅关心模型正确的频率,还关心模型在哪些示例中是正确的。如果模型倾向于仅在人类也犯错的那些类型的输入上犯错,因此通常在人类准确时是准确的,那么您可能会因为没有放弃控制权的预期成本而信任该模型。但是,如果模型倾向于在人类准确分类的输入上犯错,那么始终保持对算法的人工监督可能是有利的。

 

因果关系

尽管监督学习模型仅直接优化以建立关联,但研究人员经常使用它们,希望从中推断出自然世界的属性。例如,一个简单的回归模型可能会揭示沙利度胺的使用与出生缺陷之间,或吸烟与肺癌之间存在强烈的关联。29

监督学习算法学习到的关联并不能保证反映因果关系。可能总是存在未观察到的原因导致相关变量。但是,您可能希望通过解释监督学习模型,您可以生成科学家可以随后测试的假设。例如,Liu等人14 强调回归树和贝叶斯神经网络,表明这些模型是可解释的,因此更能提供关于生理信号和情感状态之间因果关系的线索。从观测数据中推断因果关系的任务已得到广泛研究。22 然而,因果推断方法倾向于依赖于强假设,并且在实践者中,尤其是在大型复杂数据集上,并未得到广泛使用。

 

可迁移性

通常,训练和测试数据是通过从同一分布中随机划分示例来选择的。然后,通过模型在训练和测试数据上的性能之间的差距来判断模型的泛化误差。然而,人类表现出更丰富的泛化能力,将学到的技能转移到不熟悉的情况中。机器学习算法已经用于这些情况,例如当环境是非平稳时。模型也部署在它们的使用可能会改变环境,从而使未来的预测失效的设置中。沿着这些思路,Caruana等人3 描述了一个经过训练以预测肺炎死亡概率的模型,该模型对患有哮喘的患者分配的风险较低。据推测,哮喘可以预测较低的死亡风险,因为这些患者接受了更积极的治疗。如果部署该模型以帮助分类,则这些患者可能会接受较不积极的治疗,从而使该模型失效。

更糟糕的是,在某些情况下,例如用于安全性的机器学习,环境可能是主动对抗性的。考虑最近发现的CNN(卷积神经网络)的脆弱性。CNN被制成对人类难以察觉地扰动的图像进行错误分类。26 当然,这在经典意义上不是过拟合。这些模型在训练数据上都取得了出色的结果,并且在用于分类保留的测试数据时也能很好地泛化。关键的区别在于,这些图像已被以模型在训练期间从未遇到的方式进行了更改。然而,这些是人类不会犯的错误,最好模型也不要犯这些错误。监督学习模型已经定期受到这种对抗性操纵。考虑用于生成信用评级的模型;更高的分数应表示个人偿还贷款的概率更高。根据其自身的技术报告,FICO使用逻辑回归来训练信用模型,6 特别引用可解释性作为选择模型的动机。特征包括代表账户平均年龄、债务比率、逾期付款次数和良好信誉账户数量的箱值虚拟变量。

其中几个因素可以由寻求信贷者随意操纵。例如,只需在保持支出模式不变的情况下请求定期增加信用额度,就可以简单地改善一个人的债务比率。

同样,当接受概率相当高时,只需申请新账户即可增加账户总数。事实上,FICO和Experian都承认信用评级可以被操纵,甚至提出了改进个人信用评级的指南。这些评级改进策略可能会从根本上改变一个人偿还债务的潜在能力。个人积极且成功地玩弄评级系统的事实可能会使其预测能力失效。

 

信息性

有时,决策理论被应用于监督模型的输出,以在现实世界中采取行动。然而,在另一种常见的用途范例中,监督模型被用于向人类决策者提供信息,Kim等人11 和Huysmans等人8 考虑了这种情况。虽然机器学习的目标可能是减少误差,但现实世界的目的是提供有用的信息。模型传达信息的最明显方式是通过其输出,但可能可以通过某些程序向人类决策者传达更多信息。

即使没有阐明模型的内部工作原理,解释也可能证明是有益的。例如,诊断模型可以通过指出类似案例来支持诊断决策,从而为人类决策者提供直觉。在某些情况下,当真实任务更接近于无监督学习时,会训练监督学习模型。真正的目标可能是探索数据的底层结构,而标记目标仅作为弱监督。

 

公平和合乎道德的决策

目前,政治家、记者和研究人员都表示担忧,必须产生解释,以评估算法自动产生的决策是否符合道德标准。7 累犯预测已用于确定释放谁和拘留谁,这引发了道德方面的担忧。您如何确定预测不会基于种族进行歧视?传统的评估指标(如准确率或AUC(曲线下面积))几乎不能保证基于机器学习的决策会表现得令人满意。因此,对公平性的需求通常会导致对可解释模型的需求。

 

可解释性的透明度概念

现在让我们考虑为赋予可解释性而提出的技术和模型属性。这些大致分为两类。第一类与透明度有关(即,模型如何工作?)。第二类包括事后解释(即,模型还能告诉我什么?)

非正式地,透明度是不透明或“黑盒性”的反义词。它暗示了对模型工作机制的某种理解。此处考虑的透明度在整个模型层面(可模拟性)、各个组件(如参数)(可分解性)层面以及训练算法(算法透明度)层面。

 

可模拟性

从最严格的意义上讲,如果一个人可以一次性思考整个模型,则该模型可以称为透明的。此定义表明,可解释的模型是简单的模型。例如,为了完全理解模型,人类应该能够将输入数据与模型的参数结合起来,并在合理的时间内逐步完成产生预测所需的每次计算。这与常见的说法相符,即lasso回归27 产生的稀疏线性模型比在相同输入上学习的密集线性模型更具可解释性。Ribeiro等人23 也采用了这种可解释性概念,表明可解释的模型是“可以轻松地通过视觉或文本人工制品呈现给用户的模型”。

应用单个预测的模型大小和计算之间的权衡因模型而异。例如,在某些模型(如决策树)中,模型的大小(节点总数)可能增长得非常大,而执行推理所需的时间(从根到叶的路径长度)相对较短。这表明可模拟性可能允许两种子类型:一种基于模型的大小,另一种基于执行推理所需的计算。

在确定可模拟性的概念后,合理表示的数量是主观的。然而,显然,考虑到人类认知的有限能力,这种歧义可能仅跨越几个数量级。从这个角度来看,线性模型、基于规则的系统和决策树都不是本质上可解释的。足够高维的模型、笨拙的规则列表和深度决策树都可能被认为不如相对紧凑的神经网络透明。

 

可分解性

透明度的第二个概念可能是,模型的每个部分——输入、参数和计算——都允许直观的解释。这与Lou等人15 描述的可理解性属性相符。例如,决策树中的每个节点可能对应于纯文本描述(例如,所有舒张压超过150的患者)。同样,线性模型的参数可以描述为表示每个特征和标签之间关联的强度。

请注意,这种可解释性概念要求输入本身是可单独解释的,这使得某些具有高度工程化或匿名特征的模型不合格。虽然这个概念很流行,但不应盲目接受。线性模型的权重可能看起来很直观,但它们可能很容易受到特征选择和预处理的影响。例如,流感风险与疫苗接种之间关联的系数可能是正数或负数,具体取决于特征集是否包括老年、婴儿期或免疫缺陷的指标。

 

算法透明度

透明度的最终概念可能适用于学习算法本身层面。在线性模型的情况下,您可以理解误差曲面的形状。您可以证明训练将收敛到唯一的解决方案,即使对于先前未见的数据集也是如此。这可能会提供一些信心,即模型在需要对先前未见数据进行编程重新训练的在线环境中会表现良好。另一方面,现代深度学习方法缺乏这种算法透明度。虽然神经网络的启发式优化程序已被证明是强大的,但我们不了解它们的工作原理,并且目前无法先验地保证它们在新问题上会有效。但是请注意,人类不具有这些形式的透明度中的任何一种。

 

事后可解释性

事后可解释性代表了一种从学习模型中提取信息的独特方法。虽然事后解释通常不能精确地阐明模型的工作原理,但它们可能仍然为机器学习的从业者和最终用户提供有用的信息。一些常见的事后解释方法包括自然语言解释、学习表示或模型的可视化以及示例解释(例如,该肿瘤被分类为恶性肿瘤,因为它在模型看来与这些其他肿瘤非常相似)。

在某种程度上,我们可能会认为人类是可解释的,这就是适用的可解释性类型。据我们所知,人类做出决策的过程和他们解释决策的过程可能是不同的。这种可解释性概念的一个优点是,不透明的模型可以在事后进行解释,而不会牺牲预测性能。

 

文本解释

人类经常用口头方式证明决策的合理性。同样,可以训练一个模型来生成预测,另一个模型(例如循环神经网络语言模型)来生成解释。Krening等人12 的一系列工作采用了这种方法。他们提出了一个系统,其中一个模型(强化学习器)选择行动以优化累积折扣回报。他们训练另一个模型将模型的状态表示映射到策略的口头解释。这些解释经过训练,旨在最大化先前观察到的来自人类玩家的地面实况解释的可能性,但可能无法忠实地描述代理人的决策,无论它们看起来多么合理。这种方法与最近关于神经图像字幕的工作之间存在联系,在神经图像字幕中,判别式CNN(为图像分类而训练)学习的表示被第二个模型选择用于生成字幕。这些字幕可以被视为伴随分类的解释。

在关于推荐系统的工作中,McAuley和Leskovec18 使用文本来解释潜在因子模型的决策。他们的方法包括同时训练用于评分预测的潜在因子模型和用于产品评论的主题模型。在训练期间,他们在减少评分预测的平方误差和增加评论文本的可能性之间交替进行。这些模型是相互关联的,因为它们使用归一化的潜在因子作为主题分布。换句话说,对潜在因子进行正则化,使其也擅长解释评论文本中的主题分布。然后,作者通过检查与其潜在因子的匹配成分相对应的主题中的热门词语来解释用户-项目兼容性。请注意,通过呈现热门词语来解释主题模型的做法本身就是一种事后解释技术,该技术已受到审查。4 此外,请注意,这里我们仅谈到了解释的形式因素(它由自然语言组成),而不是精确地构成正确性的内容。到目前为止,文献一直在回避正确性问题,有时通过接受问题的主观观点并询问人们他们更喜欢什么来回避这个问题。

 

可视化

生成事后解释的另一种常用方法是渲染可视化,以期定性地确定模型已学习的内容。一种流行的方法是使用t-SNE(t分布随机邻域嵌入)28 可视化高维分布式表示,该技术渲染2D可视化,其中附近的数据点可能显示为彼此靠近。

Mordvintsev等人20 尝试通过梯度下降改变输入以增强从隐藏层中选择的某些节点的激活来解释图像分类网络已学习的内容。检查扰动的输入可以提供关于模型已学习内容的线索。可能由于该模型是在大量的动物图像语料库上训练的,他们观察到增强某些节点导致某些狗脸出现在整个输入图像中。

在计算机视觉社区中,已经探索了类似的方法来研究神经网络的各个层保留了哪些信息。Mahendran和Vedaldi17 通过判别式CNN传递图像以生成表示。然后,他们证明,即使从相当高级的表示(AlexNet的第6层)中,也可以通过对随机初始化的像素执行梯度下降来高保真地恢复原始图像。与之前的文本一样,关于可视化的讨论侧重于形式因素和吸引力,但我们仍然缺乏严格的正确性标准。

 

局部解释

虽然可能难以简洁地描述神经网络学习的完整映射,但一些文献侧重于解释神经网络在局部依赖什么。深度神经网络的一种流行方法是计算显着性图。通常,它们获取与给定输入向量相对应的正确类别的输出梯度。对于图像,可以将此梯度用作掩码,突出显示如果更改输入区域,则最会影响输出的区域。25,30

请注意,这些关于模型关注内容的解释可能具有误导性。显着性图仅是局部解释。一旦您移动单个像素,您可能会得到非常不同的显着性图。这与线性模型形成对比,线性模型对输入和输出之间的全局关系进行建模。

Ribeiro等人23 对局部解释进行了另一次尝试。在这项工作中,作者通过学习一个单独的稀疏线性模型来解释第一个模型在特定点附近局部区域的决策,从而解释任何模型的决策。奇怪的是,尽管该方法相对于显着性图的吸引力归因于其为不可微模型提供解释的能力,但它更常用于解释对象模型实际上是可微的情况。在这种情况下,除了梯度的噪声估计外,提供的仍然不清楚。在本文中,解释是以一组超像素的形式提供的。这是否比普通的梯度更具信息性可能在很大程度上取决于人们如何选择超像素。此外,在没有严格定义的目标的情况下,谁能说哪些超参数是正确的?

 

通过示例解释

一种用于解释模型决策的事后机制可能是报告(除了预测之外)哪些其他示例在模型方面最相似,Caruana等人2 提出了这种方法。训练用于判别任务的深度神经网络或潜在变量模型不仅可以访问预测,还可以访问学习到的表示。然后,对于任何示例,除了生成预测之外,您还可以使用隐藏层的激活来识别基于模型学习空间中邻近度的k个最近邻居。这种通过示例解释的方式与人类有时通过类比来证明行动合理性的方式有先例。例如,医生经常参考案例研究来支持计划的治疗方案。

在神经网络文献中,Mikolov等人19 使用这种方法来检查在训练word2vec模型后学习到的单词表示。虽然他们的模型是为判别式跳字预测而训练的,但为了检查模型已学习到的关系,他们根据潜在空间中计算的距离枚举单词的最近邻居。Kim等人10 和Doshi-Velez等人5 在贝叶斯方法中完成了相关工作,研究了用于解释生成模型的基于案例的推理方法。

 

讨论

可解释性的概念似乎既重要又难以捉摸。此前,本文分析了可解释性的动机以及研究界为赋予可解释性所做的一些尝试。现在让我们考虑这种分析的含义,并提供几个要点。

• 线性模型并不比深度神经网络更具可解释性。尽管这种说法经久不衰,但其真值取决于采用哪种可解释性概念。关于算法透明度,这种说法似乎没有争议,但考虑到高维或高度工程化的特征,线性模型分别失去了可模拟性或可分解性。

在选择线性模型和深度模型时,您通常必须在算法透明度和可分解性之间做出权衡。这是因为深度神经网络倾向于在原始或轻微处理的特征上运行。因此,退一步说,这些特征在直觉上是有意义的,并且事后推理是合理的。然而,为了获得可比较的性能,线性模型通常必须在经过大量手工工程设计的特征上运行。Lipton等人13 证明了这样一种情况,即线性模型只有以可分解性为代价才能接近循环神经网络(RNN)的性能。

对于某些类型的事后解释,深度神经网络表现出明显的优势。它们学习可以可视化、口头化或用于聚类的丰富表示。考虑到可解释性的期望,线性模型在研究自然世界方面似乎具有更好的记录,但似乎没有理论理由表明必须如此。可以想象,事后解释可以在类似的情况下证明是有用的。

• 关于可解释性的声明必须加以限定。正如本文所示,术语“可解释性”并非指代一个单一的概念。为了使其有意义,任何关于可解释性的断言都应明确一个具体的定义。如果模型满足某种形式的透明性,则可以直接展示出来。对于事后可解释性,该领域的工作应明确一个清晰的目标,并证明所提供的解释形式能够实现该目标。

• 在某些情况下,透明性可能与人工智能 (AI) 更广泛的目标相悖。一些反对黑箱算法的观点似乎排除了任何可以在复杂任务上匹敌或超越人类能力的模型。举一个具体的例子,通过开发透明模型来建立与医生信任的短期目标,可能与改善医疗保健的长期目标相冲突。当为了追求透明性而放弃预测能力时,请务必谨慎,确保这种渴望是合理的,而不仅仅是对机构偏见(反对新方法)的让步。

• 事后解释可能具有误导性。要警惕盲目接受事后可解释性的概念,尤其是在为了迎合主观需求而优化时。在这种情况下,人们可能(有意或无意地)优化算法以呈现具有误导性但看似合理的解释。作为人类,我们已知会做出这种行为,招聘实践和大学录取就证明了这一点。一些记者和社会科学家已经证明,归因于领导能力或原创性等美德的录取决定,往往掩盖了种族或性别歧视。21 在急于获得机器学习的认可并模仿人类智能的过程中,我们都应该小心,不要大规模地重现病态行为。

 

未来工作

未来工作有几个有希望的方向。首先,对于某些问题,可以通过开发更丰富的损失函数和性能指标来缓解现实生活与机器学习目标之间的差异。这个方向的范例包括关于稀疏性诱导正则化器和成本敏感型学习的研究。其次,可以将此分析扩展到其他机器学习范式,例如强化学习。强化学习器可以通过直接建模模型与环境之间的交互,来解决可解释性研究的一些(但不是全部)目标。然而,这种能力可能会以允许模型在现实世界中进行实验为代价,从而产生实际后果。

值得注意的是,强化学习器能够学习其行为与现实世界影响之间的因果关系。然而,与监督学习一样,强化学习依赖于明确定义的标量目标。对于公平性等问题,我们很难用语言表达成功的精确定义,机器学习范式的转变不太可能消除我们面临的问题。

 

参考文献

1. Athey, S., Imbens, G. W. 2015 机器学习方法 https://arxiv.org/abs/1504.01132v1 (另见参考文献 7)。

2. Caruana, R., Kangarloo, H., Dionisio, J. D, Sinha, U., Johnson, D. 1999. 基于案例的非基于案例学习方法的解释。《美国医学信息学协会 (AMIA) 会议论文集》: 212-215。

3. Caruana, R., Lou, Y., Gehrke, J., Koch, P., Sturm, M., Elhadad, N. 2015. 用于医疗保健的可理解模型:预测肺炎风险和医院 30 天再入院率。《第 21 届 SIGKDD 国际知识发现与数据挖掘会议论文集》, 1721-1730。

4. Chang, J., Gerrish, S., Wang, C., Boyd-Graber, J. L., Blei, D. M. 2009. 解读茶叶:人类如何解释主题模型。《第 22 届国际神经信息处理系统会议 (NIPS) 论文集》, 288-296。

5. Doshi-Velez, F., Wallace, B., Adams, R. 2015. 图稀疏 LDA:具有结构化稀疏性的主题模型。《第 29 届人工智能促进协会 (AAAI) 会议论文集》, 2575-2581。

6. FICO (Fair Isaac Corporation). 2011. 模型构建器记分卡简介; http://www.fico.com/en/latest-thinking/white-papers/introduction-to-model-builder-scorecard.

7. Goodman, B., Flaxman, S. 2016. 欧盟关于算法决策和“解释权”的法规。 https://arxiv.org/abs/1606.08813v3.

8. Huysmans, J., Dejaeger, K., Mues, C., Vanthienen, J., Baesens, B. 2011. 决策表、树和基于规则的预测模型的可理解性的实证评估。《决策支持系统杂志》 51(1), 141-154。

9. Kim, B. 2015. 用于人机协作的交互式和可解释的机器学习模型。博士论文。麻省理工学院。

10. Kim, B., Rudin, C., Shah, J. A. 2014. 贝叶斯案例模型:用于基于案例的推理和原型分类的生成方法。《第 27 届国际神经信息处理系统会议 (NIPS) 论文集》, 第 2 卷, 1952-1960。

11. Kim, B., Glassman, E., Johnson, B., Shah, J. 2015. iBCM:通过直观交互增强人类能力的交互式贝叶斯案例模型。麻省理工学院,剑桥,马萨诸塞州。

12. Krening, S., Harrison, B., Feigh, K., Isbell, C., Riedl, M., Thomaz, A. 2017. 在强化学习中使用情感和建议从解释中学习。《IEEE 认知和发展系统汇刊》 9(1), 41-55。

13. Lipton, Z. C., Kale, D. C., Wetzel, R. 2016. 使用 RNN 对临床时间序列中的缺失数据进行建模。《机器学习医疗保健论文集》。

14. Liu, C., Rani, P., Sarkar, N. 2006. 人机交互中情感识别的机器学习技术实证研究。《模式分析与应用》 9(1): 58-69。

15. Lou, Y., Caruana, R., Gehrke, J. 2012. 用于分类和回归的可理解模型。《第 18 届 SIGKDD 国际知识发现与数据挖掘会议论文集》, 150-158。

16. Lou, Y., Caruana, R., Gehrke, J., Hooker, G. 2013. 具有成对交互的精确可理解模型。《第 19 届 SIGKDD 国际知识发现与数据挖掘会议论文集》, 623-631。

17. Mahendran, A., Vedaldi, A. 2015. 通过反转深度图像表示来理解它们。《IEEE 计算机视觉和模式识别会议 (CVPR) 论文集》, 1-9。

18. McAuley, J., Leskovec, J. 2013. 隐藏因素和隐藏主题:通过评论文本理解评分维度。《第 7 届 推荐系统会议论文集》, 165-172。

19. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., Dean, J. 2013. 词语和短语的分布式表示及其组合性。《第 26 届国际神经信息处理系统会议 (NIPS) 论文集》, 第 2 卷, 3111–3119。

20. Mordvintsev, A., Olah, C., Tyka, M. 2015. Inceptionism:深入神经网络。Google AI 博客; https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html.

21. Mounk, Y. 2014. 哈佛对亚裔美国人不公平吗?纽约时报 (11 月 24 日); http://www.nytimes.com/2014/11/25/opinion/is-harvard-unfair-to-asian-americans.html.

22. Pearl, J. 2009. 《因果关系》。剑桥大学出版社。

23. Ribeiro, M. T., Singh, S., Guestrin, C. 2016. “我为什么要信任你?”:解释任何分类器的预测。《第 22 届 SIGKDD 国际知识发现与数据挖掘会议论文集》, 1135-1144。

24. Ridgeway, G., Madigan, D., Richardson, T., O'Kane, J. 1998. 可解释的提升朴素贝叶斯分类。《第 4 届国际知识发现与数据挖掘会议论文集》: 101-104。

25. Simonyan, K., Vedaldi, A., Zisserman, A. 2013. 深度卷积网络内部:可视化图像分类模型和显着图。 https://arxiv.org/abs/1312.6034 (参见参考文献 1, 7 的注释)。

26. Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., Fergus, R. 2013. 神经网络的有趣特性。 https://arxiv.org/abs/1312.6199 (参见参考文献 1, 7, 25)。

27. Tibshirani, R. 1996. 通过 Lasso 进行回归收缩和选择。《皇家统计学会杂志:B 系列(统计方法)》 58(1), 267-288。

28. Van der Maaten, L., Hinton, G. 2008. 使用 t-SNE 可视化数据。《机器学习研究杂志》 9, 2579-2605。

29. Wang, H.-X., Fratiglioni, L., Frisoni, G. B., Viitanen, M., Winblad, B. 1999. 吸烟与阿尔茨海默病的发病率:基于人群研究的横断面和纵向数据。《美国流行病学杂志》 149(7), 640-644。

30. Wang, Z., Freitas, N., Lanctot, M. 2016. 用于深度强化学习的对决网络架构。《第 33 届国际机器学习会议论文集》 48, 1995-2003。

 

相关文章

算法决策中的责任制
Nicholas Diakopoulos
计算新闻学的视角
https://queue.org.cn/detail.cfm?id=2886105

黑箱调试
James A. Whittaker, Herbert H. Thompson
一切都与应用程序边界发生的事情有关。
https://queue.org.cn/detail.cfm?id=966807

Hazy:让构建和维护大数据分析更容易
Arun Kumar, Feng Niu, 和 Christopher Ré
竞相使用最新的统计和机器学习技术来释放大数据的全部潜力。
https://queue.org.cn/detail.cfm?id=2431055

 

扎卡里·蔡斯·利普顿 (Zachary Chase Lipton) 是卡内基梅隆大学的助理教授。他的研究跨越核心机器学习方法及其社会影响,专注于用于时间序列数据和顺序决策的深度学习。这项工作涉及多个应用领域,包括医疗诊断、对话系统和产品推荐。他是 Approximately Correct 博客的创始编辑,也是 Deep Learning — The Straight Dope 的主要作者,这是一本通过 Jupyter Notebook 教授深度学习的开源互动书籍。在 Twitter (@zacharylipton) 或 GitHub (@zackchase) 上找到他。

 

版权所有 © 2018,归所有者/作者所有。出版权已许可给 。

acmqueue

最初发表于 Queue 第 16 卷,第 3 期
数字图书馆 中评论这篇文章





更多相关文章

Mark Russinovich, Ahmed Salem, Santiago Zanella-Béguelin, Yonatan Zunger - 智能的代价
LLM 容易出现幻觉、提示注入和越狱漏洞,这对它们的广泛采用和负责任的使用构成了重大但可以克服的挑战。我们认为,这些问题是固有的,当然在当前一代模型中是这样,可能在 LLM 本身中也是如此,因此我们的方法永远不能基于消除它们;相反,我们应该应用“纵深防御”策略来缓解它们,并且在构建和使用这些系统时,要假设它们有时会在这些方面失败。


Sonja Johnson-Yu, Sanket Shah - 你对 AI 一窍不通
长期以来,很难确定 AI 到底是什么。几年前,这样的讨论会演变成数小时的草图 Venn 图,并试图绘制出 AI 的不同子领域。快进到 2024 年,我们现在都知道 AI 到底是什么了。AI = ChatGPT。或者不是。


Jim Waldo, Soline Boussard - GPT 和幻觉
本实验的发现支持以下假设:基于 LLM 的 GPT 在更受欢迎且已达成普遍共识的提示上表现良好,但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性强调,模型取决于其训练数据的数量和质量,这与依赖于多样化和可信贡献的众包系统相似。因此,虽然 GPT 可以作为许多日常任务的有用工具,但应谨慎解读它们对晦涩和两极分化主题的参与。


Erik Meijer - 虚拟阴谋:将大型语言模型用作神经计算机
我们探索了大型语言模型 (LLM) 如何不仅可以充当数据库,还可以充当动态的、最终用户可编程的神经计算机。这种神经计算机的本机编程语言是一种受逻辑编程启发的声明式语言,它将思维链推理形式化和外部化,因为它可能发生在大型语言模型内部。





© 保留所有权利。

© . All rights reserved.