2019年9月16日
第17卷，第4期

机器学习与人类判断相结合的效果

人类与机器之间的协作并不一定会带来更好的结果。

米歇尔·瓦卡罗和吉姆·瓦尔多

1997年，IBM的深蓝软件在一系列六场比赛中击败了世界象棋冠军加里·卡斯帕罗夫。此后，其他程序在从《危险边缘》到围棋等游戏中击败了人类选手。受到失败的启发，卡斯帕罗夫在2005年决定在一个在线象棋锦标赛中测试人类+人工智能组合的成功率。² 他发现人类+人工智能团队击败了单独的人类。更令人惊讶的是，他还发现人类+人工智能团队击败了单独的计算机，即使机器的性能优于人类。

研究人员通过强调人类和机器在不同的智能维度上表现出色来解释这种现象。⁹ 人类棋手擅长长期象棋策略，但在评估数百万种可能的棋子配置方面表现不佳。机器的情况则相反。由于这些差异，将人类智能和机器智能相结合比各自独立工作产生更好的结果。人们还将这种人类与机器之间的协作形式视为减轻机器学习中偏见问题的可能方法，而偏见问题近几个月来已成为关注的中心。¹²

我们决定以风险评估算法为案例研究，调查人类与机器之间的这种协作类型。特别是，我们研究了著名的（也许是臭名昭著的）风险预测系统COMPAS（惩教罪犯管理另类制裁分析）算法，及其对人类风险决策的影响。许多州法院使用COMPAS等算法来预测被告的累犯风险，这些结果为保释、判刑和假释决策提供信息。

先前关于风险评估算法的工作主要集中在其准确性和公平性上，但尚未解决其与作为最终仲裁者的人类决策者的互动。在2018年的一项研究中，朱莉娅·德雷塞尔和哈尼·法里德比较了COMPAS软件和亚马逊土耳其机器人工作人员的风险评估，发现该算法和人类达到了相似的准确性和公平性水平。⁶ 这项研究标志着风险评估工具文献的一个重要转变，它通过纳入人类受试者来将算法的准确性和公平性置于背景之中。然而，德雷塞尔和法里德的研究将人类决策者和算法分离开来，而事实上，目前的模型表明人类和算法应该协同工作。

因此，我们的工作包括两个实验，首先探讨了算法风险评估对人类决策的影响，并发现提供算法的预测并不会显着影响人类对累犯的评估。然而，后续实验表明，算法风险评分充当锚点，诱发认知偏差：如果我们改变算法做出的风险预测，参与者会将他们的预测同化到算法的评分中。

因此，结果突出了现有的人在环框架的潜在缺陷。一方面，当算法和人类做出足够相似的决策时，他们的协作不会实现改进的结果。另一方面，当算法失败时，人类可能无法弥补其错误。即使算法不是正式做出决策，它们也会以严重的方式锚定人类的决策。

实验一：人类-算法的相似性，而非互补性

第一个实验检验了COMPAS算法对人类关于累犯风险判断的影响。之所以使用COMPAS风险评分，是因为该系统的数据可用性、其在先前关于算法公平性的工作中的广泛使用以及该系统在许多州的使用。

方法

该实验包含一个1 x 3的被试间设计，具有以下处理：对照组，参与者仅查看被告资料；评分组，参与者查看被告资料和被告COMPAS评分；以及免责声明组，参与者查看被告资料、被告COMPAS评分以及关于COMPAS算法的书面建议。

参与者评估了一系列被告资料，其中包括性别、种族、年龄、刑事指控和犯罪历史数据。这些资料描述了在佛罗里达州布劳沃德县被捕的真人，基于ProPublica在其风险评估算法分析中使用的数据集中的信息。¹ 虽然此数据集最初包含7,214个条目，但本研究在为呈现给参与者的40个资料抽样之前应用了以下过滤器

• 仅限于黑人和白人被告。先前关于COMPAS算法的准确性和公平性的工作将其分析限制在白人和黑人被告身上。^3,4,6 为了将本实验的结果与先前研究中的结果进行比较，本研究仅考虑自认为是非裔美国人（黑人）或高加索人（白人）的被告子集。

• 排除大麻犯罪。有趣的是，试点研究表明参与者对与大麻相关的犯罪（如持有、购买和交付）感到困惑。在调查的自由回答部分，参与者评论说“大麻在这里完全合法”。为了避免对各个州大麻合法性的困惑，本研究排除了被指控犯有包含cannabis一词的犯罪的被告。

从这个过滤后的数据集中随机抽取了40名被告。生成了一个资料，其中包含样本中每位被告的人口统计信息、被指控的罪行、犯罪历史和算法风险评估。对照组的描述性段落采用了以下格式，该格式建立在德雷塞尔和法里德的研究基础上：⁶

被告是一名[种族][性别]，年龄[年龄]。他们被指控犯有：[罪行指控]。此罪行被归类为[刑事等级]。他们曾被判犯有[非青少年先前罪行计数]项先前罪行。他们的记录中有[青少年重罪计数]项青少年重罪指控和[青少年轻罪计数]项青少年轻罪指控。

评分组的描述性段落添加了以下信息

COMPAS是风险评估软件，它使用机器学习来预测被告是否会在未来两年内再次犯罪。该被告的COMPAS风险评分为[评分数字]：[评分级别]。

最后，免责声明组的描述性段落在COMPAS评分下方提供了以下信息，该信息与威斯康星州最高法院在State v Loomis案中建议的语言相呼应：¹⁸

一些对COMPAS风险评估评分的研究提出了疑问，即它们是否不成比例地将少数族裔罪犯归类为具有较高的累犯风险。

在看到每个资料后，参与者被要求提供他们自己对被告的风险评估评分，并表明他们是否相信被告会在两年内再次犯罪。使用下拉菜单，他们回答了图1所示的问题。

The Effects of Mixing Machine Learning and Human Judgment

我们通过Qualtrics平台远程部署了该任务，并通过亚马逊土耳其机器人招募了225名受访者，每个处理组75名。所有工作人员都可以查看任务标题“预测犯罪”；任务描述“回答关于预测犯罪的调查”；以及与任务相关的关键词“调查、研究和刑事司法”。只有居住在美国的工作人员才能完成任务，并且他们只能完成一次。在对最初的五人测试小组进行的试点研究中，调查平均需要15分钟才能完成。由于调查的长度和内容与德雷塞尔和法里德的调查相似⁶，我们采用了他们的付款方案，为完成任务的工作人员支付1美元，如果受访者预测的总体准确率超过65%，则额外奖励2美元。这种付款结构激励参与者在整个任务过程中密切关注并提供最佳回应。^6,17

结果

图2显示了对照组、评分组和免责声明组参与者的平均准确率。误差条表示95%的置信区间。结果表明，提供COMPAS评分并没有显着影响人类预测累犯的总体准确率。在本实验中，对照组预测的总体准确率（54.2%）与评分组的总体准确率（51.0%）没有显着差异（p = 0.1460）。

The Effects of Mixing Machine Learning and Human Judgment

包含关于COMPAS算法局限性的书面建议也没有显着影响人类预测累犯的准确率。免责声明组的参与者实现了53.5%的平均总体准确率，而评分组的参与者实现了51.0%；双侧t检验表明，这种差异在统计学上不显着（p = 0.1492）。

在出口调查中任务块结束后，99%的参与者回应说他们发现任务的说明很清楚，99%的人认为任务令人满意。在他们的反馈中，参与者表示他们对这项研究有积极的体验，并留下了诸如：“我非常喜欢这项任务”；“长度和报酬都很好”；以及“非常好的任务”等评论。

当被问及他们如何考虑COMPAS评分时，参与者没有提及建议。相反，他们的回应表明他们以不同的方式使用COMPAS评分：有些人忽略了它们，有些人严重依赖它们，有些人将它们用作起点，另一些人将它们用作验证来源。

图3包含参与者回应的摘录，其中总结了对自由回答问题“您如何将COMPAS风险评分纳入您的决策？”的答案。

The Effects of Mixing Machine Learning and Human Judgment

讨论

在评估被告再次犯罪的风险时，COMPAS算法的准确率明显高于评估被告资料的参与者（65.0% vs. 54.2%）。然而，本实验的结果表明，仅仅向人类提供在准确率方面优于他们的算法并不一定会带来更好的结果。当参与者将算法的风险评分纳入他们的决策过程时，他们预测的准确率并没有显着改变。包含关于算法中潜在偏见的书面建议也没有影响参与者的准确率。

鉴于互补计算的研究表明，将人类智能和机器智能结合起来可以提高他们的表现^2,9,11，这一发现似乎有悖常理。然而，人类和机器成功协作的实例发生在人类和机器表现出不同优势的情况下。德雷塞尔和法里德的研究表明，亚马逊土耳其机器人工作人员和COMPAS算法对累犯的预测惊人地相似。⁶ 这种相似性可能排除了互补性的可能性。我们的研究强化了这种相似性，表明人类和算法的组合略微（尽管在统计学上不显着）比单独的算法更差，并且与单独的人类相似。

此外，本研究表明，当包含关于COMPAS算法适当用法的书面建议时，参与者预测累犯的准确率没有显着变化。威斯康星州最高法院强制要求包含建议，但未表明其对官员决策的影响是否经过测试。¹¹ 心理学研究和调查设计文献表明，人们经常略读此类免责声明，因此它们无法发挥其预期作用。¹⁰ 与此类理论相符，此处的結果表明，伴随算法输出的书面建议可能不会以显着的方式影响决策的准确性。

实验二：算法作为锚点

第一个实验表明，COMPAS风险评分不会影响人类的风险评估，但心理学研究表明，算法预测可能会通过一种称为锚定效应的微妙认知偏差影响人类的决策：当个人将他们的估计值同化到先前考虑的标准时。阿莫斯·特沃斯基和丹尼尔·卡尼曼在1974年首次提出了锚定启发法，在一篇全面的论文中解释了锚定效应的心理学基础，并通过大量实验提供了该现象的证据。¹⁹ 例如，在一个实验中，参与者旋转一个预先设定为停止在10（低锚点）或65（高锚点）的轮盘赌。旋转轮盘赌后，参与者估计了联合国中非洲国家的百分比。特沃斯基和卡尼曼发现，旋转到10的参与者提供的平均猜测为25%，而旋转到65的参与者提供的平均猜测为45%。他们通过解释人们通过从初始值开始进行估计来合理化这些结果，并且他们对该数量的调整通常是不充分的。

虽然最初调查锚定效应的实验招募了业余参与者¹⁹，但研究人员也在专家中观察到了类似的锚定效应。在他们1987年的一项开创性研究中，格雷戈里·诺斯克拉夫特和玛格丽特·尼尔招募了房地产经纪人参观房屋，审查包含有关该房产详细信息的小册子，然后评估房屋的价值。¹⁶ 研究人员在一组的小册子中列出了较低的要价（低锚点），而在另一组的小册子中列出了较高的要价（高锚点）。查看较高要价的经纪人提供的估价比查看较低要价的经纪人提供的估价高出41%，并且挂牌价格的锚定指数也为41%。诺斯克拉夫特和尼尔在没有房地产经验的商学院学生中进行了相同的实验，并观察到类似的结果：高锚点处理组的学生给出的估价比低锚点处理组的学生高出48%，并且挂牌价格的锚定指数也为48%。因此，他们的发现表明，诸如挂牌价格之类的锚点同样会偏向训练有素的专业人士和经验不足的个人的决策。

最近的研究发现了刑事司法系统中锚定效应的证据。2006年，比尔特·恩格利希、托马斯·穆斯韦勒和弗里茨·斯特拉克进行了一项研究，其中法官掷了一对骰子，然后对一名被判犯有商店盗窃罪的个人判处监禁。⁷ 研究人员操纵了骰子，使其在半数参与者中落在较低的数字（低锚点），而在另一半参与者中落在较高的数字（高锚点）。掷出较低数字的法官判处的平均刑期为五个月，而掷出较高数字的法官判处的平均刑期为八个月。响应的差异在统计学上是显着的，并且骰子滚动的锚定指数为67%。事实上，类似的研究表明，量刑要求⁷、驳回动议¹³和损害赔偿上限¹⁵ 也充当锚点，偏向法官的决策。

方法

因此，第二个实验旨在调查算法风险评分是否通过充当锚点来影响人类的决策。该实验包含一个1 x 2的被试间设计，其中两种处理如下：低评分组，参与者查看被告资料，并附有低风险评分；以及高评分组，参与者查看被告资料，并附有高风险评分。

低评分和高评分处理根据以下公式基于原始COMPAS评分分配风险评分

低评分 = max(0,COMPAS − 3) 高评分 = min(10,COMPAS + 3)

这个新实验与之前的实验相似：参与者评估了相同的40名被告，满足了相同的要求，并获得了相同的报酬。该研究还采用了Qualtrics平台上的格式。

结果

图4显示了分配给被告的参与者的平均评分与低评分和高评分处理中被告资料中提供的评分。误差条表示95%的置信区间。参与者分配给被告的评分与他们在被告资料描述中看到的评分高度相关。因此，在评估同一组被告时，低评分处理组的参与者提供的风险评分平均比高评分处理组的参与者低42.3%。低评分处理组受访者的平均风险评分为3.88（95% CI 3.39-4.36），而高评分处理组受访者的平均风险评分为5.96（95% CI 5.36-6.56）。双侧t检验显示，这种差异在统计学上是显着的（p < 0.0001）。

The Effects of Mixing Machine Learning and Human Judgment

在调查结束时，当参与者反思COMPAS算法在他们的决策中所起的作用时，他们指出了共同的主题，例如将算法的评分用作起点和作为对其自身决策的验证。图5中的表格按处理组和算法在他们决策中的作用总结了这些参与者评论。

The Effects of Mixing Machine Learning and Human Judgment

讨论

这项研究的结果表明，算法风险预测充当锚点，偏向人类的决策。低评分处理组的参与者提供的平均风险评分为3.88，而高评分处理组的参与者分配的平均风险评分为5.96。所有40名被告的平均锚定指数为56.71%。这种锚定度量与先前心理学文献中发现的度量相呼应。^8,14,16 例如，一项研究调查了估计中的锚定偏差，要求参与者猜测最高的红杉树的高度。¹⁴ 研究人员为一组提供了180英尺的低锚点，为另一组提供了1,200英尺的高锚点，他们观察到锚定指数为55%。学者们在概率估计¹⁹、购买决策²⁰和销售预测⁵等背景下观察到了类似的锚定指数值。

即使这种类型的认知偏差发生在刑事司法系统培训较少的参与者中，先前的研究表明，锚定效应在特定领域的非专家和专家之间差异不大。诺斯克拉夫特和尼尔发现，房屋的要价同样影响了房地产经纪人和没有房地产经验的人。¹⁶ 因此，这项研究表明，算法风险评估对法官、保释和假释官员的锚定效应将与本实验中参与者的锚定效应相似。许多先前的研究表明，这些官员实际上很容易受到诸如锚定之类的认知偏差的影响。^7,15

这些发现还重要地突出了解决机器偏见的现有框架的问题。例如，许多研究人员提倡将“人在环中”作为监督角色，他们声称这种措施将提高准确性，并且在风险评估的背景下，“确保判决公正合理”。¹² 然而，即使人类做出最终决定，机器学习模型也会通过锚定这些决策来施加影响。算法的输出仍然会影响被告的最终待遇。

通过这种类型的认知偏差，算法的微妙影响可能会扩展到其他领域，例如金融、招聘和医疗。毫无疑问，未来的工作应侧重于人类和机器的协作潜力，以及促进算法公平的步骤。但是，这项工作在制定解决机器学习模型缺陷的措施时，必须考虑人类的易感性。

结论

此处使用COMPAS算法作为案例研究，以调查算法风险评估在人类决策中的作用。先前关于COMPAS算法和类似风险评估工具的工作主要集中在该工具的技术方面，提出了提高其准确性的方法，并提出了评估其预测公平性的框架。该研究尚未考虑算法作为决策辅助工具而非决策者的实际功能。

基于现有文献的理论发现，一些政策制定者和软件工程师认为，诸如COMPAS软件之类的算法风险评估可以通过为警务、治疗和判刑决策提供信息和改进决策来缓解监禁流行病和暴力犯罪的发生。

因此，此处描述的第一个实验探讨了COMPAS算法如何在受控的人类受试者环境中影响准确性。在预测被告是否会再次犯罪的风险时，COMPAS算法的准确率明显高于评估被告资料的参与者（65.0% vs. 54.2%）。然而，当参与者将算法的风险评估纳入其决策时，其准确率并未提高。该实验还评估了提供旨在警告少数族裔可能受到不同影响的建议的效果。然而，研究结果表明，该建议并未显着影响累犯预测的准确性。

此外，研究人员越来越关注风险评估软件的公平性。虽然许多人承认这些工具中存在算法偏见的可能性，但他们认为，让人在环中可以确保被告获得公平待遇。然而，第二个实验的结果表明，算法风险评分充当锚点，诱发了认知偏差：参与者将其预测同化到算法的评分中。在评估同一组被告时，查看低风险评分组的参与者提供的风险评分平均比查看高风险评分组的参与者低42.3%。鉴于人类的这种易感性，不准确的算法仍可能导致错误的决策。

综合考虑，这些发现表明，人类与机器之间的协作并不一定会带来更好的结果，并且当算法出错或表现出令人担忧的偏见时，人类监督并不能充分解决问题。如果机器要改善刑事司法系统及其他领域的成果，未来的研究必须进一步调查它们的实际作用：作为人类决策者的输入。

参考文献

1. Angwin, J., Larson, J. 2016. 机器偏见。ProPublica (5月23日).

2. Case, N. 2018. 如何成为半人马。设计与科学杂志 (1月).

3. Chouldechova, A. 2017. 具有不同影响的公平预测：累犯预测工具中偏见的研究。大数据 5(2), 153—163.

4. Corbett-Davies, S., Pierson, E., Feller, A., Goel, S., Huq, A. 2017. 算法决策和公平的代价。在第23届 SIGKDD国际知识发现与数据挖掘会议论文集中。 Press, 797—806.

5. Critcher, C. R., Gilovich, T. 2008. 偶然的环境锚点。行为决策杂志 21(3), 241—251.

6. Dressel, J., Farid, H. 2018. 预测累犯的准确性、公平性和局限性。科学进展 4(1), eaao5580.

7. Englich, B., Mussweiler, T., Strack, F. 2006. 用刑事判决掷骰子：无关锚点对专家司法决策的影响。人格与社会心理学公报 32(2), 188—200.

8. Furnham, A., Boo, H. C. 2011. 锚定效应的文献综述。社会经济学杂志 40(1), 35—42.

9. Goldstein, I. M., Lawrence, J., Miner, A. S. 2017. 癌症及其他领域的人机协作：半人马护理模型。JAMA肿瘤学 3(10), 1303.

10. Green, K. C., Armstrong, J. S. 2012. 广告中强制性免责声明效果的证据。公共政策与营销杂志 31(2), 293—304.

11. Horvitz, E., Paek, T. 2007. 互补计算：将呼叫者从对话系统转移到人工接待员的策略。用户建模和用户自适应交互, 17(1-2), 159—182.

12. Johnson, R. C. 2018. 用人工智能公平性克服人工智能偏见。通讯 (12月6日).

13. Jukier, R. 2014. 司法思想内部：探索魁北克混合法律体系中的司法方法。欧洲比较法与治理杂志 (2月).

14. Kahneman, D. 2011. 思考，快与慢。Farrar, Straus and Giroux.

15. Mussweiler, T., Strack, F. 2000. 不确定性下的数字判断：知识在锚定中的作用。实验社会心理学杂志 36(5), 495—518.

16. Northcraft, G. B., Neale, M.A. 1987. 专家、业余爱好者和房地产：关于房产定价决策的锚定和调整视角。组织行为与人类决策过程 39(1), 84—97.

17. Shaw, A. D., Horton, J. J., Chen, D. L. 2011. 为非专业人类评分者设计激励措施。在计算机支持的协同工作会议论文集中。 Press, 275-284.

18. State v Loomis, 2016.

19. Tversky, A., Kahneman, D. 1974. 不确定性下的判断：启发法和偏见。科学 185(4157), 1124—1131.

20. Wansink, B., Kent, R. J., Hoch, S. J. 1998. 购买数量决策的锚定和调整模型。市场营销研究杂志 35(1), 71.

模型可解释性的神话
在机器学习中，可解释性的概念既重要又难以捉摸。
扎卡里·C·利普顿
https://queue.org.cn/detail.cfm?id=3241340

API性能合同
调用者和实现之间的预期交互如何得到保证？
罗伯特·F·斯普劳尔和吉姆·瓦尔多
https://queue.org.cn/detail.cfm?id=2576968

算法决策中的责任制
来自计算新闻学的观点
尼古拉斯·迪亚科普洛斯，马里兰大学帕克分校
https://queue.org.cn/detail.cfm?id=2886105

米歇尔·瓦卡罗 于2019年获得哈佛学院计算机科学学士学位。她对新技术的社会影响特别感兴趣，并希望在该领域寻求进一步的研究机会。

吉姆·瓦尔多 是哈佛大学戈登·麦凯计算机科学实践教授，同时也是哈佛肯尼迪学院技术政策教授。他的研究兴趣包括分布式系统、技术、政策和伦理的交叉点以及隐私保护机制。在加入哈佛大学之前，他在行业工作了30多年，其中大部分时间在Sun微系统公司工作。

最初发表于 Queue 第 17 卷，第 4 期—
在数字图书馆中评论本文

更多相关文章

马克·鲁西诺维奇、艾哈迈德·萨利姆、圣地亚哥·扎内拉-贝格林、约纳坦·宗格 - 智能的代价
LLM容易产生幻觉、提示注入和越狱的脆弱性对其广泛采用和负责任的使用构成了重大但可以克服的挑战。我们认为，这些问题是固有的，当然在当前的模型世代中是如此，并且可能在LLM本身中也是如此，因此我们的方法永远不能基于消除它们；相反，我们应该应用“纵深防御”策略来缓解它们，并且在构建和使用这些系统时，要假设它们有时会在这些方向上失败。

索尼娅·约翰逊-余、桑克特·沙阿 - 你对人工智能一窍不通
长期以来，很难确定人工智能到底是什么。几年前，这样的讨论会演变成长达数小时的会议，勾勒出维恩图并试图绘制出人工智能的不同子领域。快进到2024年，我们现在都知道人工智能到底是什么了。人工智能 = ChatGPT。或者不是。

吉姆·瓦尔多、索林·布萨尔 - GPT和幻觉
这项实验的发现支持了这样一种假设，即基于LLM的GPT在更流行且已达成普遍共识的提示上表现良好，但在有争议的主题或数据有限的主题上则表现不佳。应用程序响应的可变性强调，模型依赖于其训练数据的数量和质量，这与依赖于多样化和可信贡献的众包系统类似。因此，虽然GPT可以作为许多日常任务的有用工具，但应谨慎解读它们对晦涩和两极分化主题的参与。

埃里克·梅杰 - 虚拟阴谋：使用大型语言模型作为神经计算机
我们探索大型语言模型 (LLM) 如何不仅充当数据库，而且充当动态的、最终用户可编程的神经计算机。这种神经计算机的本机编程语言是一种受逻辑编程启发的声明性语言，它将思维链推理形式化和外部化，因为它可能发生在一个大型语言模型内部。