一个戴着太阳镜的孩子被标记为“失败者、输家、无用之人、不成功的人”。这只是 ImageNet Roulette 揭示的众多系统性偏见之一,这是一个艺术项目,通过从原始 ImageNet 数据库中获取其识别系统,将标签应用于用户提交的照片。7 ImageNet 一直是推动 AI 发展的工具性数据集之一,自 2019 年底报告此事件以来,已从其“人”类别中删除了超过 50 万张图像。23 早在 2019 年,研究人员就展示了 Facebook 的广告投放算法如何在决定向谁展示特定广告时,表现出基于用户的种族、性别和宗教的歧视。1 有报告称,商业面部识别软件(尤其是亚马逊的 Rekognition 等)对肤色较深的女性存在偏见。6,22
这些例子让我们得以一窥快速增长的、揭示与 AI 系统相关的偏见的工作,但有偏见的算法系统并非新现象。仅举一个例子,1988 年,英国种族平等委员会发现一所英国医学院犯有歧视罪,因为用于筛选面试候选人的算法对女性和有非欧洲名字的申请人存在偏见。17
随着 AI 在包括司法和医疗保健等多个领域的快速普及,技术专家和政策制定者对与基于 AI 的决策相关的缺乏问责制和偏见提出了担忧。从 AI 研究人员和软件工程师到产品领导者和消费者,各种利益相关者都参与到 AI 流程中。关于 AI、数据集以及政策和权利领域的必要专业知识,这些知识共同帮助揭示偏见,但在这些利益相关者中并非普遍可用。因此,AI 系统中的偏见可能会在不知不觉中复合累积。
例如,考虑一下 ML(机器学习)开发人员在这个流程中的关键作用。他们被要求:适当地预处理数据,从几个可用的模型中选择正确的模型,调整参数,并调整模型架构以适应应用程序的需求。假设一位 ML 开发人员受托开发一个 AI 模型来预测哪些贷款会违约。在不了解训练数据中的偏见的情况下,工程师可能会无意中使用仅验证准确率的训练模型。假设训练数据包含太多违约的年轻人。在这种情况下,当应用于测试数据时,该模型很可能对年轻人违约做出类似的预测。因此,有必要对 ML 开发人员进行关于可能潜入 AI 流程的各种偏见类型的教育。
定义、检测、测量和减轻 AI 系统中的偏见并非易事,并且是积极的研究领域。4 各国政府、非营利组织和行业都在进行多项努力,包括实施法规以解决与偏见相关的问题。随着在各种社会机构和途径中识别和解决偏见的工作不断进行,人们正在不断努力确保计算系统的设计能够解决这些问题。
本文的广泛目标是教育非领域专家和从业者(如 ML 开发人员)了解可能发生在 AI 流程不同阶段的各种类型的偏见,并提出减轻偏见的检查清单。关于公平算法设计的大量文献。4 由于本文旨在帮助 ML 开发人员,因此重点不是公平 AI 算法的设计,而是可以遵循的实际方面,以限制和测试问题制定、数据创建、数据分析和评估期间的偏见。具体而言,贡献可以总结如下
• AI 流程中偏见的分类。提供了可能潜入 AI 流程的各种类型偏见的结构化组织,锚定于从数据创建和问题制定到数据准备和分析的各个阶段。
• 弥合研究与实践差距的指南。列出了阐明在现实世界中实施研究思想相关的挑战的分析,以及填补这一差距的建议实践。提供了可以帮助 ML 开发人员测试各种偏见的指南。
这项工作的目标是提高对偏见的认识和实践技能,以促进 AI 系统的明智使用和采用。
典型的 AI 流程从数据创建阶段开始:(1)收集数据;(2)注释或标记数据;以及(3)将数据准备或处理成可供流程其余部分使用的格式。让我们分析一下在这些步骤中的每一步中如何引入不同类型的偏见。
特定类型的偏见可能在数据集创建期间发生。
抽样偏差
通过选择特定类型的实例多于其他实例(从而使数据集无法代表真实世界)而创建的数据集中产生的偏差称为抽样偏差。这是最常见的数据集偏差类型之一。数据集通常使用特定的一组实例创建。例如,图像数据集偏爱街道场景或自然场景。25 面部识别算法可能会被输入更多浅肤色面孔的照片,而不是深肤色面孔的照片,从而导致在识别深肤色面孔时表现不佳。6 因此,抽样偏差可能导致学习算法的泛化能力差。
测量偏差
测量偏差是由人为测量错误或人们在捕获数据时的某些内在习惯引入的。例如,考虑图像和视频数据集的创建,其中图像或视频可能反映了摄影师使用的技术。例如,一些摄影师可能倾向于以类似的方式拍摄物体;结果,数据集可能仅包含来自某些角度的物体视图。在他们 2011 年的论文“Unbiased Look at Dataset Bias”中,Antonio Torralba 和 Alexei A. Efros 将这种类型的测量偏差称为捕获偏差。25
测量偏差的另一个来源可能是用于捕获数据集的设备。例如,用于捕获图像的相机可能有缺陷,导致图像质量差,从而导致有偏见的结果。这些类型的偏差被广泛归类为设备偏差。
当使用代理而不是真值来创建数据集时,可能会发生第三种类型的测量偏差。例如,逮捕率通常用作犯罪率的替代;就医和药物用作医疗状况的指标等。
标签偏差
标签偏差与标签过程中的不一致性有关。不同的注释者有不同的风格和偏好,这些风格和偏好反映在创建的标签中。当不同的注释者为同类型的对象分配不同的标签时(例如,草地与草坪,绘画与图片),就会出现常见的标签偏差实例。25
当评估者的主观偏见影响标签时,可能会发生另一种标签偏差。例如,在注释文本中体验到的情感的任务中,标签可能会受到注释者的主观偏好(例如他们的文化、信仰和内省能力)的影响。24确认偏差21,即人们倾向于以确认自己先入为主观念的方式搜索、解释、关注和记住信息,与这种类型的标签偏差密切相关。因此,标签可能是基于先前的信念而不是客观评估来分配的。
第三种类型的标签偏差可能源于峰终效应。这是一种与记忆相关的认知偏差,在这种偏差中,人们主要根据他们在体验的峰值(即最强烈的点)和结束时的感受来判断体验,而不是基于体验每一刻的总和或平均值。15 例如,一些注释者在分配标签时可能会更重视对话的最后一部分(而不是整个对话)。24
负集偏差
Torralba 和 Efros 将负集偏差定义为由于没有足够的代表“世界其他地方”的样本而在数据集中引入的偏差。25 作者指出,“数据集定义了一种现象(例如,对象、场景、事件),不仅通过它是什么(正实例),还通过它不是什么(负实例)。” 因此,学习到的分类器在检测负实例时可能表现不佳。
偏见可能会根据问题的定义方式而产生。《麻省理工科技评论》中 Karen Hao 提出的以下示例对此进行了说明。13 假设一家信用卡公司想使用 AI 预测客户的信用度。为了做到这一点,必须以可以“预测或估计”的方式定义信用度。问题可以根据公司想要什么来制定,例如,最大化其利润率或最大化获得偿还的贷款数量;然而,专门研究公平性的康奈尔大学的 Solan Barocas 说,“这些决定是出于各种商业原因而做出的,而不是出于公平或歧视。”
框架效应偏差
先前的信用度示例可以被认为是框架效应偏差的一种类型。21 根据问题的制定方式和信息的呈现方式,获得的结果可能会有所不同,甚至可能存在偏差。另一个值得注意的例子是 COMPAS(惩教罪犯管理替代制裁分析)辩论8,该辩论涉及 Northpointe(现在称为 Equivant)提出的 COMPAS 分数(用于评估累犯风险)与 ProPublica(声称 COMPAS 系统存在偏见)之间关于公平性的定义。ProPublica 声称 Northpointe 的方法对黑人被告存在偏见,因为该群体与更高的假阳性率相关。公平性有几个指标,ProPublica 表示 Northpointe 的系统违反了均等赔率和机会均等公平性标准。Northpointe 的主要辩护是,从预测率均等的角度来看,分数满足公平性。4 因此,偏见可能会根据问题及其成功指标的定义方式而产生。
几种类型的偏见可能发生在算法中或数据分析期间。
样本选择偏差
样本选择偏差是通过选择个人、群体或数据进行分析而引入的,从而使样本无法代表要分析的总体。9 特别是,样本选择偏差在数据分析期间发生,是由于对数据集中的某些变量(例如,特定的肤色、性别等)进行条件化,这反过来会产生虚假的相关性。例如,在分析母亲身份对工资的影响时,如果研究仅限于已经就业的女性,那么由于对就业女性进行条件化,测量的影响将存在偏差。9 常见的样本选择偏差类型包括伯克森悖论20和样本截断。9
混淆偏差
如果算法没有考虑到数据中的所有信息,或者如果它遗漏了特征和目标输出之间的相关关系,则 AI 模型中可能会出现偏差。20混淆偏差源于影响输入和输出的共同原因。考虑这样一种情况:研究生院的录取是基于该人之前的平均绩点。然而,可能还有其他因素,例如获得辅导的能力,这反过来可能取决于种族等敏感属性;这些因素可能决定平均绩点和录取率。16 结果,输入和输出之间引入了虚假的关系,因此可能导致偏差。
遗漏变量是一种特殊的混淆偏差,当分析中未包含某些相关特征时,就会发生这种情况。这也与模型欠拟合问题有关。
另一种类型的混淆偏差是代理变量。即使种族、性别等敏感变量不被用于决策,分析中使用的某些其他变量也可能充当这些敏感变量的“代理”。例如,邮政编码可能表示种族,因为某些种族的人可能主要居住在某个社区。这种类型的偏见也通常被称为间接偏见或间接歧视。
设计相关偏见
有时,偏见是由于算法限制或系统上的其他约束(例如计算能力)而发生的。此类别中值得注意的条目是算法偏差,可以将其定义为仅由算法引起或添加的偏见。在他们 1996 年的论文“计算机系统中的偏见”中,Batya Friedman 和 Helen Nissenbaum10 提供了一个例子:依赖随机性来实现结果公平分配的软件并不是真正随机的;例如,通过使选择向列表末尾或开头的项目倾斜,结果可能会变得有偏见。
另一种设计相关偏见是排名偏差。18 例如,可以理解为每屏显示三个结果的搜索引擎比接下来的三个结果稍微更偏爱前三个结果。10 排名偏差也与呈现偏差密切相关18,呈现偏差源于这样一个事实,即您只能收到已呈现给用户的项目的用户反馈。即使在那些显示的项目中,收到用户反馈的可能性也会进一步受到项目显示位置的影响。2
几种类型的偏见源于人类评估者固有的偏见,以及评估者的选择(样本处理偏差)。
人类评估偏差
通常,人类评估者被用来验证 AI 模型的性能。诸如确认偏差、峰终效应和先前的信念(例如,文化)等现象可能会在评估中产生偏差。15 人类评估者也受到他们可以回忆起多少信息的限制,这可能会导致回忆偏差。
样本处理偏差
有时,为评估算法而选择的测试集可能存在偏差。3 例如,在推荐系统中,某些特定观看者(例如,说某种语言的人)可能会看到广告,而另一些人可能看不到。因此,观察到的效果将无法代表对一般人群的真实效果。在选择性地让某些人群接受某种类型的处理的过程中引入的偏差称为样本处理偏差。
验证和测试数据集偏差
偏差也可能由验证和测试数据集中的样本选择和标签偏差引起。25 一般而言,与数据集创建阶段相关的偏差也可能在模型评估阶段出现。此外,评估偏差可能源于选择不适当的基准/数据集进行测试。
图 1 说明了 AI 流程各个阶段的偏差分类,如前几节所述。
尽管 AI 社区内部为解决与偏见相关的挑战做出了重大研究努力,但仍存在一些差距阻碍了集体进步。下一节重点介绍其中的一些差距。
已经提出了解决数据集偏差问题的方法,并且也提出了新的数据集,重点是保持多样性。例如,diversity-in-faces 数据集包含来自 Yahoo! Flickr Creative Commons 数据集的近一百万张人物图像,专门为实现肤色、面部结构、年龄和性别类别之间的统计均等而组装。然而,在他们 2019 年的论文“Excavating AI”中,Kate Crawford 和 Trevor Paglen 质疑在创建此数据集中使用的颅面测量特征的使用,因为这些特征也可能是种族偏见的代理。7 作者进一步对与几个基准数据集相关的问题进行了批判性回顾。
“机器学习中的公平性”是一个活跃的研究领域。还有专门讨论该主题的会议和研讨会。全面概述机器学习中的公平性超出了本文的范围。有关公平性的各种算法定义以及在分类中实现公平性的方法的广泛概述,请查阅 Barocas 等人的著作。4 还有开源工具,例如 IBM 的 AI Fairness 3605,有助于检测和减轻不需要的算法偏差。尽管做出了这些努力,但 Pratik Gajane 和 Mykola Pechenizkiy 在他们 2018 年的论文“On Formalizing Fairness in Prediction with Machine Learning”中指出,仍然存在显著差距。11
已经提出了用于减少 AI 系统中潜在偏见的实践指南。其中包括 IBM 的“数据集概况说明书”和“数据集的数据表”,这是一种用于共享关于用于训练 AI 模型的数据集的基本信息的方法。12 在他们 2019 年的论文中,Margaret Mitchell 等人建议使用已发布模型的详细文档,以鼓励透明度。19
Kenneth Holstein 等人确定了实践团队面临的挑战与公平 ML 研究文献中提出的解决方案之间的一致性和脱节领域。14 作者敦促未来的研究应侧重于支持从业者收集和管理高质量数据集。作者还认为需要创建特定领域的教育资源、指标、流程和工具。本着这种精神,本文旨在成为 ML 开发人员理解 AI 流程中各种偏见来源的教育资源。
虽然可能无法消除所有偏见来源,但通过某些预防措施,可以减少一些偏见问题。以下是一些关键信息,可以帮助 ML 开发人员识别潜在的偏见来源,并有助于避免引入不必要的偏见
• 结合特定领域的知识对于定义和检测偏见至关重要。重要的是要理解数据集中各种特征之间的结构依赖关系。通常,绘制一个结构图来说明各种感兴趣的特征及其相互依赖关系会有所帮助。这可以帮助识别偏见的来源。20
• 了解数据的哪些特征被认为是敏感的(基于应用程序)也很重要。例如,年龄可能是确定谁获得贷款的敏感特征,但在确定谁获得医疗治疗时则不一定如此。此外,可能存在代理特征,这些特征虽然不被认为是敏感特征,但仍可能编码敏感信息,从而导致有偏见的预测。
• 在尽可能的情况下,用于分析的数据集应代表正在考虑的真实人群。因此,在构建具有代表性的数据集时必须小心谨慎。
• 必须制定适当的标准来注释数据。必须定义规则,以便尽可能从注释者那里获得一致的标签。
• 识别可能与感兴趣的目标特征相关的所有特征非常重要。忽略与目标特征具有依赖关系的变量会导致有偏见的估计。
• 与输入和输出都相关的特征可能导致有偏见的估计。在这种情况下,重要的是通过适当的数据条件化和选择输入中的随机化策略来消除这些混淆偏差来源。20
• 将数据分析限制为数据集的某些截断部分可能会导致不必要的选择偏差。因此,在选择数据子集进行分析时,必须注意不要引入样本选择偏差。
• 在验证模型性能时(例如在 A/B 测试中),必须注意防止引入样本处理偏差。换句话说,在测试模型性能时,测试条件不应仅限于人群的某个子集(例如,仅向某个地区的居民显示推荐结果),因为结果会有偏差。
本文组织了可能发生在 AI 流程中的各种偏见类型,从数据集创建和问题制定到数据分析和评估。它强调了与偏见缓解策略设计相关的挑战,并概述了研究人员提出的一些最佳实践。最后,提出了一组指南,可以帮助 ML 开发人员识别潜在的偏见来源,并避免引入不必要的偏见。这项工作旨在作为 ML 开发人员处理和解决与 AI 系统中偏见相关问题的教育资源。
1. Ali, M., Sapiezynsk, P., Bogen, M., Korolova, A., Mislove, A., Rieke, A. 2019. 通过优化进行歧视:Facebook 的广告投放如何导致有偏见的结果。《 人机交互会议论文集》3; https://dl.acm.org/doi/10.1145/3359301。
2. Amatriain, X. 2015. 呈现反馈偏差的概念在机器学习的上下文中指的是什么?Quora;https://www.quora.com/What-does-the-concept-of-presentation-feedback-bias-refer-to-in-the-context-of-machine-learning。
3. Austin, P. C., Platt, R. W. 2010. 观察性研究中的幸存者治疗偏差、治疗选择偏差和倾向评分。《临床流行病学杂志》63(2), 136-138; https://www.jclinepi.com/article/S0895-4356(09)00247-9/fulltext。
4. Barocas, S., Hardt, M., Narayanan, A. 2019. 公平性与机器学习:局限性与机遇;https://fairmlbook.org。
5. Bellamy, R. K. E., Dey, K., Hind, M., Hoffman, S. C., Houde, S., Kannan, K., Lohia, P., Martino, J., Mehta, S., Mojsilovic, A., Nagar, S., Ramamurthy, K. N., Richards, J., Saha, D., Sattigeri, P., Singh, M., Varshney, K. R., Zhang, Y. 2018. AI Fairness 360:用于检测、理解和减轻不需要的算法偏差的可扩展工具包。arXiv;https://arxiv.org/abs/1810.01943。
6. Buolamwini, J., Gebru, T. 2018. 性别阴影:商业性别分类中交叉准确率的差异。《机器学习研究论文集》81, 1-15; http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf。
7. Crawford, K., Paglen, T. 2019. 挖掘 AI:机器学习训练集中图像的政治。《AI Now Institute》,纽约大学;https://www.excavating.ai。
8. Dressel, J., Farid, H. 2018. 预测累犯的准确性、公平性和局限性。《科学进展》4(1); https://advances.sciencemag.org/content/4/1/eaao5580。
9. Elwert, F., Winship, C. 2014. 内生选择偏差:对对撞变量进行条件化的问题。《社会学年评》40, 31-53; https://www.annualreviews.org/doi/full/10.1146/annurev-soc-071913-043455。
10. Friedman, B., Nissenbaum, H. 1996. 计算机系统中的偏见。《 信息系统汇刊》14(3), https://dl.acm.org/doi/10.1145/230538.230561。
11. Gajane, P., Pechenizkiy, M. 2018. 关于使用机器学习形式化预测中的公平性。《机器学习、公平性、问责制和透明度国际会议论文集》研讨会; https://www.fatml.org/media/documents/formalizing_fairness_in_prediction_with_ml.pdf。
12. Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Daumé III, H., Crawford, K. 2018. 数据集的数据表。《第五届机器学习公平性、问责制和透明度研讨会论文集》; https://www.microsoft.com/en-us/research/uploads/prod/2019/01/1803.09010.pdf。
13. Hao, K. 2019. 这就是 AI 偏见真正发生的方式——以及为什么它如此难以修复。《麻省理工科技评论》; https://www.technologyreview.com/2019/02/04/137602/this-is-how-ai-bias-really-happensand-why-its-so-hard-to-fix/。
14. Holstein, K., Vaughan, J. W., Daumé III, H., Dudik, M., Wallach, H. 2019. 提高机器学习系统中的公平性:行业从业者需要什么?《SIGCHI 人机交互系统会议论文集》, 1-16; https://dl.acm.org/doi/10.1145/3290605.3300830。
15. Kahneman, D. 2000. 按时刻评估:过去和未来。载于《选择、价值观和框架》,D. Kahneman 和 A. Tversky 编辑,693-708。纽约:剑桥大学出版社。
16. Kilbertus, N., Ball, P. J., Kusner, M. J., Weller, A., Silva, R. 2019. 反事实公平性对未测量混淆的敏感性。《人工智能不确定性会议论文集》; http://auai.org/uai2019/proceedings/papers/213.pdf。
17. Lowry, S., Macpherson, G. 1988. 行业的污点。《英国医学杂志》(临床研究版)296(6623), 657; https://www.bmj.com/content/296/6623/657。
18. Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., Galstyan, A. 2019. 机器学习中的偏见和公平性调查。arXiv;https://arxiv.org/abs/1908.09635。
19. Mitchell, M., Simone Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D., Gebru, T. 2019. 模型报告的模型卡。《2019 AAAI/ 人工智能、伦理与社会会议论文集》; arXiv;https://arxiv.org/abs/1810.03993。
20. Pearl, J., Mackenzie, D. 2018. 《为什么之书:因果关系的新科学》。基础书籍。
21. Plous, S. 1993. 《判断与决策心理学》。麦格劳-希尔。
22. Raji, I., Buolamwini, J. 2019. 可操作的审计:调查公开点名商业 AI 产品有偏见性能结果的影响。《AAAI/ 人工智能、伦理与社会会议论文集》, 429-435; https://dl.acm.org/doi/10.1145/3306618.3314244。
23. Small, Z. 2019. 艺术项目揭露种族主义偏见后,AI 数据库中删除了 60 万张图像。《Hyperallergic》;https://hyperallergic.com/518822/600000-imagesremoved-from-ai-database-after-art-project-exposesracist-bias/。
24. Srinivasan, R., Chander, A. 2019. 在没有真实标签的情况下进行众包——案例研究。《机器学习研讨会关于人机循环学习国际会议论文集》; https://arxiv.org/abs/1906.07254。
25. Torralba, A., Efros, A. A. 2011. 对数据集偏见的公正看待。《IEEE 计算机视觉和模式识别会议论文集》, 1521-1528; https://ieeexplore.ieee.org/document/5995347。
Ramya Srinivasan 是美国富士通实验室的 AI 研究员。她的背景是计算机视觉、机器学习、可解释 AI 和 AI 伦理领域。
Ajay Chander 带领研发团队构想和构建以人为中心的新技术和产品。他的工作涉及透明人工智能、人工智能生活助理、数字医疗保健和福祉、软件工具设计、安全以及计算行为设计。他曾获得多个最佳论文奖,其中包括 十年最具影响力论文奖。
版权 © 2021 所有者/作者保留。出版权已授权给 。
最初发表于 Queue vol. 19, no. 2—
在 数字图书馆 对本文进行评论
Mark Russinovich, Ahmed Salem, Santiago Zanella-Béguelin, Yonatan Zunger - 智能的代价
大型语言模型 (LLM) 容易出现幻觉、提示注入和越狱的漏洞,对其广泛应用和负责任的使用构成了重大但可克服的挑战。我们认为,这些问题是固有的,尤其是在当前这一代模型中,并且可能在 LLM 本身中也无法避免。因此,我们的方法不能基于消除这些问题;相反,我们应该应用“纵深防御”策略来缓解这些问题,并且在构建和使用这些系统时,应假设它们有时会在这些方面失效。
Sonja Johnson-Yu, Sanket Shah - 你不了解人工智能
长期以来,很难确切地指出人工智能到底是什么。几年前,这样的讨论会演变成数小时的会议,绘制维恩图并尝试描绘出人工智能的不同子领域。快进到 2024 年,我们现在都确切地知道什么是人工智能了。人工智能 = ChatGPT。或者不是。
Jim Waldo, Soline Boussard - GPT 和幻觉
这项实验的发现支持了以下假设:基于 LLM 的 GPT 在更流行且已达成普遍共识的提示下表现良好,但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性 подчеркивает 模型依赖于其训练数据的数量和质量,这与依赖于多样化和可信贡献的众包系统类似。因此,虽然 GPT 可以作为许多日常任务的有用工具,但应谨慎解读它们对晦涩和两极分化主题的参与。
Erik Meijer - 虚拟阴谋:将大型语言模型用作神经计算机
我们探索了大型语言模型 (LLM) 如何不仅可以充当数据库,还可以充当动态的、最终用户可编程的神经计算机。这种神经计算机的本地编程语言是一种受逻辑编程启发的声明式语言,它形式化并外化了可能发生于大型语言模型内部的思维链推理。