2024年1月14日
第21卷，第6期

解决机器学习众包工作者的“人类受试者”身份

什么样的伦理框架应该规范机器学习研究人员和众包工作者之间的互动？

Divyansh Kaushik、Zachary C. Lipton、Alex John London

随着机器学习（ML）的重点转向以海量数据集为特征的环境，研究人员已经变得依赖于众包平台。^13,25 仅在基于段落的问答（QA）的自然语言处理（NLP）任务中，自2016年以来就引入了超过15个包含至少5万个注释的新数据集。在2016年之前，可用的问答数据集包含的例子要少几个数量级。

构建如此庞大资源的能力，很大程度上源于亚马逊机械土耳其机器人（Amazon Mechanical Turk）等众包平台上临时劳动力市场的流动性。然而，这些做法引发了伦理方面的担忧，包括：（1）低工资；^5,26 （2）已开发应用程序的差异化访问、利益和危害；^1,20 （3）所提出方法的可重复性；^4,21 以及（4）由此产生的技术中可能存在的不公平和歧视。^9,14

本文着眼于什么样的伦理框架应该规范机器学习研究人员和众包工作者之间的互动，以及监管机器学习研究的独特挑战。研究人员通常缺乏人类受试者研究方面的专业知识，需要关于如何对众包工作者扮演的角色进行分类的指导，以符合相关的伦理和监管要求。不幸的是，明确的指导是缺乏的：一些机构和Shmueli等人2021年的一篇论文认为，所有机器学习众包工作者都构成人类受试者；²³ 其他机构则认为，机器学习众包工作者很少构成人类受试者。¹⁰ 围绕机器学习众包工作者的困惑根植于以下因素。

• 新型关系。 美国《通用规则》（U.S. Common Rule）是在生物医学和行为研究中滥用行为之后制定的，反映了区分临床研究与医疗实践的必要性。¹⁵ 由于研究团队中的雇员与研究参与者之间的区别在医疗环境中不太模糊，因此很少关注区分研究人员和研究参与者的标准。

• 新型方法。 在生物医学或社会科学中，数据的收集是为了回答预先指定的问题，而机器学习通常涉及一个动态的工作流程，其中数据的收集以开放式的方式进行，研究问题根据数据分析的结果来阐明。此外，机器学习研究人员经常发布丰富的数据资源，其中大部分数据未被分析。

• 《通用规则》下的模糊性。 一个人是否是人类受试者取决于收集并在之后分析的数据是否是关于该个人的。正如Shmueli等人指出的那样，众包工作者在机器学习研究中可以扮演如此多样化的角色，以至于很难区分收集的数据是关于众包工作者的，还是仅仅是来自他们（但关于其他事物）。²³

• 规模。 自然语言处理研究每年产生数百篇众包论文，仅在2015-2020年间，顶级会议上就出现了703篇。²³

• 经验不足。 密集使用众包的机器学习/自然语言处理论文很少讨论在人类受试者研究中至关重要的伦理考量，并且很少讨论是否寻求机构审查委员会（IRB）的批准或豁免——在上述703篇论文中，只有14篇（约2%）描述了机构审查委员会的审查或豁免。²³

当前的监管框架

在美国，《联邦法规汇编》（CFR）中详细规定的管理科学研究中人类受试者待遇的法规被称为《通用规则》。这些法规在美国卫生与公众服务部人类研究保护办公室（OHRP）的主持下，仅适用于接受联邦资金或已同意遵守这些规则的机构。两个重要的标准决定了一个人是否构成研究参与者：定义研究的标准和定义人类受试者的标准。

研究的部分定义是“旨在发展或贡献于普遍适用知识的系统性调查，包括研究开发、测试和评估”。

人类受试者的定义是“进行研究的调查员（无论是专业人员还是学生）获取其信息的在世个体，通过与该个体的干预或互动，并使用、研究或分析该信息或生物样本；或（ii）获取、使用、研究、分析或生成可识别的私人信息或可识别的生物样本”（45 CFR 46.102 (e)(1)）。

为简单起见，本讨论仅限于信息的产生，而不是生物样本的讨论。

两点澄清：首先，为了满足《联邦法规汇编》中人类受试者的定义，研究人员必须检索关于个人的数据。这并不意味着研究的重点是个人，而是旨在产生关于更广泛人群的普遍适用知识。例如，在生物医学中，个人测量用于产生关于更广泛人群的知识。对于处理众包工作者的机器学习研究人员来说，定义什么是关于个人的信息可能具有挑战性。

其次，《联邦法规汇编》中的条件（i）和（ii）将范围广泛的情况归纳在一起，这些情况在实质性方面有所不同。条件（i）是两个合取项的组合。第一个合取项涉及信息的产生方式：来自干预或互动。这些术语定义为

• 干预包括收集信息或生物样本的物理程序（例如，静脉穿刺）和为研究目的而对受试者或受试者环境进行的操纵。

• 互动包括调查员和受试者之间的沟通或人际接触。

在这些条件中，互动是较弱的条件。干预可以理解为产生个体（例如，给药或抽血）或其环境（例如，将个体放置在成像设备中）变化的互动子集。相比之下，互动包括产生信息但不一定导致个体或其环境发生变化的沟通或人际接触。例如，一项研究可能会将参与者分为两组：一组在常规护理的同时测试干预措施；另一组只接受常规护理。仅接受常规护理的小组仍然是研究的社会互动的一部分，该互动产生数据以控制混淆因素，从而有助于创造普遍适用的知识。

条件（i）中的第二个合取项要求以这两种方式之一（干预或互动）产生的信息随后被使用、研究或分析。其中，使用是最广泛的类别，因为来自社会互动的信息可能以无数种方式用于研究。相比之下，研究和分析构成了使用的更严格子集，其中数据被分析或评估，大概是为了产生定义所研究问题的普遍适用知识。

表1列出了来自这些类别的组合，形成了不同的研究范式。其中，干预分析条件是最狭隘的，这意味着一个人通过有针对性的干预和随后的分析成为研究对象。相比之下，互动使用标准更广泛，认为如果研究人员在研究过程中与某人互动，以产生用于推进研究目标的信息，那么这个人就是人类受试者。

Resolving the Human-subjects Status of Machine Learning Crowdworkers

当研究人员获取、使用、研究、分析或生成关于在世个体的私人信息时，《联邦法规汇编》对人类受试者的定义条件（ii）适用，即使没有直接互动。它涵盖了涉及包含个人信息的数据集的研究或从非包容性数据集生成此类信息的研究。

这些定义划定了哪些伦理和监管要求适用于一项活动。不涉及人类受试者的活动不受人类受试者研究法规的管辖，因此无需机构审查委员会的审查。然而，涉及人类参与者的研究需要遵守特定的道德和监管责任，包括强制性的机构审查委员会审查。

对于一些熟悉《通用规则》的人来说，最后这一说法可能会让人感到惊讶，因为很大一部分机器学习研究，尤其是自然语言处理研究，很可能被归类为豁免。根据《通用规则》46.104.(3)(i)的规定，涉及良性行为干预以及通过口头或书面答复或视听记录从成年受试者收集信息的研究，如果受试者预期同意干预和信息收集，并且满足以下至少一个标准，则可以获得豁免资格

• 调查员以这样一种方式记录所获得的信息，即人类受试者的身份无法直接或通过链接到受试者的标识符轻易确定。

• 任何在研究之外披露的人类受试者的答复都不会合理地使受试者面临刑事或民事责任的风险，或损害受试者的财务状况、就业能力、教育进步或声誉。

然而，研究人员不能单方面宣布他们的研究可以免于机构审查委员会的审查。

相反，豁免是一种监管状态，必须由机构审查委员会确定（?46.109.(a)）。这似乎是矛盾的，因为为了使一项研究符合豁免状态，研究人员有义务向机构审查委员会提供关于其项目的全面详细信息。委员会评估这些信息，以确保满足所有适用的《通用规则》标准。这在行政规则制定以及司法审查中很常见；法院可以确定某事是否在其管辖范围内，但原告必须提供信息，使法院能够做出该决定。豁免状态通常比全面的机构审查委员会审查需要更少的努力，并且获得批准的速度更快。受《通用规则》管辖的机构的研究人员，如果在事先未经过机构审查委员会审查的情况下开始人类受试者研究，将违反监管义务，即使该研究本应获得豁免。

《通用规则》与机器学习研究

基于之前的分析，在很大一部分机器学习研究中，众包工作者显然是人类受试者。这些案例完全符合生物医学和社会科学中熟悉的研究范式，研究人员与众包工作者互动以产生关于这些个人的数据，然后分析这些数据以产生关于这些个人被认为是代表性样本的人群的普遍适用知识。

在一些研究中，研究人员随机将众包工作者分配到干预措施中，以产生可以分析的数据，从而生成关于使用众包工作者的最佳实践的普遍适用知识。在这里，众包工作者显然是人类受试者。他们是专门设计用来捕捉关于他们及其表现的数据的干预措施的目标。

例如，Khashabi等人聘请众包工作者来调查哪些工作流程可以产生更高质量的问答数据集。¹² 他们招募了一组众包工作者根据一段文字编写问题，而另一组众包工作者则看到一段文字和一个建议的问题，并被要求对这个问题进行最小程度的编辑以生成新问题。在这些情况下，数据是关于工作者本身的，分析也是如此。

同样，Kaushik等人也研究了创建问答数据集的不同工作流程。¹¹ 他们要求一组众包工作者在阅读一段文字后编写五个问题，另一组编写引出预训练问答模型不正确预测的问题。通过这项研究，他们得出了关于每种设置如何影响众包工作者行为的见解，然后在这些数据集上训练了各种问答模型。

自然语言处理中的人类受试者研究并不局限于旨在提高数据集质量的研究。Hayati等人将两名众包工作者配对在一个对话环境中，并要求其中一人向另一人推荐一部电影。⁷ 他们分析了输出结果，以确定哪些沟通策略导致了成功的推荐，并使用这些见解来训练自动对话系统。

Perez-Rosas等人要求众包工作者各自写七个真相和七个关于他们自己选择的主题的看似合理的谎言，并收集每个众包工作者的人口统计属性（如年龄和性别）。²² 他们分析了欺骗行为的属性如何与性别和年龄相关，然后训练分类器来预测欺骗、性别和年龄。在这些案例中，研究人员与众包工作者互动以产生关于众包工作者的数据，然后对这些数据进行分析以回答研究假设，从而创造普遍适用知识。

人类受试者指定存在问题的案例

许多机器学习众包研究并不完全符合其他地方常见的研究范式。例如，众包工作者通常不是作为研究对象招募的，而是为了执行研究人员可以执行的任务——有时也确实是这样。在这些情况下，研究人员与众包工作者互动并产生数据，然后将这些数据用于产生普遍适用知识。此外，一些收集到的数据是关于工作者的（例如，为了方便付款）。然而，在这些情况下，为产生普遍适用知识而分析的数据在任何有意义的意义上都不是关于众包工作者的。

在机器学习研究中最常见的众包使用中（例如，Hovy等人⁸），雇佣工作者来标记用于模型训练的数据集。虽然此类研究似乎满足了《通用规则》中的互动和使用标准，但它是通过并非直接关于工作者的信息来满足这些标准的。众包工作者执行的任务通常在处理较小数据集时由研究团队执行。例如，Kovashka等人描述了研究人员提供自己标签的计算机视觉论文。¹³ 为了解决相同的任务，DeYoung等人招募了众包工作者来提供注释，³ 而Zaidan等人则自己进行了注释。³⁰ 所有这些任务都涉及与众包工作者的互动并使用生成的数据。

严格解读关于人类受试者是“关于谁”的研究人员获取信息并用于或分析以产生普遍适用知识的在世个体的说法，在这些案例中，众包工作者不会被归类为人类受试者。这种解读与一些机构审查委员会的做法是一致的。

例如，惠提尔学院（Whittier College）声明

以事物、产品或政策而不是人或他们对自己的想法为重点的信息收集访谈可能不符合人类受试者研究的定义。示例：采访学生关于校园自助餐厅菜单或经理关于差旅报销政策。²⁷

相比之下，其他机构审查委员会对《通用规则》采取了更为广泛的解读。洛约拉大学（Loyola University）表示

在确定一项活动是否构成涉及人类受试者的研究时，请问自己以下问题

1) 收集的数据是否会公开展示或发表？

并且

2) 我的研究方法是否涉及 a) 通过访谈、评估、调查或观察与参与者进行直接和/或间接互动，或 b) 访问关于个人的可识别私人信息，例如，不在公共领域的信息？

如果这两个问题的答案都是“是”，则一个项目被认为是涉及人类受试者的研究，并受联邦法规的约束。¹⁸

请注意，这种解释没有区分信息是关于个人还是仅仅通过直接和/或间接互动获得。其他机构审查委员会似乎也认同这种观点。²

信息关于与仅仅来自如何影响人类受试者的确定？传统上，研究伦理不必担心谁是研究团队的成员，谁是研究参与者。这种模糊性出现在自我实验的案例中，但此类案例很少见，并且符合《通用规则》中的干预+分析类别。产生可用于机器学习研究的数据所需的工作范围，催生了研究人员与公众之间的新型互动形式。在没有联邦当局明确指导的情况下，各个机构审查委员会必须自行处理这个问题。

我们的论点是，在本节中提到的有问题的案例中，众包工作者最好被理解为增强了研究人员的劳动能力，而不是作为人类受试者参与该研究。这个论点分为两部分。

论点的第一部分基于对称性。在劳动分工中，如果一项任务可以由多个人执行，那么对该任务的分类应取决于其实质性特征，而不是执行该任务的个人的身份。（引用工会和非工会工人或独立承包商和雇员的潜在反驳论点表明，个人身份和相关特征可能会影响工作场所保护，即使对于相同类型的工作也是如此。然而，修改代理权利的先前协议不会改变活动的性质——无论是工作还是研究。）

因此，如果相同的任务由研究人员执行，然后由众包工作者执行，那么分类在两种情况下应保持一致。因此，对称性意味着要么众包工作者和研究人员都是研究团队的一部分，要么两者都是人类受试者。

论点的第二部分提供了额外的因素，鼓励将两者都归类为研究团队的一部分。首先，当执行与研究相关的任务时，研究人员不会进行自我实验；他们不是研究对象。

其次，这一立场反映了这样一种理解，即这些互动产生了有助于普遍适用知识发展的有用信息。然而，这些信息应被视为来自他们，而不是关于他们。

第三，研究人员作为一个团队进行互动，以生成研究中使用的工具、材料和指标。但是，这种互动和使用创造了产生新知识的手段；它不构成研究或分析产生新知识的数据。

最后，忽略关于人的数据与来自人的数据之间的区别，并将研究人员和众包工作者都视为人类受试者，将过度扩大监管类别。这将把每个研究团队成员，甚至在生物医学和社会科学领域，都归类为人类受试者，因为他们经常与他们的团队互动以生成用于普遍适用知识的信息。

研究监督中的漏洞

先前的分析强调了机器学习研究中的一个伦理困境。涉及人类参与者的研究中的伦理监督保护了他们的利益，这些利益可能因互动、干预或随后的数据使用而面临风险。监督漏洞的概念——研究人员可以在不影响应用研究程序的情况下规避监督要求¹⁷——构成了一个伦理问题。它侵犯了平等待遇的原则：如果从个人那里收集数据用于研究以产生普遍适用知识，那么无论在过程中如何分配劳动，他们的利益都应受到相同程度的监督和关注。然而，机器学习研究的两个方面使其容易出现监督漏洞：（1）数据收集和分析工作量的划分方式；以及（2）研究问题通常在数据收集后出现的方式。

情景1

《通用规则》设想了研究中劳动的几种分工。在传统的生物医学或社会科学研究中，同一批研究人员既收集又分析数据是很常见的。45 CFR 46.102 (e)(1)(i)肯定了这种方法，该条款规定，研究人员“[通过与个体的干预或互动获得信息或生物样本，并使用、研究或分析该信息或生物样本]，”即在进行人类受试者研究。在这里，伦理审查评估（a）互动是否尊重参与者的自主权和福祉，以及（b）从这些互动中获得的信息是否以尊重个人权利和福祉的方式使用。

数据或生物样本通常在医疗保健或其他健康服务期间收集。此类互动受医疗伦理和专业规范而非研究要求的约束。因此，研究伦理审查评估数据或样本中是否包含可识别的私人信息，以及其使用是否尊重个人的权利和福祉。

目前尚不清楚《通用规则》是否考虑了研究人员为研究目标收集数据但不自行分析数据的情况。这与研究数据的二次使用不同，在研究数据的二次使用中，初始数据收集已经考虑了参与者的福祉和权利，确保了充分的监督。因此，随后的监督将评估该数据的额外使用。

相比之下，许多机器学习研究人员收集大型数据集用于研究目的，没有明确的假设，通常是为了支持未来在广泛领域的研究。^28,31 例如，Williams等人编制了一个用于文本蕴含识别的数据集，并发布了该数据集（以及匿名化的众包工作者标识符）用于未来的研究。²⁸ 同样，Mihaylov等人和Talmor等人创建并发布了带有匿名化标识符的问答数据集，用于进一步研究。^19,24 这些研究仅涉及与众包工作者的互动以及使用或分析来自众包工作者的数据，可能不需要机构审查委员会的审查。

在随后的研究中，Geva等人使用这些匿名化数据集分析了关于众包工作者的信息。⁶ 他们评估了在来自一组众包工作者的数据上训练的机器学习模型如何推广到来自另一组的数据，并训练模型来预测各个文档的作者众包工作者。鉴于他们仅研究了现有的匿名数据集，并没有直接与工作者互动，因此他们的工作是否需要机构审查委员会的监督是值得怀疑的。然而，如果收集初始数据的研究人员也进行了这项分析，则机构审查委员会的审查将是强制性的，以确保对参与者的福祉进行适当的保护。

虽然大多数机器学习研究对参与者造成的风险很小，但确实存在干预或互动不太良性的情况。例如，Xu等人要求众包工作者提示聊天机器人产生不安全的响应，使用这些数据来创建更安全的响应模型。²⁹ 这些个体可能本质上不被视为人类受试者，因为他们的输入并不直接与他们有关。然而，在这项研究中，研究人员还建立了一个用于对人类话语进行分类的冒犯性语言分类法，为未来研究中的应用铺平了道路。因此，可能会推断出关于特定众包工作者使用特定类型冒犯性语言的倾向或熟练程度。

在所有这些案例中，收集的数据集都包含来自众包工作者的信息，目的是产生可能包括关于众包工作者的信息的普遍适用知识。由于45 CFR 46.102 (e)(1)(i)仅当个人的信息在同一研究中获得和使用时才将个人视为人类受试者，因此会产生研究监督漏洞。需要明确的是，发布包含可识别私人信息的数据集用于研究目的将属于45 CFR 46.102(e)(1)的第（ii）款（在前面关于当前监管框架的部分中讨论过）。只要可识别信息仍然存在，对该数据集的后续研究也受该条款的约束。

研究人员从个人那里收集数据以创造普遍适用知识，对其进行匿名化，并将其传递给另一个团队进行分析的方法可以被视为一个漏洞。与研究人员自己分析数据不同，这个过程不受旨在尊重个人自主权和福祉的监督的约束。¹⁵ 即使匿名化减少了敏感细节泄露造成的危害，但由于缺乏监督，它也不能保证在数据收集方面尊重个人自主权和福祉。

解决此类漏洞的一种方法是修改45 CFR 46.102 (e)(1)(i)，明确包括数据的发布及其使用、研究或分析。

情景2

修订45 CFR 46.102 (e)(1)(i)以包括数据发布可能无法防止漏洞。例如，一个直接从众包工作者那里收集数据并收集关于他们的数据的研究团队——一种符合标准研究的方法——可能会将该过程分为两个协议，以避免机构审查委员会的批准要求。在第一个协议中，他们收集数据，但仅分析来自众包工作者的数据，而不分析关于他们的数据。然后，他们匿名化所有收集的数据，并在第二个协议中分析关于众包工作者的数据。这避免了对机构审查委员会批准的需求，因为它不涉及个人互动或可识别私人信息的使用。

在这种情景中，一项需要机构审查委员会批准的单一研究可以通过分解为单独的研究来避免研究伦理监督。因此，确定一个机器学习项目是否构成涉及人类参与者的研究，可能需要在高于个别研究方案的层面上进行。

例如，在药物开发的背景下，试验组合已被定义为“一系列因一组共同目标而相互关联的试验”。¹⁶ 在机器学习研究中应用这种组合层面的方法可能是有益的——也就是说，考虑跨相互关联的研究产生的数据和调查的问题与众包工作者的相关性。成功的组合层面审查需要研究人员预先确定他们正在收集的数据的类型、范围和性质，以及各种研究中可能提出的问题。由于新的研究问题通常在数据收集后因机器学习研究的动态性质而出现，研究人员可能需要咨询机构审查委员会，以明确拟议的研究组合何时应被归类为人类研究。

讨论

对于机器学习的众包工作者在伦理和监管目的上何时构成人类受试者，存在相当大的困惑。虽然一些来源建议将所有众包工作者视为人类受试者，²³ 但我们的分析提出了一个更为细致的建议，确定了：（1）明确的人类受试者研究案例，这些案例需要机构审查委员会的咨询，即使只是为了确认它们属于豁免类别；（2）不构成人类受试者研究的众包研究，因为分析不涉及关于工作者的数据；（3）困难的案例，其中机器学习众包研究的独特特征与《通用规则》中的模糊性相结合，导致如何应用现有要求存在不确定性；以及（4）漏洞，研究人员可以通过这些漏洞规避人类受试者的指定，而无需对执行的研究进行实质性更改。

研究监督的精神是保护参与研究的个人的权利和利益。非研究参与者的人员仍可能面临对其福祉的风险以及对其自主权的威胁。就业互动尤其如此，因为雇主通常可以访问关于其雇员的敏感、私人、可识别信息（如社会安全号码和背景调查报告）。

解决方案不一定是将所有众包工作者重新定义为人类受试者，而是澄清将其归类为人类受试者的参数，确保在适用时进行适当的监督。在其他情况下，他们的权利应通过指导劳动实践和工作场所安全的伦理和监管框架来维护。

我们的建议

• 机器学习研究人员必须积极主动地与机构审查委员会合作，以确定他们将产生的哪些信息是关于众包工作者的，哪些信息仅仅是来自众包工作者的。他们必须辨别他们计划的涉及此数据的研究组合是否构成人类受试者研究。他们还应认识到，随着他们调查的问题发生变化，他们正在进行的研究的状态可能会发生变化。因此，研究人员必须咨询机构审查委员会，以了解正在进行的研究何时需要新的提交或方案修改。

• 机构审查委员会不应本能地将所有涉及众包工作者的机器学习研究归类为人类受试者研究。相反，机构审查委员会应建立明确的程序，用于评估研究组合，以解决研究监督中可能存在的漏洞。他们应与机器学习研究人员沟通，说明分类可能发生变化的情况以及需要修订方案的情况。

• 人类研究保护办公室（OHRP）应提供关于信息或分析“关于”一组个人的确切含义的明确指导。我们还建议OHRP修订《通用规则》，以便45 CFR 46.102(e)(1)条件（i）修改为：“通过与个体的干预或互动获得信息或生物样本，并使用、研究、分析或发布该信息或生物样本。” 这一修改将要求，通过与人类互动收集数据并计划发布数据集（即使是匿名化的）的原始调查员，如果该数据集可能被用于提出关于这些个人的问题，则必须为其收集数据的研究获得机构审查委员会的批准。除非随后的研究旨在重新识别个人，否则使用匿名化数据的后续研究将不被视为人类受试者研究。此更改解决了此处确定的一个漏洞。OHRP还在为机器学习研究人员提供指导方面发挥作用。这可以通过发布机构“致同事信”或常见问题解答文件来实现。

致谢

作者感谢Sina Fazelpour、Holly Fernandez Lynch和I. Glenn Cohen的建设性反馈。他们还感谢Mozilla、卡内基梅隆大学布洛克中心、卡内基梅隆大学普华永道中心、匹兹堡大学医学中心、Abridge、Meta Research和亚马逊研究提供的资助和奖学金，这些资助和奖学金使这项工作成为可能。

参考文献

1. Adelani, D. F., Abbott, J., Neubig, G., D'souza, D., Kreutzer, J., Lignos, C., Palen-Michel, C., Buzaaba, H., Rijhwani, S., Ruder, S., et al. 2021. MasakhaNER：非洲语言的命名实体识别。《计算语言学学报》9, 1,116-1,131; https://aclanthology.org/2021.tacl-1.66.pdf.

2. Birmingham-Southern College. 我需要机构审查委员会的批准吗？ https://www.bsc.edu/academics/irb/documents/BSC%20IRB%20Decision%20Tree.pdf.

3. DeYoung, J., Jain, S., Rajani, N. F., Lehman, E., Xiong, C., Socher, R., Wallace, B. C. 2020. ERASER：评估理性化自然语言处理模型的基准。在第58届计算语言学协会年会论文集, 4,443–4,458; https://aclanthology.org/2020.acl-main.408/.

4. Dodge, J., Gururangan, S., Card, D., Schwartz, R., Smith, N. A. 2019. 展示你的工作：改进实验结果的报告。在2019年自然语言处理实证方法会议和第九届国际自然语言处理联合会议（EMNLP-IJCNLP）论文集, 2,185–2,194; https://aclanthology.org/D19-1224/.

5. Fort, K., Adda, G., Cohen, K. B. 2011. 亚马逊机械土耳其机器人：金矿还是煤矿？《计算语言学》37 (2), 413–420; https://aclanthology.org/J11-2010.pdf.

6. Geva, M., Goldberg, Y., Berant, J. 2019. 我们是在建模任务还是标注者？自然语言理解数据集中标注者偏差的调查。载于Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the Ninth International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 1,161–1,166; https://aclanthology.org/D19-1107.pdf。

7. Hayati, S. A., Kang, D., Zhu, Q., Shi, W., Yu, Z. 2020. INSPIRED：面向社交推荐对话系统。载于Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 8,142–8,152; https://aclanthology.org/2020.emnlp-main.654/。

8. Hovy, D., Plank, B., Søgaard, A. 2014. 众包重新标注词性标注数据集的实验。载于Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 377–382; https://aclanthology.org/P14-2062.pdf。

9. Hovy, D., Spruit, S. L. 2016. 自然语言处理的社会影响。载于Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 591–598; https://aclanthology.org/P16-2096/。

10. Ipeirotis, P. 2009. Mechanical Turk、人类受试者和IRB； https://www.behind-the-enemy-lines.com/2009/01/mechanical-turk-human-subjects-and-irbs.html。

11. Kaushik, D., Kiela, D., Lipton, Z. C., Yih, W.-T. 2021. 对抗性数据收集对问题回答效果的影响：来自大规模随机研究的结果。载于Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP), 6,618–6,633; https://aclanthology.org/2021.acl-long.517.pdf。

12. Khashabi, D., Khot, T., Sabharwal, A. 2020. 事半功倍：用于鲁棒问题回答的自然扰动。载于Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 163–170; https://aclanthology.org/2020.emnlp-main.12.pdf。

13. Kovashka, A., Russakovsky, O., Fei-Fei, L., Grauman, K. 2016. 计算机视觉中的众包。Foundations and Trends in Computer Graphics and Vision 10 (3), 177–243; https://www.nowpublishers.com/article/Details/CGV-0711。

14. Leidner, J. L., Plachouras, V. 2017. 伦理设计：自然语言处理的伦理最佳实践。载于Proceedings of the First ACL Workshop on Ethics in Natural Language Processing, 30–40; https://aclanthology.org/W17-1604.pdf。

15. London, A. J.. 2021. 为了共同利益：研究伦理学的哲学基础。牛津大学出版社。

16. London, A. J., Kimmelman, J. 2019. 临床试验组合：人类研究伦理、药物监管和政策中被忽视的关键环节。Hastings Center Report 49 (4), 31–41; https://pubmed.ncbi.nlm.nih.gov/31429954/。

17. London, A. J., Taljaard, M., Weijer, C. 2020. 研究伦理体系中的漏洞？集群随机试验中个体层面干预的知情同意豁免。Ethics & Human Research 42 (6), 21–28; https://onlinelibrary.wiley.com/doi/abs/10.1002/eahr.500071。

18. 洛约拉大学。我需要IRB审查吗？ https://www.luc.edu/irb/gettingstarted/isirbreviewrequired/。

19. Mihaylov, T., Clark, P., Khot, T., Sabharwal, A. 2018. 盔甲能导电吗？一个新的开放域问题回答数据集。载于Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2,381–2,391; https://aclanthology.org/D18-1260/。

20. Nekoto, W., Marivate, V., Matsila, T., Fasubaa, T., Fagbohungbe, T., Akinola, S. O., Muhammad, S., Kabenamualu, S. K., Osei, S., Sackey, F., et al. 2020. 低资源机器翻译的参与式研究：非洲语言的案例研究。载于Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, 2,144–2,160; https://aclanthology.org/2020.findings-emnlp.195.pdf。

21. Ning, Q., Wu, H., Dasigi, P., Dua, D., Gardner, M., Logan IV, R. L., Marasovic, A., Nie, Z. 2020. 使用CROWDAQ进行简单、可复现和质量控制的数据收集。载于Proceedings of the 2020 Empirical Methods in Natural Language Processing (EMNLP), Systems Demonstrations, 127–134; https://aclanthology.org/2020.emnlp-demos.17.pdf。

22. Pérez-Rosas, V., Mihalcea, R. 2015. 开放域欺骗检测实验。载于Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 1,120–1,125; https://aclanthology.org/D15-1133.pdf。

23. Shmueli, B., Fell, J., Ray, S., Ku, L.-K. 2021. 超越公平薪酬：NLP众包的伦理影响。载于Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 3,758–3,769; https://aclanthology.org/2021.naacl-main.295.pdf。

24. Talmor, A., Herzig, J., Lourie, N., Berant, J. 2019. CommonsenseQA：一个针对常识知识的问题回答挑战。载于Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 4,149–4,158; https://aclanthology.org/N19-1421.pdf。

25. Vaughan, J. W. 2017. 更好地利用众包：众包如何推进机器学习研究。Journal of Machine Learning Research 18 (1), 7,026–7,071; https://dl.acm.org/doi/10.5555/3122009.3242050。

26. Whiting, M. E., Hugh, G., Bernstein, M. S. 2019. 公平工作：一行代码实现众包最低工资。载于Proceedings of the AAAI Conference on Human Computation and Crowdsourcing 7, 197–206; https://ojs.aaai.org/index.php/HCOMP/article/view/5283。

27. 惠提尔学院。我需要IRB审查吗？ https://www.whittier.edu/academics/researchethics/irb/need。

28. Williams, A., Nangia, N., Bowman, S. 2018. 用于通过推理进行句子理解的广泛覆盖挑战语料库。载于Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 1 (Long Papers). 1,112–1,122; https://aclanthology.org/N18-1101.pdf。

29. Xu, J., Ju, D., Li, M., Boureau, Y.-L., Weston, J., Dinan, E. 2020. 开放域聊天机器人安全秘诀。arXiv 预印本 arXiv:2010.07079; https://arxiv.org/abs/2010.07079。

30. Zaidan, O., Eisner, J., Piatko, C. 2007. 使用“标注者理由”改进文本分类的机器学习。载于Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, 260–267; https://aclanthology.org/N07-1033。

31. Zhang, D., Zhang, M., Zhang, H., Yang, L., Lin, H. 2021. MultiMET：用于隐喻理解的多模态数据集。载于Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing 1: Long Papers, 3,214–3,225; https://aclanthology.org/2021.acl-long.249.pdf。

Divyansh Kaushik 是美国科学家联盟新兴技术和国家安全副主任，他的工作重点是人工智能政策和美中战略竞争。他拥有卡内基梅隆大学博士学位，专注于设计与人类价值观相符的可靠人工智能系统。

Zachary C. Lipton 是卡内基梅隆大学 (CMU) 机器学习助理教授，也是医疗保健初创公司 Abridge 的首席技术官和首席科学家。在 CMU，他领导着 Approximately Correct Machine Intelligence (I) 实验室，该实验室的研究重点包括鲁棒和自适应机器学习算法的理论和工程基础、在临床医学、自然语言处理中对预测和决策问题的应用，以及机器学习系统对社会的影响。他目前工作的一个关键主题是利用观察数据背后的因果结构，同时生成与主导实际应用的现代深度学习强大工具兼容的算法。他是 Approximately Correct 博客的创始人，也是 Dive into Deep Learning 的合著者，这是一本完全通过 Jupyter 笔记本起草的交互式开源书籍，已拥有数百万读者。您可以在 Twitter (@zacharylipton)、GitHub (@zackchase) 或他的实验室网站 (acmilab.org) 上找到他。

Alex John London 是卡内基梅隆大学的 K&L Gates 伦理与计算技术教授，K&L Gates 伦理与计算技术倡议的联合负责人，卡内基梅隆大学伦理与政策中心主任，以及卡内基梅隆大学 Block 技术与社会中心首席伦理学家。作为黑斯廷斯中心当选院士，London 教授的工作重点是围绕医学、生物技术和人工智能领域新型技术的开发和部署的伦理和政策问题。他的著作 为了共同利益：研究伦理学的哲学基础，可通过牛津大学出版社购买精装本，也可作为开放获取标题获取。

最初发表于 Queue vol. 21, no. 6—
在数字图书馆中评论本文

更多相关文章

Mark Russinovich, Ahmed Salem, Santiago Zanella-Béguelin, Yonatan Zunger - 智能的代价
LLM 容易产生幻觉、提示注入和越狱，这对它们被广泛采用和负责任地使用构成了重大但可克服的挑战。我们认为这些问题是固有的，当然在当前这一代模型中是这样，而且很可能在 LLM 本身中也是如此，因此我们的方法永远不能基于消除它们；相反，我们应该应用“深度防御”策略来缓解它们，并且在构建和使用这些系统时，要假设它们有时会在这些方面失败。

Sonja Johnson-Yu, Sanket Shah - 你对人工智能一窍不通
长期以来，很难确定人工智能到底是什么。几年前，这样的讨论会演变成长达数小时的会议，绘制维恩图并试图绘制出人工智能的不同子领域。快进到 2024 年，我们现在都知道人工智能到底是什么。人工智能 = ChatGPT。或者不是。

Jim Waldo, Soline Boussard - GPT 和幻觉
本实验的结果支持以下假设：基于 LLM 的 GPT 在更流行且已达成普遍共识的提示上表现良好，但在有争议的主题或数据有限的主题上表现不佳。应用程序响应的可变性强调模型依赖于其训练数据的数量和质量，这与依赖于多样化和可信贡献的众包系统类似。因此，虽然 GPT 可以作为许多日常任务的有用工具，但应谨慎解读它们对晦涩和两极分化主题的参与。

Erik Meijer - 虚拟阴谋：将大型语言模型用作神经计算机
我们探讨了大型语言模型 (LLM) 如何不仅可以充当数据库，还可以充当动态的、最终用户可编程的神经计算机。这种神经计算机的本地编程语言是一种受逻辑编程启发的声明性语言，它形式化和外部化了思维链推理，因为它可能发生在一个大型语言模型内部。