案例研究

2023 年 3 月 27 日
第 21 卷，第 1 期

案例研究

不止算法

与 Alfred Spector、Peter Norvig、Chris Wiggins、Jeannette Wing、Ben Fried 和 Michael Tingley 的讨论

在数据收集、存储和处理能力方面的巨大进步，导致了数据科学的快速发展及其对几乎所有经济和社会方面的巨大影响。数据科学也对学术学科产生了巨大影响，带来了新的研究议程、新的学位和组织实体。

认识到该领域的复杂性和影响，Alfred Spector、Peter Norvig、Chris Wiggins 和 Jeannette Wing 完成了一本关于数据科学的新教科书，《情境中的数据科学：基础、挑战、机遇》，于 2022 年 10 月出版。⁶凭借在学术界、政府和工业界研究与实践方面的深刻而多样的经验，作者们对如何良好地应用数据科学提出了整体的看法。

Rally Ventures 的风险合伙人、曾任 Google 首席信息官 14 年的 Ben Fried，以及 Meta 的软件工程经理 Michael Tingley，在作者们完成书稿之际，将他们聚集在一起，讨论他们工作的动机和一些关键点。

Norvig 是斯坦福 HAI（以人为中心的人工智能）的杰出教育研究员和 Google 的研究主管；Spector 是麻省理工学院的访问学者，此前曾在工程和研究组织担任领导职务；Wiggins 是哥伦比亚大学应用数学副教授；Jeannette Wing 是哥伦比亚大学负责研究的执行副总裁和计算机科学教授。（关于小组成员的更多传记细节，请参见本文结尾。）

Ben Fried 你们来自非常不同的背景，才进入数据科学领域。写这本书是否有共同的灵感？

Alfred Spector 在某种程度上，我认为我们都看到了数据科学中深刻且日益增长的两极分化。一方面，它具有巨大的、前所未有的积极影响的力量，我们每个人都很幸运能够为此做出贡献；另一方面，我们看到即使在最良好的意愿下，也出现了严重的负面影响，而且常常与从业者的技术技能无关。有很多关于该领域科学和工程学的优秀教材和课程，但似乎每天的新闻头条都在表明，迫切需要教育关于你，本，称之为该领域的“外在因素”。

Peter Norvig 在数据科学应用快速增长的过程中，一直存在需要面对的严重问题：点击欺诈、早期的 Google 炸弹、数据泄露、应用程序的滥用操纵、错误信息的放大、对相关性的过度解读等等——所有这些都是我们每天读到的事情。有些问题比其他问题更严重，但我们认为教育将有助于我们减少这些问题的频率和严重性，同时让我们能够理解它们的重要性。

BF 为什么在你们的书名中使用了“情境”这个词？

Chris Wiggins 这是我们主要的动机。简而言之，我们想为数据科学学科提供一些包容性的“情境”。我们觉得“数据科学”这个术语经常被狭隘地使用。

AS 我们从三个方面来考虑情境。

它指的是不仅仅是数据和模型的其他主题。这些包括可靠性、目标明确性、可解释性以及其他我确信我们将要深入探讨的内容。

它也指数据科学应用所在的领域。对于某些应用至关重要的东西，对于其他应用则不是必需的。实践数据科学的团队必须特别关注其工作的用途。

最后，情境指的是管理数据科学结果接受度的社会观点和规范。正如我们已经看到的关于隐私和公平性的不断变化的观点和规范一样，数据科学将越来越多地被期望解决具有挑战性的问题，而社会观点因地区和时间而异。其中一些问题用 C. West Churchman² 的话来说是“棘手的”，它们与计算最初解决的问题截然不同。

Jeannette Wing 虽然数据科学借鉴了计算机科学、统计学和运筹学等学科，以提供我们可以应用的方法、工具和技术，但我们所做的工作将根据我们是在处理医疗保健问题、与自动驾驶相关的问题，还是在探索气候变化的某些特定方面而有所不同。正如每个学科都有其自身的约束一样，对于这些不同的问题领域也可以这样说。这就是为什么数据科学的应用在很大程度上是由我们想要解决的问题的性质或我们试图完成的任务来定义的。

PN 除此之外，我个人希望接触到比我以前更具数学和算法性的教科书更广泛的受众。要进行数据科学，我们需要了解许多技术，但我们也需要熟悉更广泛的社会问题。我们都认同这个动机。

BF 所有这些都引出了你们如何定义数据科学的问题。

JW 当阿尔弗雷德和我第一次开始谈论写书时，我已经开始撰写论文和发表演讲，在其中我将数据科学定义为“从数据中提取价值”的研究。但我们一致认为，这个定义过于宏观，而且在操作上不够充分。

AS 因此，我们从“从数据中提取价值”开始，然后添加文字来解决该领域的两种特性——一种是使用数据为人们提供洞察力（如统计学的许多用途），另一种与数据科学使程序能够得出结论的能力有关。

CW 我们也认识到我们需要一个包容性的定义[见侧边栏]，以尊重人们在工业界和学术界以数据科学的名义正在做的事情，以及该领域变化的迅速性。

数据科学的定义

数据科学是从数据中提取价值的研究——以洞察力或结论的形式。

数据衍生的洞察力可以是

• 一个假设，可以用更多数据进行检验。

• 来自简洁的统计数据或恰当的可视化图表的“啊哈！”时刻。

• 通过检查数据和不同情景的含义，揭示的感兴趣变量之间看似合理的关系。

结论可能在分析师的脑海中，也可能在计算机程序中。为了有用，结论应引导我们对如何在世界中采取行动做出好的决定，这些行动可以由程序自动执行，也可以由咨询程序的人类执行。结论可以采取以下形式

• 对后果的预测。

• 对有用行动的建议。

• 对相似元素进行分组的聚类。

• 对分组中的元素进行标记的分类。

• 将数据转换为更有用形式的转换。

• 将系统移至更好状态的优化。

摘自《情境中的数据科学：基础、挑战、机遇》。⁶

BF 这是一个非常流动的定义。数据科学不仅对不同的人意味着不同的事物，而且它也具有模糊的边界。

CW 完全正确！我们正处于一个新领域创建的时期，它确实具有模糊的边界。它涉及许多不同的主题：隐私/安全、弹性、公共政策、伦理等等。但它也随着职位名称、学位和部门的创建而明确成形。我们看到了一个机会，可以尝试定义它的广度——从其从业者必须克服的各种挑战开始。

Michael Tingley 你们区分数据科学和机器学习吗？

AS 作为一个领域，数据科学比机器学习更广泛，因为机器学习只是它采用的技术之一。数据科学涵盖了来自统计学、运筹学、可视化和更多领域的许多技术：事实上，是将洞察力和结论带到有价值的终点所需的一切。话虽如此，机器学习的革命性发展绝对催化了最大的变化：令人难以置信的成功，但也带来了一些挑战。

PN 一个区别是，在机器学习领域，研究人员的重点可能是撰写一篇论文，吹捧一些新算法或对现有算法的某些调整。然而，在数据科学领域，研究更可能谈论一个新的数据集以及如何应用一系列技术来使用它。

BF 所以，你们的动机是来自于我们面临的挑战的广度。你们最终得出了什么结论？是否有可以提供帮助的方法？

分析标准

• 易于处理的数据

• 技术方法

• 可靠性

• 可理解性

• 明确的目标

• 对失败的容忍度

• 伦理、法律、社会影响

PN 经过大量的交流和讨论，我们提出了一些我们称之为分析标准的东西，我们在其中列举了数据科学家需要考虑的要素。

正如 Atul Gawande 在《清单革命》³ 中写道，像我们的标准这样的清单可以带来更好的解决方案，我们希望我们的标准可以帮助人们避免我们在过去的项目中犯下的一些错误。但是，由于每个项目都不同，因此很难提出一个适用于所有项目的清单，因此我们将看看它能否经受住时间的考验。

AS 让我们具体一点。分析标准解决了七个类别中的挑战。有些更多地与我们如何实施或应用数据科学有关。另一些则更多地与我们试图满足的要求有关。

PN 该标准从数据开始：获取和存储数据、将数据整理成有用的形式、确保隐私、确保完整性和一致性、管理共享和删除等。在某些方面，这可能是数据科学项目中最难的部分。

对我来说，数据科学的第一个重大启示是，数据可以成为提供真正价值的关键资产。⁴但是，第二个启示是，如果您不是一个好的管理者，数据可能会成为一种负担。

BF 持有数据是否有隐藏成本？

PN 在这方面，我从近年来为推进联邦学习所做的所有努力中学到了一些东西。在早期，如果一个团队想要构建一个更好的语音识别系统，它会将所有数据导入到一个位置，然后在那里运行和优化模型，直到他们获得可以发布给用户的东西。但是，那将意味着持有所有这些人的私人对话，并伴随风险。作为一个领域，我们认为最好不要持有这些信息，而是私下优化每个人的数据，同时想出一些巧妙的方法，在联邦学习框架中与多人共享个人优化。这种联邦方法似乎进展良好。对隐私的担忧最终导致了相当不错的科学进步。

AS 我们的第二个标准要素是最明显的。需要有一种技术方法，它可以来自机器学习、统计学、运筹学或可视化。这提供了一种提供有价值的洞察力和结论的方法，无论是预测、建议还是其他。

在某些情况下，找到模型并不容易。有时，固有的不确定性太多，有时世界可能会不断变化，使建模工作失效。有些情况是博弈论的，模型的结论本身会产生反馈，从而使世界变得更不可预测。

建模局限性的一个例子是预测 Covid-19 可能造成的后果。由于与数据局限性、快速变化的政策、人类行为的变化以及病毒突变相关的诸多原因，对死亡率进行长期预测的能力一直很差。

BF 您是说数据科学在抗击 Covid 疫情中根本没有帮助吗？

PN 我参与了一个与实习生和加州大学伯克利分校的一些统计学家合作的项目，我们试图提前三天向医院发出他们需要多少工作人员的通知。我们无法提前 30 天给出准确的预测，但我们可以做出有用的短期预测。

JW 当然，数据科学在许多其他领域也得到了成功应用，最明显的是疫苗和治疗试验。

BF 我们可以把所有时间都花在模型上，但鉴于主题的广泛性，让我们转到下一个标准要素：可靠性。

JW 随着数据科学在越来越重要的方面得到应用，可靠性变得越来越重要，我们在其下包括四个子主题：数据收集、存储和使用的隐私影响是否可以接受？考虑到攻击可能会泄露数据或损害应用程序的正确性或可用性，应用程序的安全影响是否可以接受？在一个不断变化的世界中以及我们可能没有完全理解的建模技术面前，系统是否具有弹性？最后，由此产生的系统是否充分抵抗了滥用，而滥用已经摧毁了如此多的应用程序？

CW 我们应该注意到可靠性组件中的紧张关系。对隐私的推动与提供安全的需求就是一个例子。端到端加密将降低隐私风险，并防止提供商看到私人消息，但也会限制平台响应执法请求和执行内容审核的能力。这里肯定存在一些尚未解决的紧张关系。

MT 正确处理隐私、安全、弹性和抗滥用性是一个良好的开端，本身就是一个艰巨的挑战。这足以让人们信任数据科学的应用吗？

AS 这可能还不够。开发人员、科学家和用户必须充分理解数据科学应用程序，尤其是在日益敏感的情况下。鉴于其普遍的影响，公众和政策制定者也需要有更多的理解。

这就引出了可理解性的标准主题，它有三个类别：模型的结论是否必须是可解释的——也就是说，应用程序是否应该能够解释“为什么”？结论是否必须证明因果关系，还是相关性就足够了？数据科学应用程序，尤其是在科学和政策领域，是否必须向其他人提供其数据和模型，以便他们可以测试可重复性？

在研究中应用数据科学的传统是，其他人必须能够重现工作，以便他们可以测试和验证它。当我们处理海量数据和复杂模型时，这非常难以实现。

PN 可理解性在机器学习中尤其困难，但当今的研究正在取得进展——例如，可视化和假设分析工具。虽然仅凭回顾性数据很难展示因果关系，但来自统计学界的因果推断工作可以减少证明因果关系所需的额外实验量。

AS 这是一个来自大约 10 年前的真实世界例子，当时我在 Google 工作。有人认为，社会最好衡量并最大化幸福感，而不是人均 GDP（国内生产总值）。也许是受不丹当时新近引入的国民幸福总值指标的启发，这种兴趣被激发了。有些人认为，谷歌可以从人群的集体搜索中收集幸福感评分。在我们走得太远之前，我们意识到有一个很大的陷阱：这个评分将具有如此大的影响力，以至于谷歌需要向公众解释它是如何计算出来的。但是，如果完全解释了机制，人们就会想要滥用它——并使其失效。虽然有数据和（可能的）模型，但可理解性——然后是可靠性——问题最终扼杀了这项工作。

MT 这自然引出了设定精确目标的问题。系统的目标是一个不变的外部属性，还是在系统或其情境如何演变中也存在一些涌现属性？

AS 下一个标准要素与拥有明确的目标有关。我们真的知道我们想要实现什么吗？复杂系统一直需要需求分析，但数据科学的许多用途都极具挑战性。它们需要平衡近期和长期目标、不同利益相关者的需求等等。对于我们应该实现什么，甚至可能没有社会共识。例如，电子游戏应该有多有趣——或者说，应该有多容易让人上瘾？对用户的哪些建议是有益的，哪些建议在错误的情况下可能会分散注意力？有些是否完全有害？

正如已经提到的，社会的规范可能会随着时间的推移而改变。很难预料到一切，但我们应该尝试思考特定设计的各个方面带来的不利风险。我们主张尽可能明确地说明这些风险。

CW 除此之外，我们需要准备好监控数据产品的使用方式，并减轻其危害。多年前的电子游戏制造商可能没有预料到，现在有些人会认为他们的产品对幼儿来说会上瘾。在这种情况下，减轻危害可能意味着设计变更，以防止或减少长时间玩耍或其他成瘾行为的迹象。即便如此，制作游戏的公司的每个人可能都不会同意这是一个问题。然而，一家致力于合乎道德的数据产品的公司会认真对待这个问题。

AS 与目标相关的一个主题是数据科学使其成为可能的激励结构。鉴于几乎可以衡量和优化任何事物，我们是否正在优化正确的事物？哪些激励措施应该内置到系统中，以最佳方式指导个人、组织和政府？

BF 公平性在其中处于什么位置？它至关重要且非常复杂。对于什么是公平，什么是不公平，甚至存在共识吗？这些观点不会随着时间的推移而改变吗？

AS 在我们的标准中，公平性从两个方面来解决。首先，这是一个面向实施的主题：需要构建数据收集和模型，并且确实需要进行测试，以确保它们运行良好，不仅在平均水平上，而且对于子群体也是如此。社会优先事项禁止基于子群体的受保护属性得出的结论。

JW 除了确保模型正常运行的典型软件工程挑战之外，我们还需要高度关注训练数据。这对于软件工程师来说是相当新的。

AS 我喜欢说，当系统从数据中学习时，“过去可能会禁锢未来”，从而使不受欢迎的行为永久化。

除了这些数据和实施挑战之外，第二个公平性挑战在于目标设定。关于什么是公平，存在复杂的伦理、政治和经济方面的考虑。

CW 最终，这归结为试图获得价值的目标，这是我们数据科学定义中的一个关键词，因为它既有客观意义，也有主观意义。也就是说，除了我们试图计算或优化的任何数学价值之外，还有我们或我们的社会可能重视的东西。在某种程度上，我认为这说明了我们现在正在制造对社会产生越来越大影响的数据科学应用程序。回到情境，你必须考虑什么是成功，这可能会很复杂。

正如阿尔弗雷德所观察到的，这涉及决定我们试图优化的目标或目标函数，同时承认我们正在忽略什么。要考虑某些数据科学应用程序的所有可能的极端情况和人为影响是非常困难的。

JW 在一个相关的主题中，在我们的下一个标准要素中，我们检查了数据科学应用程序是否天生具有容错性，因为系统满足的目标可能没有被完美定义，并且它们可能仅以一定的随机概率实现。例如，自动驾驶汽车的容错性不是特别好，而广告似乎更具容错性。但即使是数据科学的某些广告应用也可能无法容忍失败；例如，识别外国选举广告收入来源并遵守管理某些产品的法规非常重要。

BF 最后一个标准要素是什么？

CW 随着数据科学应用程序影响个人和社会，它们必须考虑到伦理以及越来越多的法规。这些都在伦理、法律和社会影响要素中涵盖
（如表 1 所示）。

表 1：分析标准要素的说明
面向实施的要素
-	易于处理的数据
-	技术方法
-	可靠性
-	-	隐私
-	-	安全
-	-	抗滥用性
-	-	弹性
面向需求的要素
-	可理解性
-	-	解释
-	-	因果关系
-	-	可重复性
-	明确的目标
-	对失败的容忍度
-	伦理、法律、社会考量
-	-	法律
-	-	社会
-	-	伦理
摘自《情境中的数据科学：基础、挑战、机遇》。⁶

AS 确实，管理许多数据科学用途的法律体系已经非常庞大。此外，还存在广泛的社会影响；例如，数据科学几乎肯定正在改变就业格局，并对社会治理产生影响。

MT 作为一名从业者，我认为拥有像标准这样的指导原则来思考是很棒的。然而，在实践中，有时很难预先预料到这些问题并进行风险评估，甚至猜测一些长期结果。例如，在你甚至不知道你的调查可能会走向何方之前，就思考某事的所有潜在伦理影响，这确实具有挑战性。

我的问题是：在多大程度上，我们作为从业者有责任提前详尽地分析和评估这些类型的问题？一旦我们弄清楚我们最终会走到哪里，很多这项工作最终都将由回顾性分析来指导，这难道不是不可避免的吗？

AS 您提出的挑战更加复杂的是，世界可能会因为发布而发生变化，这意味着数据科学应用程序的存在本身就会改变指导其开发的规则。例如，世界可能会变得依赖于某些应用程序，这将导致更高的可靠性要求。

CW 然后还有维护和监控数据产品的问题。在发布之前不可能知道所有可能的故障模式，但是随着世界变化和潜在危害变得明显，有很多机会可以维护和监控产品。

JW 我们希望从业者最终会在项目的许多阶段使用分析标准作为清单。有些事情应该很容易在构建模型之前考虑，但是然后在模型构建之后也需要进一步评估。对于数据科学，与更传统的软件相比，你更不可能提前预料到一切。

AS 这强调了产品经理的作用，他们的任务是广泛地看待一个项目。随着项目越来越不受技术主导，他们的作用变得越来越关键。事实上，如果你今天与许多产品经理交谈，你会听到他们说这样的话：“我们的工程师开始了这项工作，尤其是机器学习，他们做了很多工作，但没有停下来思考他们可能遇到的所有其他挑战。我真的希望他们早点谈论这个问题，因为它本可以为我们节省大量返工。” 话虽如此，正如克里斯暗示的那样，我们不认为一切都应该用瀑布方法来处理。需要大量的互动和适应。

BF 让我们花更多时间在你们的伦理工作上。

JW 虽然我们可以将关于伦理的讨论隐含在其他标准要素中，例如我们关于如何设定良好和公平目标的讨论中，但特别是克里斯和我，希望明确地关注伦理。我们决定以贝尔蒙原则⁵为基础开始，看看它们能把我们带到多远。我想说，到目前为止，它们实际上经受住了考验。

BF 什么是贝尔蒙原则，你们如何应用它们？

CW 贝尔蒙原则实际上是试图创建美国政府的伦理规范。为了回应纳税人资助的研究中严重的伦理违规行为，国会在 1970 年代创建了一个由哲学家、律师、政策制定者和研究人员组成的多样化委员会，以弄清楚什么才算是对人类受试者的伦理研究。经过多年的讨论，委员会宣布，它的重点将转向阐明一套原则，这些原则至少可以为试图对什么才算是合乎伦理的行为做出善意裁决的人们提供一个共同的词汇表。这些原则本身是

尊重他人，确保个人有根据自己的深思熟虑和判断自主行动的自由。

行善，研究人员应最大限度地提高益处，并使其与风险相平衡。

公正，考虑风险和益处如何分配，包括公平分配的概念。

这些原则最终于 1978 年由美国政府发布，此后已被用作某些联邦资助决策的要求。我们书中的一项探索是，这些原则对于思考研究人员和组织在数据科学研究和开发数据产品时必须做出的伦理决策仍然有用。

BF 是否有贝尔蒙原则在应用的当代例子？

AS 也许关于幼儿 Covid-19 疫苗接种的激烈讨论可以说明这种权衡。虽然目前认为为幼儿接种疫苗可能只对儿童有适度的益处，但我们希望减少感染儿童的数量可能会减少与儿童接触的长者中的 Covid-19。

这非常明确地显示了权衡：尊重他人可能会认为我们不应寻求为儿童接种疫苗，因为疫苗的益处尚不明确，而且儿童可能太小而无法提供知情同意。另一方面，鉴于有可能挽救许多祖父母的生命，行善原则可能会占上风。在一个完美的世界中，这将以良好的统计数据为依据。

在任何情况下，这都说明了决策者和家长们面临的各种挑战。我们都认为，在这种情况下，贝尔蒙原则的明确付出和收获最终会提供更好、更透明的决策。

BF 你是否有更多与数据科学相关的例子？

AS 在之前的讨论中，珍妮特指出，自动驾驶汽车本身并非具有容错性。围绕这一点出现了一些有趣的伦理问题——以及一些实际问题——因为自动驾驶汽车不太可能在所有情况下都达到 100% 的安全。随着这项技术越来越接近大规模应用，我们将面临什么是可接受的故障率的问题。也就是说，我们愿意接受多大的风险？目前，仅在美国，每年就有大约 40,000 人死于车祸，但如果要求完美，我们可能永远无法部署这项技术。

PN 当涉及到我们愿意接受什么和不愿意接受什么时，作为一个社会，我们是非常不一致的。虽然关于自动驾驶汽车的争论仍在继续，但我恰好认识一些正在研究自动驾驶飞行汽车的人。我发现令人困惑的是，作为一个社会，我们显然已经认定每年 40,000 人死于道路交通事故是可以接受的，而航空旅行死亡人数应该为零。因此，美国联邦航空管理局 (FAA) 施加的法律要求远比适用于道路交通的要求严格得多。我们需要思考，对于如何管理我们的社会，这是否真的是一个理性的选择，或者我们是否应该考虑做出一些不同的权衡。

BF 伦理领域本质上是定性的，而计算是一种高度定量的实践。我曾目睹过一些讨论，这些讨论贬低了定性标准，因为它们无法衡量，也没有客观的函数。鉴于此，您是否担心这些原则的普及？

CW 以我的经验，软件工程师喜欢谈论设计原则。事实上，阿尔弗雷德提到了瀑布模型，但设计方法本质上是定性的。工程师们已经在处理经常被讨论的原则——并且这些原则会经常更改。

BF 贝尔蒙原则是否足以解决任何伦理问题？

AS 虽然我们专注于贝尔蒙原则，但我们也承认，个人和组织的决策将考虑其他框架。我列举了三个：

首先，存在职业道德，例如职业道德准则。¹ 真诚、能力和正直必须是我们应用数据科学的前提。

其次，某些情况具有不同的伦理标准。乌克兰战争让我们清楚地看到了战争法，即所谓的战争法，及其影响。

第三，决策是在经济框架内做出的，其中经济系统的存在是为了将能量、竞争和利己心转化为个人和社会的利益。

CW 我们想提醒大家，仅仅有原则是不够的。每个应用数据科学的个人和组织都需要提出组织结构和方法，将这些原则纳入他们的流程中。

JW 学术界正在认真对待这个问题。我们看到了一个机会，可以通过告诉学生们“如果你想成为一名数据科学家，你将学习伦理学以及所有这些定量的东西”来表明我们的立场。学术数据科学联盟（Academic Data Science Alliance）几年前成立，它非常强调伦理学，我相信伦理学课程现在已成为该学科大多数学术课程不可或缺的一部分。我对此感到非常鼓舞，因为数据科学才刚刚在学术界兴起，我们现在正在将这些定性的伦理原则纳入其中，并认为它们是该领域不可或缺的一部分。

PN 这只是在一个终于成熟的领域中的一部分。当你所做的工作只是理论性或学术性的时候，你就可以继续发表你的论文，这真的无关紧要。但是，一旦该领域开始对世界产生真正的影响，你就会突然发现自己肩负着一些严肃的伦理责任。

BF 从另一个角度来看，对数据科学的理解是否应该为包括一些伦理学知识的文科教育提供信息？

CW 我教过一门关于数据历史和伦理的课程⁷，我可以告诉你，人文专业的学生对学习它表现出极大的兴趣。甚至我们的工程专业的学生也要求我们关注伦理方面。你可以想象有些人希望这个主题的教学就像它仅仅存在于纯粹思想的柏拉图领域一样。你也可以想象还有其他人希望我们更多地关注该主题的非常应用性甚至产品驱动的方面。我发现从历史的角度来教授这些内容很有用，可以为这些不同的兴趣提供一个结构。

PN 虽然提出这些问题并制定一般原则很重要，但拥有基于现实世界案例的判例法也很重要。也就是说，在我们的法律体系中，我们有法律，人们非常谨慎地尽可能清楚地编写这些法律，但他们无法预料到以后可能出现的所有可能性。我们用判例法来补充法律。

说隐私和人格权是重要的权利是一回事。但那又如何适用于监控摄像头的使用呢？你无法仅从一般原则来回答这个问题。你需要通过明确规定哪些类型的用途是被批准的，哪些是不被批准的，来使其更加精确。原则是一个很好的起点，但我们也需要示例提供的具体性。

BF 现在我有一个工程问题要问你：规模是数据科学固有的吗？

PN 是的。如果不是因为大数据，我们今天就不会把数据科学作为一个独立的领域来讨论。相反，它仍然是统计学的一部分。当统计学领域的人们专注于你需要 30 个还是 40 个样本才能达到统计显著性时，还有一些其他人说，“好吧，我们有十亿个样本，所以我们不会担心这个问题。相反，我们还有其他一些问题，我们将专注于这些问题。” 这些问题成为了新领域的焦点。

JW 然而，我们可以用一些人称之为“手工数据”或“珍贵数据”的小规模数据进行大量的数据科学。在这个领域，我们仍然面临着许多挑战，因为它通常涉及处理组合数据集，这意味着要处理与异构数据相关的所有问题。因此，无论我们处理的是大数据还是异构小数据，我们仍然有一些基本的科学和数学问题需要解决。

AS 所有这些数据的一个副作用是，我们所有人都会经常遇到有意义的和不太有意义的细节，这些细节很难放到上下文中理解。在我们可理解性准则要素中考虑，我们每天获得的大量数据和结论甚至连专家都难以理解。特别是，我们经常被呈现出相关性，但其含义并不像我们通常被引导相信的那样影响深远或具有决定性意义。捕捉、存储和定位数据的所有技术使得人们更容易断章取义地挑选数据，并将其用于推进错误的观点。

PN 此外，每当数据来源于人类与各种系统的互动时，就存在一个挑战，即如何确定其中有多少是值得信赖的。例如，如果你正在处理大量来自人们点击行为观察的数据，你可能会很想当然地认为他们点击的是他们真正感兴趣的东西。我们人类有我们的弱点和偏见——这意味着我们的行为并不总是反映我们自己的最佳利益。我们也会出现失误，比如人们在无意中点击了一些东西。为了更好地解读数据，理解这些局限性非常重要。

BF 考虑到这一切，关于数据科学如何让我们能够根据用户互动来得出答案和获得好处，我们应该有哪些担忧？特别是考虑到这些互动会随着时间的推移而变化，而模型的创建者却可能没有意识到？

PN 这无疑提出了一个巨大的挑战。我们需要认识到，我们正处于一个博弈论情境中，当你采取行动时，其他人也会做出回应，无论他们是垃圾邮件发送者还是生态系统中的合法参与者。这在某种程度上与大数据背道而驰，因为即使你有数百万次的点击，你也不会有任何关于你在得出结论并传播结论之后会发生什么情况的点击数据。

你不知道人们将如何改变他们的策略。你没有任何关于这方面的数据。在你能够衡量一切并确切了解正在发生的事情与未来可能最终以未知的方式破坏你的正常商业模式的事情之间存在着这种张力。还有一种可能性是，你将以你不理解的方式改变生态系统。

AS 这当然也适用于金融领域。如果你正在应用算法方法进行买卖，而你的活动正在对市场产生影响，你就无法确定你的购买或销售可能产生什么确切的影响。

BF 这就是为什么基于历史数据的分析存在缺陷。“过去的表现可能并不预示未来的结果，”正如所有经纪公司都很快提醒你的那样。

CW 如果我可以注入一个更广泛的规模方面，它也具有伦理价值。大规模运行的大型系统可能具有影响深远的全球性影响。

JW 从工程的角度来看，科学家们有他们自己的担忧。通常，他们正在处理来自南极洲冰立方中微子天文台或詹姆斯·韦伯太空望远镜等精密仪器的大量数据。而且，据我的科学家同事告诉我，他们需要新的技术来存储、保存和分析数据。

MT 那么数据科学的软件工程呢？

AS 即使在最好的情况下，构建高质量的软件也很困难。数据科学增加了一个新的挑战，因为我们现在正在使用从数据中学习的模块，它们可能在某些上下文中运行良好，而在另一些上下文中则不然。我们可能相信它们在平均情况下很可能运行良好，但我们不确切知道它们对于某些输入的效果如何，而且，同样，我们也不知道它们随着时间的推移会运行得如何。

JW 曾经参与过形式验证社区，让我更正式地重申一下阿尔弗雷德所说的话。为了证明一个程序正在做正确的事情，我们将使用一个非常强的定理——对于所有 xP(x)——来过度证明这一点。然后，一旦证明了这一点，我们就可以确定计算机将完全按照我们对任何有效输入的意图来执行。

但是对于机器学习模型来说，全称量词太强且不切实际。我们不会说对于所有 xP(x)，因为我们不希望机器学习模型适用于所有可能的数据分布。我们可以专注于证明对于某个类别中的所有数据分布，而不是证明对于所有 xP(x)，但那样我们就需要描述这个类别。

为了保证稳健性，我们可能会说对于所有范数有界的扰动来描述模型稳健的数据分布类别。但是像公平性这样的属性呢？这很快就变得非常难以形式化。一个实际的后果是，我们需要增加测试，认识到——就像在传统的软件工程中一样——我们永远无法测试现实生活中可能出现的所有情况。这说明了为什么可信赖性是一个重要的研究前沿。

CW 另一点与运维有关——将范围扩展到不仅仅是保持网站正常运行，还要确保数据科学应用程序继续良好地运行。我的意思是，输入可能会失败，可能会发生滥用，模型可能比想象的更脆弱。正如我之前提到的，我们需要继续监控模型，就像它是一个活生生的事物一样。这也意味着要认真思考如何监控对用户以及你的统计指标的影响。在如何维护已部署的数据科学模型的可观测性方面，这里存在一些真正的工程挑战需要思考，特别是考虑到它将定期进行再培训和刷新。

BF 今天我们讨论了很多内容。您还有什么最后的想法想留给人们吗？

AS 我们希望分析准则能够展示一条为数据科学提供有用结构的道路。

JW 我们四个人都坚信利用数据造福于大学、企业或整个社会。但是，无可避免的是，有很多主题需要考虑。这个广度无疑使数据科学教育变得复杂。

CW 我想强调的是，我们经常在解决非常棘手的问题——这些问题有时是棘手的问题——我们需要适当考虑许多基本原则。然后我们需要根据这些原则采取行动，并尽最大努力平衡有时会相互冲突的目标。

PN 正如我之前所说，我们的领域正在成熟。我们正在对世界产生真正的影响，我们发现我们必须沿着许多维度进行深入思考，才能实现尽可能好的目标。

参考文献

1.? 职业道德与行为准则； https://www.acm.org/code-of-ethics。

2. Churchman, C. W. 1967. 棘手的问题。管理科学 14(4), B141?B142; https://www.jstor.org/stable/2628678。

3. Gawande, A. 2010. 清单革命。 Penguin Books India。

4. Halevy, A., Norvig, P., Pereira, F. 2009. 数据的不可思议的有效性。IEEE 智能系统 24(2), 8?12; https://ieeexplore.ieee.org/document/4804817。

5. 人类生物医学和行为研究对象保护国家委员会。 1978. 贝尔蒙报告：人类研究对象保护的伦理原则和指南； https://www.hhs.gov/ohrp/regulations-and-policy/belmont-report/index.html。

6. Spector, A. Z., Norvig, P., Wiggins, C., Wing, J. M. 2022. 背景中的数据科学：基础、挑战、机遇。英国剑桥：剑桥大学出版社。

7.?Wiggins, C., Jones, M. L. 2023. 数据如何发生：从理性时代到算法时代的历史。美国纽约州纽约市：W.W. Norton and Co.

Peter Norvig 是斯坦福大学以人为中心的 AI 研究所的研究员，也是谷歌公司的研究员。此前，他曾担任谷歌核心搜索算法组和研究组的负责人。他是 人工智能：一种现代方法（该领域的领先教科书）的合著者，也是人工智能课程的合教老师，该课程注册了 16 万名学生，帮助启动了当前的大规模开放在线课程 (MOOC) 浪潮。他是 AAAI、、加州科学院和美国艺术与科学院的院士。

Alfred Spector 博士 是麻省理工学院的访问学者。他的职业生涯始于大型网络计算系统的创新（在斯坦福大学、卡内基梅隆大学担任教授，并创立了 Transarc），然后转变为研究领导职位（担任 IBM 软件研究的全球副总裁、谷歌研究副总裁，然后担任 Two Sigma Investments 的首席技术官）。Spector 博士就计算机科学在所有学科（CS+X）中日益增长的重要性进行了广泛的演讲，他刚刚完成了《背景中的数据科学：基础、挑战和机遇》。他是、IEEE、美国国家工程院和美国艺术与科学院的院士，并在美国艺术与科学院理事会任职。Spector 博士曾是赫兹学者，荣获 2001 年 IEEE Kanai 分布式计算奖，并共同荣获 2016 年软件系统奖，并且是 Phi Beta Kappa 访问学者。他获得了斯坦福大学的博士学位和哈佛大学的文学士学位。

Chris Wiggins 是哥伦比亚大学应用数学副教授，也是《纽约时报》的首席数据科学家。在哥伦比亚大学，他是数据科学研究所和系统生物学系执行委员会的创始成员，并且是统计学系的附属教员。他是非营利组织 hackNY (http://hackNY.org) 的联合创始人兼联合组织者，该组织自 2010 年以来，每学期组织一次学生黑客马拉松；以及 hackNY 院士计划，这是一个在纽约市初创公司进行的结构化暑期实习计划。在加入哥伦比亚大学教职员工之前，他曾担任纽约大学库朗研究所的讲师（1998-2001 年），并于 1993-1998 年在普林斯顿大学获得理论物理学博士学位。他是美国物理学会的院士，也是哥伦比亚大学 Avanessians 多元化奖的获得者。

Jeannette M. Wing 是哥伦比亚大学研究执行副总裁和计算机科学教授。她目前的研究兴趣是可信赖的人工智能。Wing 来自微软，她在微软担任公司副总裁，负责监督全球的研究实验室。在加入微软之前，她曾在卡内基梅隆大学任教，担任计算机科学系系主任和计算机科学学院学术事务副院长。她是美国艺术与科学院、美国科学促进会、和 IEEE 的院士。她拥有麻省理工学院的学士、硕士和博士学位。

最初发表于 Queue vol. 21, no. 1—
在数字图书馆中评论本文

更多相关文章

James Agnew, Pat Helland, Adam Cole - FHIR：减少医疗保健数据交换中的摩擦
鉴于医疗保险和医疗补助服务中心目前正全力以赴地要求医疗保健提供商达到患者数据互操作性和可访问性的高标准，人们很容易认为，长期以来未能实现这一目标的唯一原因仅仅是缺乏意愿。可互操作的数据？这有多难？事实证明，比你想象的要难得多。为了深入了解为什么会这样，我们请 Salesforce 的首席架构师 Pat Helland 与 Smile CDR 的 James Agnew（首席技术官）和 Adam Cole（高级解决方案架构师）进行了交谈。Smile CDR 是一家总部位于安大略省多伦多的供应商，提供领先的平台，供医疗保健组织用来实现 FHIR（快速医疗保健互操作性资源）合规性。