在过去十年中,关于采取更好措施保护敏感的、可识别个人身份信息的呼声日益高涨,以至于政客们喜欢称之为“热点问题”。诚然,侵犯隐私的行为已变得十分猖獗,人们也越来越敏锐地意识到自己是多么的脆弱。然而,在潜在的补救措施方面,各种提议差异很大,导致了激烈且带有政治色彩的争论。迄今为止,最终结果主要是官僚主义的政策,几乎没有人满意——并且激怒了许多人。
现在,差分隐私走进了这幅混乱的局面。它于 2006 年首次被正式提出,是一种基于严格的数学隐私定义的方法,允许形式化和证明系统提供的针对重新识别的保证。虽然差分隐私在理论家眼中已被接受一段时间,但事实证明,它的实施是微妙而棘手的,实际应用直到现在才开始变得可行。迄今为止,美国人口普查局以及许多科技公司已经采用了差分隐私,但这对于许多人来说,这意味着什么以及这些组织如何实施他们的系统仍然是一个谜。
差分隐私的出现也不太可能标志着所有艰难的决策和权衡的结束,但它确实表明,现在存在可以量化和推理的隐私度量标准——然后可以用来应用适当的隐私保护措施。
为了使这种能力普遍可用,一个里程碑式的事件发生在 2019 年 9 月,当时谷歌发布了差分隐私库的开源版本,该公司已将其用于其许多核心产品。
在接下来的交流中,谷歌公司两位为开源发布该库做出核心贡献的人员——隐私软件工程师达米安·德斯方丹和领导谷歌差分隐私产品开发工作的米格尔·格瓦拉——反思了未来面临的工程挑战,以及为实现其提供默认隐私保护的最终目标仍需完成的工作。加入本次讨论的还有哈佛大学首席技术官吉姆·瓦尔多(他最近共同主持了美国国家科学院关于隐私的研究)和 Marine Learning Systems 的首席技术官特里·科塔。
吉姆·瓦尔多 我很想听听你们如何描述差分隐私,因为到目前为止我听到的大多数描述要么过于宽松以至于毫无意义,要么过于正式以至于难以理解。
米格尔·格瓦拉 我是在其他隐私技术的背景下考虑它的,其中许多技术是策略和启发式驱动的。这可能会让你感觉良好,但很难对许多这些技术进行推理,而差分隐私为你提供了一种有形的方式来推理底层数据的隐私发生了什么,并量化在那里损失了多少隐私。
拥有这种能力对数据管理者来说是强大的。它也让我们能够想象一个世界,在这个世界里,用户拥有对自身数据的同等程度的控制,并且通过对其应用程序进行一些调整,将有能力决定他们可以拥有多少隐私。因此,差分隐私背后的基本思想是让个人能够以理性且知情的方式做出这些类型的决定。
吉姆·瓦尔多 这是一个描述差分隐私目标的很好的方式。但现在我要请你们更具体一点,谈谈你们打算如何实现这些目标。
达米安·德斯方丹 差分隐私最显著的特点是,当您生成统计数据时——即关于一组人的某些聚合信息——您会有意地在计算结果中添加噪声。这就是您获得差分隐私保证的方式:通过确保查看计算结果的人无法获得有关其数据已包含在数据集中的个人的信息。
我所说的噪声仅仅与从分布中采样随机数量的数据点有关。理想情况下,该随机数可以保持非常小——例如,对于计数,介于 -10 到 10 之间。对于更大规模的统计数据,您添加的噪声不应严重影响您的数据质量。然后,正如米格尔所指出的,差分隐私还允许您量化数据集的隐私性和精确性之间的权衡。您添加到数据中的噪声量就是允许您量化数据集的隐私程度的因素。也就是说,您添加的噪声越多,您的统计数据就越不精确。与此同时,您的隐私保证也会变得更加强大。
吉姆·瓦尔多 因此,核心思想是,当您查询数据时,答案会添加一些噪声,这使您可以控制隐私,因为添加到数据中的噪声越多,数据就越私密——权衡是,随着噪声的增加,精度会下降。
达米安·德斯方丹 是的,没错。
吉姆·瓦尔多 谷歌内部现在是如何使用它的?
米格尔·格瓦拉 它主要被许多内部工具使用。从一开始,我们就将其视为构建工具的一种方式,这些工具可以用来解决一些核心内部用例。其中第一个项目是我们帮助一些同事,他们希望对数据进行一些快速实验。我们发现,在很多时候,加快访问系统底层数据的一个好方法是添加由差分隐私驱动的隐私层。这促使我们构建了一个系统,让人们可以查询底层数据并获得差分隐私结果。
在我们开始看到很多成功之后,我们决定扩展该系统——以至于我们现在正在构建能够处理谷歌规模的数据量的系统,同时也在寻找为最终用户以及内部用户提供服务的方法。例如,差分隐私使谷歌能够生成 COVID-19 社区出行报告 [供公共卫生官员使用,以从医疗保健数据中获得聚合的、匿名化的见解,然后可以将其用于按地理位置以及按场所(如杂货店、交通站点和工作场所)绘制疾病传播趋势随时间变化的图表]。谷歌地图中还有一个商业功能,可以向您显示任何给定时间地点有多繁忙。差分隐私也使这成为可能。基本上,差分隐私被谷歌的基础设施系统用来支持内部分析和一些最终用户功能。
吉姆·瓦尔多 据我所知,还有第三个变量。一个是事物的准确程度,一个是您添加多少噪声——然后是您允许的查询数量。你们是否将这三个因素都考虑在内?
米格尔·格瓦拉 这实际上取决于系统。理论上,您可以有无限数量的查询。但差分隐私有一个关键方面,称为隐私预算——每次使用查询时,您都会使用预算的一部分。因此,假设每次您发出查询时,您都会使用剩余预算的一半。随着您继续发出更多查询,您在查询中引入的噪声量只会增加。
对于我们早期的系统之一,我们通过做一些您暗示的事情来克服了这个问题,那就是限制用户可以进行的查询数量。这样做是为了我们不会过快地耗尽预算,并且仍然拥有我们需要的,以便为我们的用户提供有意义的结果。
达米安·德斯方丹 文献中还提出了一个问题,即有人使用引擎在数据集上运行任意查询——通常是在该人无权访问原始数据时。在这种用例中,预算跟踪变得非常重要。因此,我们开发了考虑到这一点的系统,使用了诸如抽样、审计和限制可以运行的查询数量等技术。另一方面,对于许多常见的应用程序,您知道您想在数据上运行哪种查询:例如,对于谷歌地图上显示的繁忙程度图表,每天可能会使用少量预定的查询来生成所需的数据,因此您不必为未来尚未知的查询提供更高的隐私预算。相反,您会预先知道将要发出的查询,因此您也会知道需要添加多少噪声。
特里·科塔 这似乎有一个必然的推论:如果您有一个数据集,您打算对其执行即席查询,但事先不知道这些查询的性质,那么在某种意义上,差分隐私会限制该数据集的效用。也就是说,在您有效地耗尽了对该数据集进行更多查询的能力之前,只能提供这么多即席查询。
米格尔·格瓦拉 好的,但我想我会从用例的角度来框定这一点。我们发现,当您查看您建议的用例类型时,人们往往只对查看广泛的统计趋势感兴趣。假设某公司刚刚在 X 国推出了其产品,现在想看看有多少用户正在使用操作系统 1 而不是操作系统 2。在这个层面上,从统计学的角度来看,差分隐私提供了非常好的结果。
但还有另一种用例,我相信达米安正在谈论的就是这种用例。假设对于这个相同的示例,您发现您的分析的关键变量恰好是国家、年龄和收入。您可以相应地设置查询,然后每天或每隔几天运行一次,而不会消耗任何额外的隐私预算,仅仅因为您将每隔几天仅使用一次这些数据点。
吉姆·瓦尔多 你们提供的许多示例似乎都很粗略,因为在比较的一侧或另一侧的数据集中都有相当多的实体——这意味着添加少量噪声实际上不应该引起问题。但我想知道关于异常值的查询。例如,如果我想找到某个特定国家/地区仍在运行 Windows XP 或许还在使用 OS/2 的人数,那么这些数字中的一点偏差可能会导致结果的真正差异。您认为什么时候适合——或不适合——使用差分隐私查询?
米格尔·格瓦拉 总的来说,我认为差分隐私非常适合描述广泛的统计趋势,例如每天有成千上万的人做 X 事情。谷歌一直在制作以跟踪 COVID-19 感染趋势的社区出行报告就是一个很好的例子。还有其他用例,您可以在其中查看一些非常特定的滥用或垃圾邮件趋势,这些趋势表明了特定的攻击向量。如果您最终对这些进行一些非常精细的查询,您会发现——虽然理论上可以使用差分隐私来完成此操作——但噪声的相对影响将非常巨大,以至于您获得的结果几乎毫无用处。
作为一般规则,我想说,虽然差分隐私擅长进行广泛的人口分析,但它不太擅长弄清楚一两个人是如何行为的,因为根据定义,这正是差分隐私旨在防止的事情。
特里·科塔 我们已经几次提到了可能“损失”的隐私量,而外行人对隐私的概念更像是布尔值——也就是说,要么是私密的,要么不是。因此,在这里将其作为定量衡量标准来讨论很有趣。这实际上意味着什么?
达米安·德斯方丹 从一开始,将隐私概念视为布尔值就是具有误导性的。即使在差分隐私之外,您也总是需要问自己诸如以下问题:我们如何才能在尽可能少地收集数据的情况下使此功能正常工作?我们应该对我们存储的数据应用什么级别的保护?我们如何以一种可理解的、尊重的方式请求用户同意?等等。
这些问题都不是布尔值。即使在对抗性环境中,答案似乎是布尔值,但它也不是。例如:攻击者是否能够拦截和重新识别数据?答案要么是是,要么是否。
但是您仍然需要考虑其他问题,例如:攻击者有什么能力?我们试图防御什么?最坏的情况是什么?这就是说,即使没有差分隐私的正式概念,一般而言,隐私的概念也远非布尔值。总是存在灰色地带。
差分隐私为实现数据匿名化所做的是以正式的数学方式量化权衡。这使得有可能超越这些灰色地带评估,应用强大的攻击模型,在该模型中,您有一个配备任意背景知识和计算资源的攻击者——这代表了最坏的情况——但您仍然能够获得强大、可量化的保证。这就是差分隐私的本质,就量化和衡量数据匿名化的隐私与效用之间的关系而言,到目前为止,这是我们拥有的最好的东西。
差分隐私可能很强大,但它也非常抽象。让用户和开发人员都对其保护个人身份信息的能力建立信心已被证明是具有挑战性的。
为了持续努力,人们正在尝试各种方法来帮助人们将差分隐私的数学原理与实际隐私保护目标的实现联系起来。这方面的进展尚未达到谷歌的规模。
然而,谷歌在建立公众对其自身以及其他大型用户数据聚合商完全有能力可靠地匿名化他们使用的数据这一概念的信心方面,有着明确的、既得的利益。然而,如何以令人信服的方式向普通公众传达这一点仍然是一个尚未解决的问题。
吉姆·瓦尔多 当涉及到担心隐私的用户时,我怀疑您是否能够通过告诉他们您已将 epsilon 设置为某个特定值来在很大程度上缓解这些担忧。您如何将此意义转化为用户可以理解的东西?
米格尔·格瓦拉 老实说,我认为我们在向用户传达这一点方面做得不好。我们更专注于提高意识。但是您提出的这个问题很重要,因为目前世界上对匿名化存在太多误解。许多人认为,为了匿名化数据,您只需从数据集中删除整个标识符即可。因此,我们的第一步是确保每个人都意识到这不符合适当或强大的匿名化标准。
然后,一旦我们达到用户以个人隐私为心态的阶段,我们隐私研究社区的人员最大的优先事项之一就需要成为您所说的内容:我们如何帮助人们看到我们在数学上所做的事情与他们在保护自身个人隐私方面所期望的内容之间的联系?
我们已经做了一些用户研究,这使我们能够真正与用户交谈,我了解到的是,每当我们能够向人们展示他们的个人数据如何隐藏在人群背后并受到随机信息的保护时,他们肯定会转而表达更多的信心。显然,然而,在学习如何以更贴近最终用户的方式谈论这些数学技术及其赋予的保证方面,我们仍然面临着巨大的挑战。
达米安·德斯方丹 另一方面是,更好地理解用户的隐私担忧是为政策提供信息的一部分。他们的一些问题完全与差分隐私的使用无关。例如:我的家人、朋友和同事中,谁可以看到我刚刚在网上分享的内容?我的数据将保留多长时间?
到时候,我们需要能够提供差分隐私作为对另一个更具体问题的答案:当谷歌公开分享聚合数据时,我的数据是如何受到保护的?
吉姆·瓦尔多 也许您应该描述一下您为谷歌开发的产品,以使普通程序员更容易使用差分隐私。
米格尔·格瓦拉 首先要指出的关键一点是,我们开发了一个生成差分隐私结果的 SQL 引擎。这背后的核心思想是,由于许多分析师已经熟悉 SQL,因此最好只是用几个差分隐私操作来增强该语法。本质上,这意味着有人可以执行匿名计数并从中生成差分隐私计数,类似地,执行匿名求和并生成差分隐私求和。
我们构建的其他一些部分更多地是面向处理大量数据的数据操作框架。您可以将它们视为 Apache Beam 类型的框架,这些框架使我们能够将常规操作——主要是计数和求和——转换为差分隐私操作,然后团队可以使用这些操作以更好地保护隐私的方式生成他们的数据。[Apache Beam 是一个开源的、统一的模型,用于定义批处理和流式数据并行处理管道。]
吉姆·瓦尔多 这在谷歌内部的使用有多广泛?在什么情况下使用?
达米安·德斯方丹 可能最明显的面向用户的示例是谷歌地图中的一些功能,这些功能由差分隐私驱动。然后还有前面提到的 COVID-19 社区出行报告。我们在内部也使用差分隐私来帮助分析师以安全、匿名的方式访问数据,并为内部仪表板提供支持,使开发人员可以监控其产品的使用情况。基本上,在高层面上,任何时候团队想要对敏感数据做一些事情,而这些事情需要以匿名方式处理数据——例如,为了更长时间地保留数据,从而可以放宽原本可能要求加密或严格访问控制的数据保护要求——我们都会鼓励他们使用差分隐私。
特里·科塔 但我很容易想象用户在使用差分隐私时会搬起石头砸自己的脚。例如,我可能会针对数据库发出一些查询,获得一些结果,并认为我实际上知道这些结果意味着什么。我可能没有意识到的是,这些结果中存在太多的噪声,以至于它们实际上没有任何意义。谷歌的差分隐私库做了什么来帮助人们避免这种陷阱?
米格尔·格瓦拉 结果包含的噪声比您意识到的要多,这可能会成为可用性方面的一个真正问题。事实上,我们的内部用户不断询问我们的一件事是:我们应该在何处停止信任数据?
假设您发出一个查询,然后得到一个表,例如,该表为您提供不同的计数。在某些时候,这些计数中的噪声将超过真实数据。我们尝试解决这个问题的一种方法是在结果中提供置信区间,假设是,如果置信区间相对于值非常小,那么噪声就非常小——这意味着用户可以信任该结果。如果置信区间非常宽,那么用户可以推断出存在大量噪声。然后,是的,他们可以在那时停止信任数据。
达米安·德斯方丹 在 COVID-19 社区出行报告的具体用例中,其中包含研究人员和政策制定者用来就社会疏离等事项做出艰难决定的数据,我们不希望他们仅仅因为不真正理解噪声添加过程而从数据中得出错误的结论。我们做了一些事情来帮助避免这种情况。一是我们决定只发布置信区间看起来足够窄的数据。也就是说,如果添加的噪声有超过 10% 的可能性导致数字偏差超过 10%,我们就不会发布该数据。相反,我们会说,“我们拥有的数据不够准确,因此此指标没有可用数据。”
我们做的第二件事是尽可能精确地记录整个过程,并将其记录在一份已在线发布的白皮书中 [具有有界用户贡献的差分隐私 SQL;https://arxiv.org/abs/1909.01917]。参考这一点,任何对数据进行复杂统计分析的人都应该拥有他们需要的东西,以解释由噪声贡献的不确定性。
吉姆·瓦尔多 当然,任何机器学习算法也都有一定的置信区间。您从数据的差分隐私查询中获得的置信区间与机器学习人员随后设法使用该数据做的事情之间有什么关系?或者你们还没有将两者联系起来?
达米安·德斯方丹 有多种方法可以将差分隐私和机器学习结合起来,我们有很多研究人员正在研究这件事——特别是,通过提高机器学习模型的准确性,同时通过使用差分隐私使它们安全。我们还发布了一个开源库 [TensorFlow Privacy],该库将其中一些技术纳入了机器学习模型的训练中。
我们现在正在进行实验,以更好地理解在敏感数据集上训练的机器学习模型如何可能无意中记住来自原始训练数据的信息,同时也在努力了解如何使用差分隐私来量化这一点。一个挑战是,我们通过这些方法获得的 epsilon 参数通常相当高,有时甚至到了难以解释相关保证的程度。然而,从经验上来看,即使是这些难以解释的保证,在缓解攻击方面通常也证明是成功的。让我们说这正在被证明是一个引人入胜且富有成果的研究领域。
特里·科塔 在尝试将差分隐私与其他隐私保护技术相结合时,您是否遇到过任何复杂情况?我问这个问题,是因为差分隐私显然不会解决我们所有的问题。
米格尔·格瓦拉 我认为我们目前在推进保护方面所做的努力还处于早期阶段,还不知道所有可能的组合方式,但有一些令人鼓舞的迹象。我听说有人正在尝试将差分隐私与联邦学习结合使用,以以可证明的私密方式训练模型。我还听说差分隐私正在与同态加密一起使用,以便在两方之间共享数据,这样双方都可以生成不泄露任何个人模式或任何群体模式的结果。
吉姆·瓦尔多 关于差分隐私,我观察到的一个有趣的事情是,从理论基础到第一个实际应用之间大约有 10 年的滞后,而这些实际应用直到现在才变得可用。是什么使实施如此困难?
达米安·德斯方丹 我们对我们遇到的一些困难感到非常惊讶。从根本上说,我认为数学并没有那么难。基本结果和技术相对简单,并且真正理解它们背后的理论并不需要花费太多时间和精力。但事实证明,将所有这些理论转化为实践已被证明是困难的,并且比我们预期的需要更多的时间和思考。
造成这种情况的原因有几个。一是文献对您希望匿名化的数据类型做出了一些假设,我们在实践中发现,这在很大程度上是错误的。一个例子是假设数据集的每个记录对应于单个用户。这归因于许多文献中提出的主要用例与医疗数据有关——每个患者一个记录。但是,当然,当您处理用户活动日志、地点访问或搜索查询等数据集时,每个用户最终会在数据集中贡献的不仅仅是一个记录。因此,在为我们的目的构建更好的工具时,需要进行一些创新和优化来解决这个问题。
导致意外困难的另一件事是,即使数学相对简单,但以保留保证的方式实施它也很棘手。这有点像密码学中的 RSA(Rivest-Shamir-Adleman)——理解起来很简单,但幼稚的实现会遇到诸如定时攻击之类的严重问题。在差分隐私理论中,您将来自连续分布的随机数添加到具有任意精度的统计数据中。要使用计算机执行此操作,您需要使用浮点数,而这些浮点数的表示方式带来了许多微妙的问题。例如,如果不小心,噪声数中精度最低的位可能会泄露有关原始数的信息。
在许多方面,谷歌差分隐私库的开源版本的发布创造了一系列全新的挑战。现在有一个教育计划要推出;用户和开发人员要支持;要构建新工具;要管理、审查和测试外部贡献,实际上,要制定一个全新的审查流程,以及要解决的更广泛的任务,即组织一个外部开发人员社区。
但这只是在有远大抱负时才会出现的情况。谷歌差分隐私团队的目标确实非常雄心勃勃。
特里·科塔 很高兴你们发布了这个开源库,该库为实现差分隐私核心的许多真正微妙的数学计算提供了支持。但是你们是否也有大量的单元测试来确保这不会失控?
达米安·德斯方丹 我们与库一起开源的另一件事是一个测试框架,专门用于验证差分隐私保证。但是单元测试对于这种类型的库有点困难。根据设计,差分隐私会随机化其输出,因此您不能简单地检查以确保返回的值是您期望的值。另一方面,测试框架为您提供了一种通过生成大量输出并应用统计测试来经验性地验证差分隐私形式属性的方法。我们在我之前提到的白皮书中发布了我们的一种方法的描述。
无论如何,是的,我们同意:测试非常重要,并且必须使用特殊的统计技术来补充单元测试和手动审计。
吉姆·瓦尔多 在浏览您的开源页面时,我看到支持几种语言——其中一种似乎比其他语言更好。您是否计划将其扩展到其他语言?或者您是否会更专注于添加新算法?您认为您能够做到两者兼顾吗?
米格尔·格瓦拉 支持的语言是我们在谷歌生产中使用的语言:Go、C 和 Java。随着时间的推移,我们希望为这三种语言中的每一种提供相同的功能集。您可能很快会看到一个实验文件夹,其中将包含一些新内容,例如我之前提到的那些更高级别的数据处理框架。还将有一些开源内容来帮助计算一组查询的隐私预算。我们肯定会扩展我们的开源库,人们在那里找到的东西大多与我们在内部使用的东西相同,这意味着我们对它们非常有信心。
特里·科塔 如果谷歌以外的人在使用该技术时遇到困难怎么办?毕竟,他们不可能走到走廊尽头与编写他们遇到问题的人交谈。
米格尔·格瓦拉 我们会尽力在存储库上回答人们的问题。任何人都可以查看那里发布的评论和提交的问题。实际上,我们的目标是尽可能提供支持。
吉姆·瓦尔多 从目前的情况来看,对于谷歌以外的人来说,这似乎主要是一个只读的开源存储库。您是否有任何计划扩展实施团队以包括来自外部的人员?
达米安·德斯方丹 随着时间的推移,我们希望向外部贡献开放它。起初,我们的 C++ 库似乎并没有引起外部贡献者的太多兴趣。原因之一是从事差分隐私工作的人数不多,而且 C++ 在开源社区中并不广泛使用。尽管如此,最近,我们见证了对差分隐私的普遍兴趣以及对我们工作的特殊兴趣的真正增长。例如,OpenMined 的人们为我们的工作编写了一个 Python 包装器,并且正在基于我们的库开发 Java 工具。我们希望随着我们开始发布更多关于 Java 和 Go 的内容——特别是围绕 Privacy on Beam 等端到端工具的内容——吸引更多的人。
吉姆·瓦尔多 当您开始接受外部贡献时,应该会形成一个有趣的审查过程,因为这相当微妙。
达米安·德斯方丹 完全正确。在接受任何贡献到存储库之前,我们在测试、数学证明、确保代码质量以及其余方面需要做的事情还有很多有待确定。
米格尔·格瓦拉 我们需要确保差分隐私机制实际上正在执行它们应该执行的操作——这意味着需要某种审查过程。我们只是不确定该过程应该是什么样子。
特里·科塔 您预计差分隐私最终会得到多广泛的部署?
米格尔·格瓦拉 它可能会达到加密技术目前所达到的普及程度。就像现在很多人默认使用加密技术一样,我希望看到一个世界,在这个世界里,人们在分析数据集之前默认使用差分隐私。这应该只是一种标准的最佳实践。那是因为隐私保护措施随后将变得司空见惯。
差分隐私还有另一个我们尚未谈论的方面,那就是以差分隐私的方式收集数据的能力。因此,再次回到加密技术类比,我希望看到一个世界,在这个世界里,默认情况下,数据应用程序仅以差分隐私的方式收集数据——也许只允许特定用例的例外情况。
达米安·德斯方丹 我同意米格尔的观点。今天实现差分隐私的最大障碍不是数学或缺乏理论研究。相反,我们需要更多的实现和一些专门的努力来使差分隐私更易于使用。一旦我们做到了这一点,人们就可以在发布数据分析或统计研究结果时随时添加差分隐私。那么,也许差分隐私将成为一种标准的最佳实践,而不仅仅是一种好奇心。
如果围绕本地差分隐私的类似努力也证明是成功的,那么这也可能成为数据收集的最佳实践——至少,这是我们的长期目标。 阻碍我们实现该目标的唯一因素是更多的实施、可用性和推广工作——而不是更多的研究突破。
TC 就这种方式成为数据分析的默认方式而言,一个差分隐私数据服务要多久才能变成我可以在 Google 引擎或 AWS(亚马逊网络服务)上直接注册使用的东西?
MG 很多基础部分已经在 Google 网站上存在了,所以我认为应该不会花太长时间。 我乐观的估计是一年。 悲观的估计可能更像是三年。 但我真诚地希望在我们能够以更直观的方式为最终用户提供默认的差分隐私服务之前,不会花费那么长的时间。
版权 © 2020 归所有者/作者所有。 出版权已许可给 。
最初发表于 Queue 杂志第 18 卷,第 5 期——
在 数字图书馆 中评论这篇文章
Queenie Luo, Michael J. Puett, Michael D. Smith - 大象的“透视”之镜
许多人转向基于互联网的软件平台,例如 Google、YouTube、Wikipedia 以及最近的 ChatGPT,以寻找他们问题的答案。 大多数人倾向于信任 Google 搜索,因为它声明其使命是从“多个角度传递信息,以便您可以形成自己对世界的理解”。 然而,我们的工作发现,涉及复杂主题的查询产生的结果集中于狭隘的文化主导观点,并且这些观点与搜索短语中使用的语言相关。 我们将这种现象称为语言偏见,本文展示了如何通过两个复杂主题的例子来发生:佛教和自由主义。
Yifei Wang - 从开放访问到受保护的信任
过去十年见证了数据保护法规的出现和加强。 对于软件工程师来说,这个新时代提出了一个独特的挑战:当完整的数据访问(您最有效的工具之一)逐渐被移除时,您如何保持平台的精确性和有效性? 任务很明确:重塑工具包。 我们感知、处理和试验数据的方式需要彻底改革,才能在这个勇敢的新世界中航行。
Nigel Smart, Joshua W. Baron, Sanjay Saravanan, Jordan Brandt, Atefeh Mashatan - 多方计算:为了保护隐私,进行数学运算
多方计算基于复杂的数学,在过去的十年中,MPC 已被用作保护敏感数据的最强大工具之一。 MPC 现在是协议的基础,这些协议允许一组参与方在私有输入池上进行交互和计算,而不会泄露这些输入中包含的任何数据。 最后,只显示结果。 这其中的意义往往是深远的。
David Evans, Richard McDonald, Terry Coatta - 访问控制和医疗保健记录:谁拥有数据?
如果医疗保健记录以更以患者为中心的方式处理,使用允许数据容易地被一个人可能选择共享或偶尔访问的所有医生、诊所、医院和药房共享的系统和网络,会怎么样? 而且,更激进的是,如果拥有数据的是患者,又会怎么样?