由于收集、存储和处理大量数据的成本日益降低,机器学习和数据科学已成为科学、公共政策以及产品和服务设计的关键工具。但是,如果数据管理不当,中心化收集可能会使个人面临隐私风险,并使组织面临法律风险。从 2016 年的早期工作13,15 开始,一个不断扩大的研究人员社区一直在探索如何在学习和分析系统中将数据所有权和出处作为首要概念,这些领域现在被称为 FL(联邦学习)和 FA(联邦分析)。
随着这个不断扩大的社区,人们的兴趣已经从最初的移动设备联邦扩展到包括跨组织孤岛、IoT(物联网)设备等的 FL。鉴于此,Kairouz 等人10 提出了一个更广泛的定义
联邦学习 是一种机器学习设置,其中多个实体(客户端)在中央服务器或服务提供商的协调下协作解决机器学习问题。每个客户端的原始数据都存储在本地,不进行交换或传输;相反,使用旨在立即聚合的重点更新来实现学习目标。
最近被称为联邦分析17 的一种在理念和实施上非常相似的方法可以被采用,以允许数据科学家从去中心化数据集中的组合信息中生成分析见解。虽然这里的重点是 FL,但关于技术和隐私的大部分讨论同样适用于 FA 用例。
本文简要介绍了联邦学习和分析中的关键概念,重点介绍了如何在现实世界的系统中组合隐私技术,以及它们的使用如何为新领域中来自聚合统计数据的社会效益以及个人和数据保管组织的最小风险规划了一条道路。
为了深入讨论 FL,让我们首先澄清相关的隐私概念。隐私本质上是一个多方面的概念,即使仅限于技术公司提供的产品和服务领域,而这也是本文的重点。在此背景下,强调了隐私的三个关键组成部分:透明度和同意;数据最小化;以及发布聚合的匿名化。
透明度和同意是隐私的基础:它们是产品/服务的用户理解和批准其数据将被使用的方式。隐私技术不能取代透明度和同意,但基于强大的隐私技术的数据管理方法使所有相关方更容易推理哪些类型的数据使用可能是可行的(以及哪些类型的数据使用在设计上被排除),从而实现更清晰的隐私声明,这些声明更易于理解、验证和执行。
当考虑可以通过对隐私敏感的用户数据进行计算来推进的具体目标时,隐私技术的作用变得更加清晰;例如,根据用户对虚拟键盘的输入来改进移动键盘的建议。如何以尽可能最小的侵入性方式改进键盘?
计算目标主要是 ML(机器学习)模型的训练(联邦学习)以及用户数据(联邦分析)的指标或其他聚合统计数据的计算。正如我们将看到的,分析和机器学习都可以通过对(可能经过预处理的)用户数据进行适当选择的聚合来实现。在这种情况下,适用两个广泛的隐私原则的专门化
数据最小化原则,应用于聚合,包括以下目标:仅收集特定计算所需的数据(重点收集),限制在所有阶段对数据的访问,尽可能早地处理个人数据(早期聚合),并尽快丢弃收集和处理的数据(最小保留)。也就是说,数据最小化意味着将对所有数据的访问限制在尽可能少的人员范围内,这通常通过安全机制来实现,例如静态和传输中的加密、访问控制列表,以及更新兴的技术,例如安全多方计算和可信执行环境,将在后面讨论。
数据匿名化原则 捕获了计算的最终发布输出不泄露个人任何独特信息的目标。当此原则专门用于匿名聚合时,目标是任何个人用户贡献给计算的数据对最终聚合输出只有很小(有限、可测量和/或减轻)的影响。例如,聚合统计数据,包括模型参数,当发布给工程师或更广泛的受众时,不应因任何特定用户的数据是否包含在聚合中而发生显着变化。此处显示的 XKCD 漫画说明了一个幽默的例子,其中未遵守此原则,但这种记忆现象已被证明是现代深度网络的真实问题。7,8
看待这些原则的另一种方式是,数据最小化与如何执行计算和处理数据有关,而数据匿名化与什么被计算和发布有关。
通过设计,FL 在结构上体现了数据最小化。图 1 比较了联邦方法与更标准的中心化技术。至关重要的是,在联邦方法中,数据收集和聚合是不可分割的——客户端数据的特定用途转换被收集用于立即聚合,分析师无权访问每个客户端的消息。联邦学习和联邦分析是体现数据最小化实践的通用联邦计算模式的实例。更典型的中心化处理方法用数据收集取代设备上的预处理和聚合,主要的最小化发生在服务器端处理日志数据期间。
此处考虑的 ML 和分析目标与匿名聚合的目标兼容。对于 ML,目标是训练一个模型,该模型可以准确预测所有用户,而不会过度拟合(记忆)用于训练的数据。同样,对于统计查询,目标是估计总体统计数据,这些数据也不应受到任何一个用户数据的显着影响。
FL 可以与其他技术(特别是差分隐私和隐私/记忆审计,稍后会更深入地讨论)结合使用,以确保发布的聚合数据具有足够的匿名性。这种情况与您可能与银行或医疗保健提供商建立的隐私关系形成对比,在后一种关系中,数据匿名化原则可能不适用,因为提供商直接访问个人的敏感数据是不可避免的;在这些互动中,信任提供商仅将数据用于预期目的才是基本原则。
如前所述,FL 的定义特征包括保持原始数据去中心化和通过聚合进行学习。这种本地生成数据的假设——通常在分布和数量上是异构的——将 FL 与更典型的基于数据中心的分布式学习设置区分开来,在后者中,数据可以任意分布和洗牌,并且计算中的任何工作节点都可以访问任何数据。
中央协调器的作用在实践中很有用,而且通常是必要的,例如在移动设备的情况下,移动设备缺少固定的 IP 地址,并且需要中央服务器来协调设备到设备的通信。它进一步约束了相关算法的空间,并有助于将 FL 与更一般的去中心化学习形式(包括对等方法)区分开来。
从基本定义来看,以下两种 FL 设置受到了特别关注
• 跨设备 FL,其中客户端是大量移动或 IoT 设备。
• 跨孤岛 FL,其中客户端通常是较少数量的组织、机构或其他数据孤岛。
表 1(改编自 Kairouz 等人10)总结了 FL 设置的关键特征,并强调了跨设备和跨孤岛设置之间的一些关键差异,以及与数据中心分布式学习的对比。
跨设备 FL 现在已被 Google6 和 Apple16 分别用于 Android 和 iOS 手机,用于许多应用程序,例如移动键盘预测;跨孤岛 FA 正在探索用于健康研究等问题(例如,Google 健康研究)。
跨孤岛 FL 也受到了相当大的关注。健康和医疗应用是主要动机,Nvidia、IBM 和 Intel 以及众多初创公司都进行了大量投资。另一个正在兴起的应用是金融,WeBank、瑞士信贷、Intel 等公司都在投资。
现代 ML 方法,特别是深度学习,通常是数据密集型和计算密集型的,因此生产质量模型的联邦训练的可行性远非必然。我们早期的许多工作,特别是 2017 年的论文“来自去中心化数据的深度网络通信高效学习”13,侧重于建立概念验证。这项工作介绍了联邦平均算法,该算法继续得到广泛使用,尽管此后已经提出了许多变体和改进。
核心思想建立在经典的 SGD(随机梯度下降)算法之上,该算法广泛用于更传统设置中的 ML 模型训练。该模型被给出为从训练示例到预测的函数,由模型权重向量参数化,以及衡量预测与真实输出(标签)之间误差的损失函数。SGD 通过对一批训练示例(通常从几十个到几千个)进行采样来继续进行,计算损失函数相对于模型权重的平均梯度,然后沿梯度的相反方向调整模型权重。通过适当调整每次迭代所采取的步长大小,可以证明 SGD 具有理想的收敛特性,即使对于非凸函数也是如此。
将 SGD 扩展到联邦设置的最简单方法是将当前模型权重广播到一组随机客户端,让他们各自计算本地数据损失的梯度,在服务器端对客户端之间的这些梯度求平均值,然后更新全局模型权重。然而,SGD 通常需要 105 次或更多次迭代才能生成高精度模型。粗略计算表明,在联邦设置中,单次迭代可能需要几分钟,这意味着联邦训练可能需要一个月到一年的时间——超出了实用范围。
联邦平均的关键思想是直观的:通过在每个设备上本地执行 SGD 的多个步骤来减少通信和启动成本,然后以较低的频率平均生成的模型(或模型更新)。如果在每个本地步骤之后对模型进行平均,则会减少到 SGD(并且可能太慢);如果模型平均频率太低,它们可能会发散,并且平均可能会产生更糟糕的模型。两者之间是否存在最佳点?根据经验,2017 年的论文13 表明答案是肯定的,证明了中等规模的语言模型(例如,用于下一个单词预测)和图像分类模型可以在少于 1,000 次通信轮次中进行训练。这会将预期的训练时间减少到几天——仍然比在集中数据的高性能计算集群上可能实现的速度慢得多,但在实际生产使用的可行范围内。
该算法还证明了前面提到的关键隐私点——模型训练可以简化为(重复)应用联邦聚合(模型梯度或更新的平均值),如图 1 所示。
拥有可行的 FL 算法是一个必要的起点,但是要使跨设备 FL 成为 ML 驱动产品团队的高效方法,还需要更多。根据 Google 在多个 Google 产品中部署跨设备 FL 的经验,典型的工作流程通常包括以下步骤
1. 识别适合 FL 的问题。 通常这意味着需要中等大小(1-50 MB)的设备上模型;设备上可能可用的训练数据比数据中心可用的数据更丰富或更具代表性;有隐私或其他原因倾向于不集中数据;并且训练模型所需的反馈信号(标签)在设备上很容易获得(例如,如果用户忽略预测的下一个单词,则可以自然地根据用户键入的内容来训练下一个单词预测模型;除非与应用程序的交互自然地导致标记图像,否则图像分类模型将更难训练)。
2. 模型开发和评估。 与任何 ML 任务一样,选择正确的模型架构和超参数(学习率、批量大小、正则化)对于 FL 的成功至关重要。联邦设置可能会使挑战更大,这引入了许多新的超参数(例如,每轮参与的客户端数量、平均之前要执行多少本地步骤)。通常,起点是使用基于数据中心可用代理数据的 FL 模拟 来进行粗略模型选择和调整。但是,最终的调整和评估必须使用真实设备上的联邦训练进行,因为数据分布、真实世界设备群特征和许多其他因素的差异不可能在模拟中完全捕捉到。评估也必须以联邦方式进行:与训练过程无关,候选全局模型被发送到(保留的)设备,以便可以在这些设备的本地数据集上计算准确性指标,并由服务器聚合(简单平均值和每个客户端性能的直方图都很重要)。总而言之,这些需求产生了两个关键的基础设施要求:(1)提供高性能 FL 模拟基础设施,允许平滑过渡到在真实设备上运行;以及(2)跨设备基础设施,使其易于管理多个同步训练和评估任务。
3. 部署。 一旦在步骤 2 中选择了高质量的候选模型,该模型的部署(例如,在移动键盘中进行用户可见的下一个单词预测)通常遵循与数据中心训练模型相同的程序:额外的验证和测试(可能包括手动质量保证)、实时 A/B 测试以与之前的生产模型进行比较,以及分阶段推广到整个设备群(可能比实际参与模型训练的设备多几个数量级)。
值得强调的是,步骤 2 中的所有工作都不会对参与训练和评估的设备的用户体验产生影响;除非经过部署步骤,否则使用 FL 训练的模型不会向用户显示预测。确保此处理不会对设备产生其他负面影响是一项关键的基础设施挑战。例如,重量级计算可能仅在设备空闲、已插入电源且连接到非计量 Wi-Fi 网络时执行。
图 2 说明了模型开发和部署工作流程。为这些工作流程构建可扩展的基础设施和引人注目的开发者 API 是一项重大挑战。Bonawitz 等人6 的一篇论文概述了 Google 截至 2019 年的生产系统。
FL 开箱即用地提供了多种隐私优势。本着数据最小化的精神,原始数据保留在设备上,发送到服务器的更新专注于特定目的,是短暂的,并尽快聚合。特别是,服务器上不持久存储任何非聚合数据,端到端加密保护传输中的数据,并且解密密钥和解密值都仅短暂地保存在 RAM 中。与系统交互的 ML 工程师和分析师只能访问聚合数据。聚合在联邦方法中的基本作用使得限制任何单个客户端对输出的影响变得自然,但如果目标是提供更正式的保证(例如差分隐私),则需要仔细设计算法。
Google 内外的研究人员正在加强 FL 系统可以提供的隐私保证。虽然基本的 FL 方法已被证明是可行的并获得了广泛采用,但其与本节中描述的其他技术的结合仍然远未达到“对于 FL 的大多数用途默认开启”的程度。即使最先进的技术不断进步,与其他目标(包括公平性、准确性、开发速度和计算成本)的内在紧张关系也可能会阻止数据最小化和匿名化的通用方法。因此,从业者受益于隐私增强技术的可组合性的研究思想和软件实现的持续进步。最终,关于隐私技术部署的决策由产品或服务团队与特定领域的隐私、政策和法律专家协商后做出。作为隐私技术专家,我们的义务是双重的:通过可用的 FL 系统使产品能够提供更多隐私,也许更重要的是,帮助政策专家随着时间的推移加强隐私定义和要求。
在分析联邦系统的隐私属性时,考虑访问点和威胁模型非常有用。基于图 2,人们可以询问,如果某个参与者有权访问系统的各个部分,他可能会学习到哪些私人信息?有权访问物理设备或网络?对提供 FL 服务的服务器具有 root 权限或物理访问权限?对发布给 ML 工程师的模型和指标具有访问权限?对最终部署的模型具有访问权限?
随着信息流经此系统,潜在恶意方的数量差异很大。例如,极少数方应该对协调服务器具有物理或 root 访问权限,但几乎任何人都可以访问运送到大型智能手机群的最终模型。
因此,必须对完整的端到端系统评估隐私声明。如果未采取适当的安全预防措施来保护设备上的原始数据或传输中的中间计算状态,那么最终部署的模型没有记忆用户数据的保证可能无关紧要。其他技术可以提供更强的保证。
图 3 显示了端到端 FL 系统的威胁模型以及数据最小化和匿名聚合的作用。数据最小化通过例如改进安全性并最小化数据和中间结果的保留来解决设备、网络和服务器的潜在威胁。当模型和指标发布给模型工程师或部署到生产环境时,匿名聚合可以保护个人的数据免受有权访问这些发布输出的各方的侵害。
在联邦计算的几个点上,参与者期望彼此采取适当的行动,并且仅采取这些行动。例如,服务器期望客户端准确地执行其预处理步骤;客户端期望服务器对其个人更新保密,直到它们被聚合为止;客户端和服务器都期望数据分析师和部署的 ML 模型用户都无法提取个人的数据;等等。
隐私保护技术支持结构性地强制执行这些参与方之间的期望,防止参与者即使碰巧是恶意的或被泄露的也偏离这些期望。事实上,FL 系统本身可以被视为一种隐私保护技术,在结构上阻止服务器访问客户端数据的任何内容,除非该内容包含在该客户端提交的更新中。
以 FL 的聚合阶段为例。理想化的系统可能会想象一个完全受信任的第三方,它聚合客户端的更新,并且仅向服务器显示最终聚合结果。实际上,通常不存在这样一个相互信任的第三方来扮演这个角色,但是各种技术允许 FL 系统在广泛的条件下模拟这样一个第三方。
例如,服务器可以在安全飞地(secure enclave)中运行聚合程序——一种专门构建的硬件,它不仅可以向客户端证明它正在运行的代码,还可以确保任何人(甚至硬件的所有者)都无法观察或篡改该代码的执行。然而,目前,安全飞地的可用性受到限制,无论是在云端还是在消费设备上,并且可用的飞地可能仅实现某些所需的飞地属性(安全测量、机密性和完整性19)。此外,即使可用且功能齐全,安全飞地也可能存在其他限制,包括非常有限的内存或速度;容易受到通过侧通道(例如,缓存定时攻击)的数据泄露;难以验证正确性(由于专有实现细节);依赖于制造商提供的证明服务(和密钥保密性);等等。
用于安全多方计算的分布式密码协议可以协同使用来模拟受信任的第三方,而无需专门的硬件,只要足够多的参与者诚实地行事即可。虽然用于任意函数的安全多方计算在大多数情况下在计算上仍然是令人望而却步的,但已经开发了用于联邦设置中向量求和的专用安全聚合算法,即使在观察服务器并控制很大一部分客户端的攻击者面前,这些算法也被证明可以保护隐私,同时保持对客户端退出计算的鲁棒性。5 这样的算法既是
• 通信高效 - 每个客户端 O(log n + ℓ) 通信量,其中 n 是用户数,ℓ 是向量长度,对于广泛的实际设置,具有小于明文聚合两倍的通信的小常数;以及
• 计算高效 - 每个客户端 O(log2 n + ℓ log n) 计算量。3
密码安全聚合协议已在商业联邦计算系统中部署多年。6,17
除了私有聚合之外,隐私保护技术还可以用于保护 FL 系统的其他部分。例如,安全飞地或密码技术(例如,零知识证明)都可以确保服务器可以信任客户端已忠实地进行了预处理。即使是模型广播阶段也可以受益:对于许多学习任务,单个客户端可能只有与模型的一小部分相关的数据;在这种情况下,客户端可以私下检索模型的该部分进行训练,再次使用安全飞地或密码技术(例如,私有信息检索)以确保服务器对客户端具有相关训练数据的模型部分一无所知。
虽然安全飞地和私有聚合技术可以加强数据最小化,但它们并非专门设计用于生成匿名聚合——例如,限制用户对正在训练的模型的影响。事实上,越来越多的研究表明,学习到的模型(在某些情况下)可能会泄露敏感信息。8
数据匿名化的黄金标准方法是 DP(差分隐私)。9 对于聚合数据库中记录的通用过程,DP 要求限制任何记录对聚合的贡献,然后添加适当缩放的随机扰动。例如,在 DP-SGD(差分隐私随机梯度下降)中,您裁剪梯度的 ℓ2 范数,聚合裁剪后的梯度,并在每个训练轮次中添加高斯噪声。1
差分隐私算法必然是随机化的,因此您可以考虑算法在特定数据集上生成的模型分布。直观地说,差分隐私表示当算法在仅相差一条记录的输入数据集上运行时,模型上的这种分布是相似的。形式上,DP 由隐私损失参数 (ε, δ) 量化,其中较小的 (ε, δ) 对对应于更高的隐私性。随机算法 A 是 (ε, δ)-差分隐私的,如果对于所有可能的输出(例如,模型)m,以及对于所有在最多一条记录中不同的数据集 D 和 D'
P(A(D) = m) ≤ eε P (A (D') = m) + δ
这不仅限于通过添加与任何记录的影响成比例的噪声来限制模型对每个记录的敏感性,因此确保足够的随机性来掩盖任何一条记录对输出的贡献。
在跨设备 FL 的上下文中,记录被定义为单个用户/客户端的所有训练示例。14 DP 的这种概念称为用户级 DP,它比示例级 DP 更强,在示例级 DP 中,记录对应于单个训练示例,因为通常一个用户可能会贡献许多训练示例。即使在中心化设置中,FL 算法也非常适合使用用户级 DP 保证进行训练,因为它们从用户的所有数据中计算对模型的单个更新,从而更容易限制每个用户对模型更新(以及最终模型)的总影响。
在跨设备 FL 系统的上下文中提供正式的 (ε, δ) 保证可能特别具有挑战性,因为所有符合条件的用户集是动态的且事先未知,并且参与用户可能在协议的任何时间点退出。虽然 Balle 等人2 最近的工作表明,这些挑战在理论上是可以克服的,但构建一个在生产 FL 系统中工作的端到端协议仍然是一个重要的待解决问题。
在跨孤岛 FL 的上下文中,隐私单位可以具有不同的含义。例如,如果参与机构想要确保有权访问模型迭代或最终模型的攻击者无法确定是否在模型的训练中使用了特定机构的数据集,则可以将记录定义为数据孤岛上的所有示例。用户级 DP 在跨孤岛设置中仍然有意义,在跨孤岛设置中,每个孤岛都保存着多个用户的数据。但是,如果多个机构拥有来自同一用户的记录,则实施用户级隐私可能更具挑战性。
在过去的十年中,已经为差分隐私数据分析开发了广泛的技术集,特别是对于中央或受信任聚合器设置,其中原始(或最小化)数据由实现 DP 算法的受信任服务提供商收集。最近,人们对本地 DP 模型12 产生了浓厚的兴趣,其中数据在客户端被扰动,然后再由服务提供商收集。本地 DP 避免了对完全受信任的聚合器的需求,但现在已充分证明,本地 DP 会导致准确性急剧下降。
为了恢复中央 DP 的效用,而无需依赖完全受信任的中央服务器,可以使用一组新兴的方法,通常称为分布式 DP。4,11 目标是在输出(以明文形式)对服务器可见之前使其成为差分隐私。在分布式 DP 下,客户端首先计算最小的特定于应用程序的报告,用随机噪声稍微扰动这些报告,然后执行私有聚合协议。然后,服务器仅有权访问私有聚合协议的输出。单个客户端添加的噪声通常不足以提供有意义的本地 DP 保证。然而,在私有聚合之后,私有聚合协议的输出基于跨所有客户端添加的噪声总和提供了更强的 DP 保证。这甚至适用于在私有聚合协议所需的安全假设下有权访问服务器的人员。
为了使算法提供正式的用户级 DP 保证,它不仅必须限制模型对每个用户数据的敏感性,还必须添加与该敏感性成比例的噪声。虽然需要添加足够的随机噪声以确保 ε 足够小,以便 DP 定义本身提供强大的保证,但根据经验观察到,即使使用少量噪声(或根本没有噪声)限制敏感性也可以显着减少记忆。18 这种差距是可以预期的,因为 DP 假设“最坏情况的攻击者”具有无限的计算能力和对任意侧面信息的访问权限。这些假设在实践中通常是不现实的。因此,使用限制每个用户影响的 DP 算法进行训练具有显着的优势,即使显式引入到训练过程中的随机噪声不足以正式确保 ε 很小。尽管如此,设计实用的 FL 和 FA 算法以实现小的 ε 保证是当前研究的一个重要领域。
模型审计技术可以用来进一步量化使用DP进行训练的优势。7,8,18 这些技术本质上是经验性的,可以在训练期间或之后应用。它们大致包括量化模型过度学习(或记忆)独特或罕见训练示例程度的技术,以及量化在多大程度上可以推断用户的示例是否在训练期间被使用的技术。即使使用较大的 ε,这些审计技术也很有用,因为它们可以量化DP的最坏情况对手与具有有限计算能力和辅助信息的现实对手之间的差距。它们还可以作为压力测试DP实现的补充技术:与DP的形式数学表述不同,这些审计技术应用于完整的端到端系统,有可能捕获软件错误或错误选择的参数。
到目前为止,本文的重点主要是联邦学习(FL)。除了学习机器学习模型之外,数据分析师通常对应用数据科学方法来分析存储在用户设备本地的原始数据感兴趣。例如,分析师可能对了解聚合模型指标、流行趋势和活动或地理空间位置热图感兴趣。所有这些都可以使用联邦分析(FA)来完成。17 与联邦学习类似,联邦分析的工作原理是在每个设备的数据上运行本地计算,并且仅将聚合结果提供给产品工程师。然而,与联邦学习不同,联邦分析旨在支持基本的数据科学需求,例如计数、平均值、直方图、分位数和其他类似SQL的查询。
考虑一个应用场景,分析师想要使用联邦分析来了解由许多用户共享的音乐库中最常播放的十首歌曲。可以使用上面讨论的联邦和隐私技术来执行此任务。例如,客户端可以将他们听过的歌曲编码为长度等于库大小的二进制向量,并使用分布式差分隐私(DP)来确保服务器仅看到这些向量的差分隐私总和,从而给出每首歌曲有多少用户播放过的DP直方图。然而,正如这个例子所示,联邦分析任务在几个方面可能与联邦学习任务不同
1. 联邦分析算法通常是非交互式的,并且涉及大量客户端的回合。换句话说,与联邦学习应用不同,在回合中拥有更多客户端并不会带来边际效益递减。因此,应用DP在联邦分析中挑战较小,因为每个回合可以包含大量客户端,并且需要的回合数更少。
2. 不需要相同的客户端再次参与后续回合。事实上,再次参与的客户端可能会使算法结果产生偏差。因此,最好通过限制任何个人参与次数的基础设施来服务于联邦分析任务。
3. 联邦分析任务通常是稀疏的,使得高效的私有稀疏聚合成为一个特别重要的主题;在这个领域存在许多开放的研究问题。
值得注意的是,虽然限制客户端参与和稀疏聚合与联邦分析尤其相关,但它们也适用于联邦学习问题。
我们乐观地认为,联邦学习将继续扩展,既作为一个研究领域,也作为一套实用的工具和软件系统,允许更多人将其应用于更多类型的数据和问题领域。
对于那些有兴趣了解更多关于活跃研究方向的人,《联邦学习的进展和开放问题》最近的更新版提供了一个广泛的综述,涵盖了本文未涵盖的重要主题,包括个性化、鲁棒性、公平性和系统挑战。10 如果您有兴趣更实践地了解联邦学习,例如在模拟环境中在您自己的数据或标准数据集上尝试算法,TensorFlow Federated 教程是一个很好的起点——它们可以在浏览器中使用Google Colab即时执行和修改。
作者要感谢Alex Ingerman和Marco Gruteser对本文早期草稿提供的有益反馈,以及Google的许多人,他们帮助开发了这些想法并将它们付诸实践。
1. Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., Zhang, L. 2016. Deep learning with differential privacy. In Proceedings of the SIGSAC Conference on Computer and Communications Security, 308—318; https://dl.acm.org/doi/10.1145/2976749.2978318.
2. Balle, B., Kairouz, P., McMahan, H. B., Thakkar, O., Thakurta, A. 2020. Privacy amplification via random check-ins. arXiv; https://arxiv.org/pdf/2007.06605.pdf.
3. Bell, J. H., et al. 2020. Secure single-server aggregation with (poly)logarithmic overhead. In Proceedings of the SIGSAC Conference on Computer and Communications Security, 1253—1269; https://dl.acm.org/doi/10.1145/3372297.3417885.
4. Bittau, A., et al. 2017. Prochlo: strong privacy for analytics in the crowd. In Proceedings of the 26th Symposium on Operating Systems Principles (SOSP), 441-459; https://dl.acm.org/doi/10.1145/3132747.3132769.
5. Bonawitz, K., et al. 2017. Practical secure aggregation for privacy-preserving machine learning. In Proceedings of the SIGSAC Conference on Computer and Communications Security, 1175—1191; https://dl.acm.org/doi/10.1145/3133956.3133982.
6. Bonawitz, K., et al. 2019. Towards federated learning at scale: system design. Proceedings of the 2nd SysML Conference, Palo Alto, CA, USA, 2019. https://arxiv.org/pdf/1902.01046.pdf.
7. Carlini, N., Liu, C., Erlingsson, U., Kos, J., Song, D. 2019. The secret sharer: evaluating and testing unintended memorization neural networks. In Proceedings of the 28th Usenix Security Symposium, 267-284; https://dl.acm.org/doi/10.5555/3361338.3361358.
8. Carlini, N., et al. 2020. Extracting training data from large language models. arXiv preprint; https://arxiv.org/abs/2012.07805.
9. Dwork, C., McSherry, F., Nissim, K., Smith, A. D. 2006. Calibrating noise to sensitivity in private data analysis. In Proceedings of the IACR (International Association for Cryptologic Research) Theory of Cryptography Conference, 265—284. Springer-Verlag; https://iacr.org/archive/tcc2006/38760266/38760266.pdf.
10. Kairouz, P., et al. 2021. Advances and open problems in federated learning. Foundations and Trends in Machine Learning: 14 (1-2); https://arxiv.org/abs/1912.04977.
11. Kairouz, P., Liu, Z., Steinke, T. 2021. The distributed discrete Gaussian mechanism for federated learning with secure aggregation. In Proceedings of the 38th International Conference on Machine Learning (PMLR). 139, 5201-5212; http://proceedings.mlr.press/v139/kairouz21a/kairouz21a.pdf.
12. Kasiviswanathan, S. P., Lee, H. K., Nissim, K., Raskhodnikova, S., Smith, A. 2011. What can we learn privately? SIAM (Society for Industrial and Applied Mathematics) Journal on Computing 40(3), 793—826; https://dl.acm.org/doi/10.1137/090756090.
13. McMahan, H. B., Moore, E., Ramage, D., Hampson, S., Agüera y Arcas, B. 2017. Communication-efficient learning of deep networks from decentralized data. In Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, 1273—1282; http://proceedings.mlr.press/v54/mcmahan17a/mcmahan17a.pdf.
14. McMahan, H. B., Ramage, D., Talwar, K., Zhang, L. 2018. Learning differentially private recurrent language models. In Proceedings of the International Conference on Learning Representations (ICLR); https://openreview.net/pdf?id=BJ0hF1Z0b.
15. McMahan, H.B., Ramage, D. 2017. Federated Learning: Collaborative Machine Learning without Centralized Training Data. Google AI Blog (April 6); https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
16. Paulik, M., et al. 2021. Federated evaluation and tuning for on-device personalization: system design & applications. arXiv preprint; https://arxiv.org/abs/2102.08503.
17. Ramage, D., Mazzocchi, S. 2020. Federated analytics: collaborative data science without data collection. Google AI Blog (May 27); https://ai.googleblog.com/2020/05/federated-analytics-collaborative-data.html.
18. Ramaswamy, S., et al. 2020. Training production language models without memorizing user data. arXiv preprint; https://arxiv.org/abs/2009.10031.
19. Subramanyan, P., Sinha, R., Lebedev, I., Devadas, S., Seshia, S. A. 2017. A formal foundation for secure remote execution of enclaves. In Proceedings of the SIGSAC Conference on Computer and Communications Security, 2435—2450; https://dl.acm.org/doi/10.1145/3133956.3134098.
Kallista Bonawitz、Peter Kairouz、Brendan McMahan 和 Daniel Ramage 都是 Google 的研究人员,专注于去中心化和隐私保护的机器学习。他们的团队率先提出了联邦学习的概念,并继续推动在使用隐私保护技术处理去中心化数据时可能实现的边界。
Kallista Bonawitz 此前曾在 Alphabet 旗下 X 部门的 Project Loon 领导规划、模拟和控制团队,并与他人共同创立了 Navia Systems(一家概率计算初创公司,后来被 Salesforce 收购,更名为 Prior Knowledge)。她获得了麻省理工学院计算机科学博士学位。
Peter Kairouz 在加入 Google 之前是斯坦福大学的博士后研究员。他获得了伊利诺伊大学厄巴纳-香槟分校电气与计算机工程博士学位。
Brendan McMahan 曾在在线学习、大规模凸优化和强化学习领域工作。他获得了卡内基梅隆大学计算机科学博士学位。
Daniel Ramage 曾在自然语言处理、机器智能和移动系统领域工作。他获得了斯坦福大学博士学位。
版权 © 2021 归所有者/作者所有。出版权已授权给 。
最初发表于 Queue vol. 19, no. 5—
在 数字图书馆中评论本文
Mark Russinovich, Cédric Fournet, Greg Zaverucha, Josh Benaloh, Brandon Murdoch, Manuel Costa - 机密计算证明
证明是用于完整性和隐私的强大工具,使验证者能够委托计算并仍然验证其正确执行,并使证明者能够对计算的细节保密。CCP 和 ZKP 都可以实现可靠性和零知识,但存在重要差异。CCP 依赖于硬件信任假设,这可以带来高性能和对证明者的额外保密保护,但对于某些应用来说可能是不可接受的。CCP 通常也更容易使用,尤其是在现有代码的情况下,而 ZKP 带来了大量的证明者开销,这对于某些应用来说可能是不切实际的。
Raphael Auer, Rainer Böhme, Jeremy Clark, Didem Demirag - 央行数字货币的隐私格局
随着世界各地的中央银行转向数字化现金,隐私问题需要提到最前沿。所采取的路径可能取决于每个利益相关者群体的需求:注重隐私的用户、数据持有者和执法部门。
Sutapa Mondal, Mangesh S. Gharote, Sachin P. Lodha - 个人信息的隐私
每次与外部服务的在线交互都会创建关于用户的数字记录和存储数据。这些外部服务可能是信用卡交易、医疗咨询、人口普查数据收集、选民登记等。尽管表面上收集数据是为了向公民提供更好的服务,但个人的隐私不可避免地会受到威胁。随着互联网的日益普及和生成的数据量不断增加,数据保护,特别是保护个人隐私,已变得尤为重要。
Mark Russinovich, Manuel Costa, Cédric Fournet, David Chisnall, Antoine Delignat-Lavaud, Sylvan Clebsch, Kapil Vaswani, Vikas Bhatia - 迈向机密云计算
尽管现代云的发展在很大程度上是由规模经济驱动的,但也提高了安全性。大型数据中心提供聚合的可用性、可靠性和安全保证。确保操作系统、数据库和其他服务具有安全配置的运营成本可以在所有租户之间分摊,从而使云提供商能够聘请专家负责安全;这对于小型企业来说通常是不可行的,在小型企业中,系统管理员的角色通常与许多其他角色混为一谈。