下载本文的PDF版本 PDF

个人信息隐私

在金鱼缸里保持匿名

Sutapa Mondal,
Mangesh S. Gharote,
和 Sachin P. Lodha
TCS Research, 塔塔咨询服务有限公司

大多数人一生都以姓名和性别来标识。这些是他们的公开属性,他们通常愿意透露这些信息。在某些情况下(例如,在医生办公室),他们可能会透露个人详细信息,如年龄、身高和体重,即使这些属性在公共场合可能不为人所知。医生可能知道关于病人身体和思想的细节,甚至病人自己可能都不知道(或不理解),但病人可能不欢迎朋友,甚至是亲密的朋友,试图了解他们的医疗状况。同样,医生对病人政治信仰的兴趣可能是不恰当的。

一些个人信息可能需要提供给某些群体的人,但仍需要受到保护,免受不必要的查看。这些群体可能包括医学研究人员——例如,那些研究有效治疗方法或追踪传染病传播的研究人员,他们需要这些数据用于研究。隐私仍然重要,因为这种不必要的查看只是个人信息滥用问题的冰山一角,这在这些工作的明显优势与详细信息落入坏人之手的潜在劣势之间造成了紧张关系。

保护隐私的一种方法是什么都不透露,但这几乎是不切实际的。另一种方法是定义可以透露某些属性的上下文。你的家人可能比大多数其他人更了解你,但你期望这些个人信息仅限于家庭成员。人们通常不反对成为国家统计数据的一部分,例如年龄、性别、城市、州、第一语言等等,因为他们可能认为这类信息不能用于揭示身份:换句话说,信息已经充分匿名化了。但是,这种匿名化会被破坏吗?

隐私的概念随着时间的推移而演变。1977年,Tore Dalenius 阐述了一个愿望,即不应该从数据库中学到任何无法在没有访问数据库的情况下学到的关于个人的信息。8 他提出了对统计数据集中数据泄露的担忧。1980年,Ruth Gavison 强调,个人的隐私可以被视为“隐藏在人群中”。11 后来,Helen Nissenbaum 引入了隐私的上下文完整性框架。16 它指出,信息收集和传播应适合上下文,并符合管理该信息分发的规范。这些观点成为此处讨论的隐私保护技术的基础。

 

隐私的重大挑战

Swara 定期去 Asha 医院接受治疗。她被告知有一个移动医疗应用程序,可以让她查看医生的出诊时间表、预约和在线支付。输入个人详细信息后,她可以查看过去的病史和实验室报告。对于 Swara 来说,该应用程序提供了一种与医院互动和管理她的健康记录的便捷方式——它也帮助医院管理和服务其患者。

 

仔细查看 Asha 医院存储的数据

Asha 医院使用数据库来维护患者的记录。该数据库由多个表组成,这些表捕获患者的个人信息、病史以及医院要求的其他详细信息。图 1 显示了一个数据库表,其中包含患者的详细信息,例如 NID(国家身份证号码)、姓名、种族4、出生日期、性别、邮政编码、婚姻状况和诊断出的疾病。诸如 NID 和姓名之类的属性可以唯一标识任何患者,因此被称为 PII(个人身份信息)。疾病是一种敏感属性,因为人们通常不喜欢公开自己的疾病。

Privacy of Personal Information: Going incog in a goldfish bowl

存储在医院数据库中的数据非常重要,因为它可以用于多种目的,例如研究和提高药物的疗效以及监测和限制疾病的传播。然而,未经授权披露医疗数据可能会侵犯患者隐私,并且这种侵犯可能会产生经济、精神和社会影响。例如,某些疾病(如 HIV 或 Covid)可能带有社会污名,披露可能会严重影响患者过上正常生活的能力。PII 和其他个人数据可用于身份盗窃,这可能需要很长时间才能补救。泄露财务信息(如信用卡详细信息)可能会导致欺诈性在线支付。因此,数据的安全性和隐私性都至关重要。

SWARA 想知道: 在这个 Web 应用程序上分享个人详细信息是否安全?除了疾病信息外,为什么还要收集其他信息?谁有权访问这些数据?如果医院与第三方分享她的数据怎么办?

 

Betaal,恶意者

Betaal 是一个心怀恶意的人,他正在寻找敏感信息。让我们看看 Betaal 可能侵犯 Swara 隐私的不同程度的泄露

 

披露风险

Betaal 可以访问的信息量可能导致不同类型的披露。在任何数据集中,这些披露都密切相关,并且可以按严重程度排序如下

MSD << SAD << IDD

它们发生的可能性遵循相反的顺序:MSD 的可能性大于 SAD 的可能性,而 SAD 的可能性又大于 IDD 的可能性。每一个都包含在另一个之中,按照给定的顺序。由于风险被定义为“披露的可能性”乘以“披露的影响”,那么如果披露确实发生,那么这些披露中的任何一个都可能比其他两个披露带来更大的风险,这取决于总体背景。

SWARA 想知道: Betaal 如何访问她的数据?是否存在用于共享数据的隐私准则?

每次披露都允许 Betaal 直接或间接地侵犯 Swara 的隐私。Betaal 可能是系统的授权用户或未经授权的用户。

这就提出了一个主要问题:可以向授权用户提供哪些数据,以便 (a) 该用户可以开展必要的工作,同时 (b) 确保满足 Swara 的隐私要求?

在考虑披露风险时,重要的是要注意以下几点

 

数据的权衡

是否有某种方法只向 Betaal 提供部分数据,并降低 MSD、SAD 和 IDD 的风险?

 

如果删除 PII 会怎样?

在图 2 中,PII 属性 NID 和姓名被删除。在实践中,删除可以实现为“用虚构值替换”,以满足数据库或应用程序的约束和要求。这似乎是一个有希望的解决方案,因为既没有揭示数据集中可能的成员资格,也没有揭示身份。

Privacy of Personal Information: Going incog in a goldfish bowl

这会保护 Swara 的隐私吗?遗憾的是,事实并非如此。在 1990 年代后期,为马萨诸塞州州政府雇员提供健康保险的 GIC(团体保险委员会)正是使用了这种策略来保护隐私。当时在麻省理工学院攻读博士学位的 Latanya Sweeney 通过将公开可用的选民登记数据与 GIC 提供的医疗保健数据“连接”起来,从而能够识别出大多数数据主体。19 该攻击导致了身份(以及成员资格和敏感属性)披露。因此,仅删除 PII 并不能保证隐私。

 

如果进一步打乱敏感数据会怎样?

Swara 可能不介意 Betaal 知道她正在 Asha 医院接受治疗——也就是说,她可能对 MSD 感到满意。对她来说更重要的是防范 SAD:确保 Betaal 不会发现她的疾病。为了克服这个问题,列向打乱敏感值(图 3)似乎是一个可能的解决方案。然而,这不起作用,因为即使值被打乱了,它们的分布仍然相同,这可能足以让 Betaal 高度自信地推断出 Swara 的疾病。当数据分布不均匀时,尤其如此。

Privacy of Personal Information: Going incog in a goldfish bowl

 

如果删除所有内容会怎样?

用近似于原始数据的合成数据替换所有记录(图 4)可以保护隐私,因为此类数据不指向现实世界中的任何个人。合成数据保留了原始数据的结构和特征属性。借助 GAN(生成对抗网络)等技术,现在可以生成具有真实世界数据属性的合成数据。但它的局限性在于所得结果的准确性损失;因此,该方法并非总是适用于某些应用程序。例如,用于肾细胞癌预测的机器学习模型将需要非常高的准确性和精度。在这种情况下,完全依赖合成生成的数据可能会带来不同的漏洞。5

Privacy of Personal Information: Going incog in a goldfish bowl

 

拔河:隐私与效用

隐私硬币的另一面是数据效用。向授权用户提供数据访问权限背后有一个生产目的。因此,注意力不应仅限于问题,匿名化数据有多匿名?,还应解决另一个问题,匿名化数据有多有意义?隐私的挑战在于找到完全披露的数据和完全 withheld 数据之间的平衡。图 5 显示,当“按原样”共享数据时,其效用最大,但隐私最小,而当不披露任何内容时,隐私最大化,但效用受到限制。

Privacy of Personal Information: Going incog in a goldfish bowl

理想的解决方案是隐私和效用都达到其最大可能的水平。由于隐私和效用的冲突要求,实现理想的解决方案具有挑战性。迫切需要能够在隐私和效用之间提供平衡的隐私保护技术。使用此类技术将允许 Swara 有条不紊地共享在特定上下文中对其有用的个人数据,并防止 Betaal 侵犯她的隐私。

SWARA 想知道: 有哪些不同的隐私保护技术?这些技术在实践中是如何应用的?

 

K-匿名性:概述

诸如随机化、打乱和数据交换之类的传统方法已能够在一定程度上保护隐私,但数据泄露的风险仍然存在。K-匿名性是一种隐私保护技术,旨在克服传统方法的局限性。

SWARA 想知道: 如果 Asha 医院共享她的数据,她的隐私会得到保护吗?

如果 Swara 的记录与其他 99 条记录看起来相同,会怎么样?Swara 的记录将不再在 100 条记录中被识别出来。将这个 100 推广到 k 使得 Betaal 难以在 k 条相似的记录中重新识别 Swara;这就像将 Swara 隐藏在人群中。Ruth Gavison 在 1980 年代强调的这种隐私概念后来演变为 k-匿名化的思想,它使 k 条记录在数据集中看起来相似(即,关于每个人的数据都隐藏在 k 条相似的记录中)。

SWARA 想知道: 是什么导致了 k-匿名性?如何实现它?

在处理马萨诸塞州 GIC 提供的医疗保健数据时,Sweeney 观察到许多患者在医院发布的去标识化数据集中具有唯一的属性组合。此外,她观察到这三个属性与姓名和地址一起列在公开可用的选民登记数据中。Sweeney 随后将医院发布的数据与选民登记数据链接起来,从而能够重新识别甚至马萨诸塞州州长的敏感健康信息。这被称为链接攻击,其中去标识化数据集中的记录可以通过与公开可用数据集中的已识别记录进行唯一链接来重新识别。Sweeney 表明,仅仅删除 PII 不足以保护隐私。

Sweeney 还观察到,仅使用属性,美国 87% 的人口是唯一可识别的。这些属性被称为准标识符,当组合在一起时可以充当 PII。图 6 说明了与本文讨论相关的某些属性类别:标识符(NID、姓名)、准标识符(出生日期、性别、邮政编码)和敏感属性(疾病)。

Privacy of Personal Information: Going incog in a goldfish bowl

Sweeney 的链接攻击表明,发布带有准标识符的记录与发布带有显式身份(PII)属性的记录一样糟糕。旨在 IDD 的攻击,假设攻击者已经知道目标个人是数据的一部分,则只需要识别相应的记录。攻击模型中 MSD 的先前假设使得攻击者更容易揭露给定数据集中个人的身份。由于此类攻击的可能性以及个人数据保护和隐私实践的局限性,研究人员开始寻找更好的方法。Samarati 和 Sweeney17 引入了 K-匿名性作为一种隐私保护技术,特别是为了缓解此类链接攻击。

如果数据集中个人的信息无法与数据中也出现的 k-1 个其他个人的信息区分开来,则发布的数据据说具有 k-匿名性属性。17

仔细查看 k-匿名性

图 7 说明了关系数据的 3-匿名化示例(其中 k = 3),因此转换后的准标识符必须至少出现在三个记录中。可以使用诸如泛化和抑制之类的技术来执行准标识符的转换。对于抑制,属性的某些或所有值可以用 ^ 替换。在图 7 中,姓名属性的所有值都被抑制了。另一方面,对于泛化,属性的单个值被替换为表示更广泛范围或类别的值。例如,邮政编码属性已使用单一策略进行泛化,即将最后三位数字替换为 *,而对于出生日期属性,则使用了多种策略:在某些情况下,月份已被泛化;在另一些情况下,月份、日期和年份都已被泛化。在实践中,值不是像此处表示的那样用 *^ 替换,而是用来自属性值域的随机值替换。

Privacy of Personal Information: Going incog in a goldfish bowl

可以使用分类树进行泛化,如图 8 所示。为邮政编码定义的分类树(图 8a)显示了泛化层次结构。分类树的较低级别表示地区信息,最后三位数字被抑制,而较高级别则描述了地区和区域。类似地,图 8b 显示了用于泛化年龄属性的分类树,因此数据集中的年龄值(例如,22 岁)可以泛化为 [21-25] 范围内的任何随机值。

Privacy of Personal Information: Going incog in a goldfish bowl

更高的泛化允许映射更多记录,从而实现更高水平的隐私,尽管这可能会显着影响数据效用。此外,对属性使用单一策略泛化所有记录可能不是最佳策略。例如,如果数据集具有许多具有相似人口统计信息的记录,那么通过将某些记录泛化到地区级别(邮政编码:41****)并将其他记录泛化到区域级别(邮政编码:411***)将被证明是 preserving 隐私和增强数据效用的更好策略。因此,您可以进行局部更改,而不仅仅是对属性进行全局更改。

数据的这种隐私保护转换称为重编码。在全局重编码中,特定的详细值必须在所有记录中映射到相同的泛化值。局部重编码允许相同的详细值在每个匿名化组中映射到不同的泛化值。

可以通过修改最少量的数据来实现最佳 k-匿名性吗?已经证明,对于多维数据,实现最佳 k-匿名性是一个 NP(非确定性多项式时间)难题。15 各种研究人员提出了近似算法来实现接近最佳的 k-匿名性。1

 

K-匿名性的扩展

让我们更深入地了解 k-匿名化表(图 9),该表显示所有邮政编码泛化为值(520***)的 k (= 3) 个人具有相同的敏感值(在这种情况下,他们都患有心脏病)。尽管数据的 k-匿名化可以防止链接攻击,并且攻击者无法以高度的确定性链接到其他数据库,但它仍然可能泄露敏感信息。这被称为同质性攻击,其中所有 k 个人都具有相同的敏感值。

Privacy of Personal Information: Going incog in a goldfish bowl

同样,如果攻击者具有关于个人的其他信息,则可能可以高概率地重新识别该记录,从而导致背景知识攻击。图 9 显示,如果攻击者知道一个人的出生日期、邮政编码和家族病史(例如,Elena),那么攻击者可以高概率地猜测 Elena 的记录。因此,k-匿名性不能对这种攻击提供任何科学保证。

此外,为可接受的 k-匿名性级别选择 k 提出了另一个挑战。在泛化或抑制记录以实现 k-匿名性期间会丢失信息——泛化程度越高,效用越低。

为了克服其中的一些缺点,已经提出了 k-匿名性的不同变体。l-多样性是其中一种变体,其中任何敏感属性在每个组中都应具有 l 个不同的值。这确保了敏感属性得到很好的表示,但它也涉及抑制或添加会改变数据分布的行。这种抑制或添加引发了对从数据集中得出的结论的统计有效性的担忧。

这些缺点导致了 t-接近性,它是 k-匿名性和 l-多样性的扩展:t-接近性捕捉到以下概念,即任何 k 子集中敏感属性的分布不仅是 l-多样的,而且还接近于属性在整个数据集中的分布。此外,两个分布之间的距离由阈值 t 衡量。这些 k-匿名性的扩展迎合了一些限制,但并非全部。例如,数据的维度仍然是一个挑战:对于高维度数据(如时间序列),提供与低维度数据相同的隐私保证变得非常困难。

许多组织已经提出了使用 k-匿名性作为隐私保护技术之一的隐私解决方案和工具。K-匿名性已从隐私感知数据发布场景中获得了广泛的关注。还有关于使用 k-匿名性执行分类和数据挖掘任务的研究。6 此外,k-匿名性的应用范围已扩展到关系数据库之外,以匿名化诸如图之类的组合结构。18

 

进一步讨论

本节 examines k-匿名性中 k 的选择、发布匿名化数据的一些实际方面、准标识符、实现所需匿名化的理想泛化量以及如何高效地实现 k-匿名化。

 

k 的正确选择

在美国,HIPAA(健康保险携带和责任法案)设定了敏感患者数据保护的标准。HIPAA “安全港”模型要求删除小于州的地理细分,但如果由所有具有相同前三位数字的 ZIP 代码组成的地理单元包含超过 20,000 人,则初始三位 ZIP 代码除外。因此,通过泛化前三位数字的 ZIP 代码形成的组将至少有 20,000 人。

因此,HIPAA 将 20,000 定义为 k-匿名性的 k 的标准值。另一项美国法案 FERPA(家庭教育权利和隐私法案)设定了保护学生及其家庭个人信息的标准。FERPA 建议 k 的值为 5 或 10 以防止泄露。这表明同一国家/地区的两项标准——健康(HIPAA)和教育(FERPA)——在 k 的选择上存在差异。

对于受这些监管授权约束的应用程序,k 的选择是预定义的。然而,对于没有监管要求的应用程序,选择 k 以提供适当级别的隐私与效用权衡是一个挑战。选择 k 的一种方法可能是改变其在一系列值范围内的值,并确定数据集的泛化信息损失(效用度量)的变化。然后,与可接受的泛化信息损失相对应的 k 值将是合适的选择。也就是说,找到 k 的最佳值仍然是一个悬而未决的问题,研究人员已经提出了几种方法,例如概率模型和多目标优化模型。

 

识别准标识符

准标识符14 的识别是一个主要问题,因为它直接影响 k-匿名性方法的有效性。图 10 说明了对于不同组的属性(可能是准标识符)可识别的记录数。例如,如果表仅包含“种族”列 (A),则只有一条记录(旁遮普人)是唯一的。当添加列 B(性别)时,三条记录变为唯一的(可识别的)。同样,添加列 C(邮政编码)使另外两条记录变为唯一的。因此,随着信息的增加,更多数量的记录变得可识别。

Privacy of Personal Information: Going incog in a goldfish bowl

随着数据维度的增加,准标识符的选择可能会变得更加复杂。随着其他人发布的额外数据的不确定性,问题也变得更具挑战性。在这种情况下,必须将某些已发布的属性视为准标识符。

 

实现所需匿名化的理想泛化量

理想的泛化程度取决于公开可用的信息。许多国家的公共和私营部门组织在公共领域发布信息,以实现更高的透明度并使公民更容易访问其数据。这些组织可能会在无意中发布不应公开的信息。这为私人聚合商提供了滥用此类信息的机会。因此,发布公民数据的组织必须应用 extreme 泛化以防止通过链接攻击进行重新识别。

 

高效地实现 k-匿名性

研究人员已经证明,多维 k-匿名性是一个 NP 难题。15 然而,存在可以实现 k-匿名性但不具有可扩展性的近似算法。1 另一方面,使用动态规划的 k-匿名性概率方法为 k-匿名性提供了一种时间最优算法。14 诸如 k-optimize 之类的启发式方法也产生了有效的结果。3 然而,随着当前对 AI 驱动分析的强调,隐私和数据保护的定义发生了明显的变化,这表明需要提供更强保证并为不同应用提供更广泛范围的隐私保护技术。

 

要点

链接攻击表明,仅删除标识符并不能保护隐私。因此,k-匿名性已成为一种突出的隐私保护技术。在这里,泛化是在真实信息上执行的,这使其比其他策略更易于接受。此外,k-匿名性及其变体可以限制链接、同质性和背景攻击。从工业角度来看,k-匿名性因其在法规遵从性方面的接受度而获得了更广泛的关注,尤其是在美国。

K-匿名性确实存在一些缺点,例如 MSD 和信息丢失。此外,泛化需要数据集中每个准标识符的分类树,即使分类树是自动生成的,这也需要领域专家的干预。此外,每个属性的泛化级别可能会因用例而异。

这促使研究人员提出以目的为导向的策略,例如为每个属性分配权重以衡量其相对重要性并相应地泛化属性14,或执行多维抑制,以便仅根据其他属性值在某些记录上抑制值。13 然而,随着计算能力的进步和数字数据集的可用性,重新识别的风险仍然存在。这些局限性正在推动研究人员寻找更好的隐私保护技术。

 

差分隐私:概述

假设在共享数据之前,注入一些噪声,或者创建一个与原始数据集具有相同统计属性的合成数据集。那么,很可能可以保护隐私。本节介绍 DP(差分隐私)作为一种隐私保护技术。

Cynthia Dwork 引入了 DP,通过注入经过仔细校准的随机噪声来保护个人隐私,以使数据不真实。10 DP 的独创性在于允许从数据集中得出有意义的分析,同时保护个人隐私。然而,DP 背后的最初动机可以追溯到 Dalenius 对统计数据集的隐私担忧:“了解关于我的任何事情都应该很难”(即,在没有直接访问数据库的情况下,应该很难了解关于个人的任何事情)。

SWARA 想知道: 差分隐私是如何工作的?DP 如何使第三方可以安全地执行数据分析?

在典型的 DP 设置中,被假定为值得信赖并充当中央机构的数据管理者持有构成数据库的个人的数据。有了受信任的管理者,DP 可以以两种模式之一运行:在线或交互模式;或离线或非交互模式。

在交互模式(图 11)中,数据分析师自适应地查询数据库(即,根据对先前查询的响应修改后续查询)。查询是应用于数据库的函数——例如,数据库中有多少人有药物成瘾?图 11 显示了如何在数据库和数据分析师之间插入 DP 机制。来自分析师的每个查询都会生成噪声响应,从而保护隐私。

Privacy of Personal Information: Going incog in a goldfish bowl

另一种安全策略是在离线或非交互模式下运行(图 12)。管理者使用 DP 机制生成与原始数据集具有相同统计属性的合成数据库。发布数据后,管理者不再发挥任何作用,甚至可以销毁原始数据。因此,使用合成数据库,重新识别个人变得困难。此外,可以共享此类合成数据以进行质量分析。

Privacy of Personal Information: Going incog in a goldfish bowl

SWARA 想知道: 典型的 DP 机制是什么?DP 是否提供任何正式的隐私保证?

 

仔细查看差分隐私

考虑一种分析数据集并计算统计属性(如平均值、方差、中位数和众数)的算法。如果通过查看输出,您无法判断原始数据集中是否包含任何个人的数据,则称此类算法具有差分隐私性。换句话说,差分隐私算法的保证是,其行为几乎不会随着数据集中个人的存在或缺失而改变。图 13 显示,当在包含和不包含候选者 D 的数据库上应用时,DP 机制 F 产生相似的输出分布。最值得注意的是,此保证适用于任何个人和任何数据集。因此,无论个人的详细信息有多独特,以及数据库中任何其他人的详细信息如何,DP 的保证仍然成立。

Privacy of Personal Information: Going incog in a goldfish bowl

在数学上,DP 可以定义如下:如果对于所有数据集 D1 和 D2 在最多一个元素上不同,并且所有 S ⊆ Range(M),则随机函数 M 给出 ε-差分隐私。因此

 

Pr[M(D1) ε S] ≤ exp(ε) x Pr[M(D2) ε S]

 

数据库 D1 上馆长输出 M(D1) 的分布与数据库 D2 上 M(D2) 的分布几乎相同,其中数据库 D1 和 D2 仅相差一条个人记录,而 M 是一种随机化算法,保证 ε-差分隐私:ε 决定了两个数据库 D1 和 D2 的不可区分性(即,对两个数据库的查询响应的偏差受 ε 控制)。这为数据库中参与者的个人级别信息不会被泄露提供了正式保证。DP 避免了 MSD,并且使其难以发生其他泄露风险(SAD 和 IDD)。

DP 的关键特征在于,它将隐私定义为使用参数 ε 的可量化度量,而不是作为二元条件,例如个人的数据是否被泄露。本质上,ε 决定了添加到计算中的噪声量,因此可以将其视为平衡隐私和效用的调节旋钮。可以调整每个差分隐私分析,以提供更多或更少的隐私。

斯瓦拉的疑问: 这种保证如何在软件系统中实现?DP 如何应用?

差分隐私算法或 DP 机制是随机化算法,它们在关键点添加噪声。拉普拉斯机制可用于使聚合查询(例如,计数、总和、均值等)具有差分隐私性。这使用以 0 为中心并以 1/ε 缩放的拉普拉斯概率分布来对随机噪声进行采样。通过添加获得的噪声来扰动真实值会导致掩蔽响应。

 

一个简单的差分隐私机制如何实现差分隐私?

假设阿莎医院为药物成瘾患者提供咨询。医院维护通过医疗保健应用程序收集的此类患者的数据。现在,假设贝塔尔(可以查询此数据库的人)想知道斯瓦拉是否正在接受此类咨询。贝塔尔可以精心设计多个查询作为差分攻击的一部分,以便他们将斯瓦拉的咨询状态揭示为“是”或“否”。例如,贝塔尔使用 COUNT 查询,结果为 30(即,30 人正在接受咨询服务)。如果排除斯瓦拉的名字的第二个 COUNT 查询的响应是 29,那么贝塔尔可以得出结论,斯瓦拉正在接受咨询,因此对药物成瘾。如果第二个 COUNT 查询结果是 30,贝塔尔会得出相反的结论。

使用具有拉普拉斯机制的交互式 DP 设置(图 11)意味着贝塔尔将始终收到嘈杂的结果。结果可能以 29 或 30 为中心,但它可能会返回诸如 28 或 31 的值,甚至以更小的概率返回 27 或 32。因此,贝塔尔很难确定真实答案是 29 还是 30。这回到了达莱纽斯的概念,即尽管可以访问数据库,但贝塔尔对斯瓦拉是否正在接受咨询的了解并没有改变,因为嘈杂的响应并没有增加他对先前知识的了解。

有许多机制和相关算法可以代替拉普拉斯机制使用:例如,指数机制、私有乘法权重算法或乘法权重指数算法。借助这些机制,基于 DP 的软件系统是可能的,但存在实际挑战:例如,如果相同的查询必须始终收到相同的嘈杂响应,那么它需要查找历史响应日志。不会发生信息泄露,因为答案保持不变,但是日志查找在空间和时间方面可能很昂贵。

 

如果贝塔尔提出的查询在结构上与他之前提出的查询不同但等效,该怎么办?

建立两个查询的等效性已知在计算上是困难的。因此,虽然 DP 比传统的隐私保护方法有若干优势,但也存在一定的局限性。

到目前为止,本文讨论了标准 DP 模型,其中数据馆长是可信的;但是,数据馆长可能会被泄露,因此成为不可信的来源。这需要将 DP 模型从 SDP(标准差分隐私)转变为 LDP(本地差分隐私)。

在 SDP 模型(图 14)中,馆长是受信任的,并且噪声被注入到最终用户在其上执行分析的原始数据库中。在 LDP 模型(图 15)中,馆长是不可信的,并且噪声在本地注入 - 在每个数据主体的个人级别 - 并且此类扰动数据由不可信的馆长聚合。这样,隐私控制权就掌握在数据主体手中。

Privacy of Personal Information: Going incog in a goldfish bowl

 

Privacy of Personal Information: Going incog in a goldfish bowl

此外,随着 GDPR(通用数据保护条例)和 CCPAA(加州消费者隐私法案)等隐私法规的出台,大型组织使用 LDP 模型来避免因滥用存储敏感用户数据而引起的责任。因此,就信任假设而言,LDP 更具吸引力,可以部署在基于 DP 的系统中。然而,使用 LDP 发布的统计信息的效用比 SDP 差,因为在 LDP 模型中,扰动发生在本地,在每个人的末端,导致添加更大的噪声。

该模型的一个后果是没有单一的未扰动数据源。因此,SDP 和 LDP 之间的差距可以解释为 SDP 中的“高信任假设和高实用性”,以及 LDP 中的“较低信任假设和较低实用性”。最近的一些研究利用密码学原语来弥合 SDP 和 LDP 之间的信任-实用性差距,以兼得两者之长。

图 16 显示,SDP 可以实现高实用性(较低误差),而 LDP 不依赖于受信任的馆长,并且实现较低的实用性(高误差)。目标是在 LDP 更实际的假设下实现 SDP 的实用性。密码学原语的使用开辟了一个新的研究方向:将 DP 发展成为一种有前景的隐私保护技术。21

Privacy of Personal Information: Going incog in a goldfish bowl

 

行业展望

DP 作为一种技术,在许多应用领域中可以发挥更广泛的作用,包括网络物理系统(图 17),例如智能电网系统、医疗保健系统、物联网 (IoT)、自动驾驶汽车系统等。例如,在智能电网系统中,电力供应商使用智能电表记录和维护家庭能源消耗信息。此信息可以揭示有关家庭生活方式和其他细节的许多信息,滥用可能会侵犯消费者的隐私。因此,有必要将隐私保护技术纳入此类系统。同样,对于医疗保健和医疗系统,物联网设备收集的数据(例如血压、血糖水平,有时甚至是位置详细信息)也需要以隐私感知的方式获取。

Privacy of Personal Information: Going incog in a goldfish bowl

科技巨头在各种应用服务中使用 DP。Microsoft 使用 LDP 来保护 Windows 遥测等应用程序中的用户隐私。Apple 使用 LDP 来保护给定时间段内用户活动的隐私,同时仍然获得有助于提高 QuickType 和表情符号建议等功能的智能性和可用性的见解。Google 的 RAPPOR(随机可聚合隐私保护序数响应)系统集成在 Chrome 中,以隐私感知的方式获取有关不需要的软件如何劫持用户设置的数据。IBM 和 Google 提供了用于以 DP 感知的方式执行机器学习任务的库。

尽管这些公司已在多个应用程序中使用了 DP,但研究人员质疑 DP 的此类实现是否在实践中提供了足够的隐私保证。将 DP 应用于记录级数据收集或发布需要采用大量噪声以确保安全的 ε。如果 ε ≤ 1,则 DP 输出的分析效用可能很差。2

解决此问题的一种方法可能是使用非常大的 ε 值来缓解实用性问题。例如,据报道,Apple 在 MacOS 中使用 ε = 6,甚至在 iOS 10 beta 版本中使用 ε = 43,而在 RAPPOR 中,Google 使用的 ε 高达 9。这表明 DP 在实践中的适用性仍然是一个挑战,因为对于如此大的 ε 值,DP 的隐私保证大大降低。9

 

进一步讨论

对数据隐私的需求已从数据发布的标准用例扩展到隐私驱动的分析。在这里,DP 获得了极大的关注,因为它提供了数学保证。但是,将 DP 理论映射到实践中存在挑战。

 

理想的 DP 设置是什么?

特定用例的理想 DP 设置是能够减轻敏感数据泄露的威胁和风险,同时保持数据效用高的设置。对隐私的要求始终取决于上下文。当数据控制者是受信任的实体时,可以使用 SDP 模型;如果数据控制者是不可信的,则 LDP 模型是合适的。在这两种情况下,不同的 DP 机制都可以防止恶意数据分析师泄露敏感信息。因此,根据用例及其对隐私与效用的要求,可以选择合适的 DP 设置。

 

哪种 DP 机制是正确的?

没有通用的 DP 机制对所有用例都有效。拉普拉斯机制只能用于数字查询,而指数机制可以处理查询中的数字和分类数据。因此,机制的适用性因用例和数据类型而异。也就是说,许多 DP 算法都适用于特定的用例。正在提出新的算法,这些算法不符合精确的数学定义,因此被称为“几乎差分隐私”。

 

如何选择 ε 的值?

ε 的值可用于确定隐私级别。ε 的值越小,隐私性越好,但结果的准确性可能会受到影响。DP 研究人员认为,从隐私的角度来看,大于 6 的 ε 可能不好。12 虽然这当然是一个很好的目标,但考虑到用例的细微差别,通常可能无法实现。此外,ε 的选择可能因应用程序而异,具体取决于该上下文中对隐私的需求。一般来说,诸如“ε 的哪个值是合适的?”和“多少隐私才足够?”之类的问题仍然没有答案。对此没有简单的指南,最佳实践尚未发展起来。

 

何时应该停止使用 DP?

隐私损失会累积20(即,对于每个新查询,随着有关敏感数据的更多信息的发布,隐私保证会降低)。这意味着,在一定数量的查询之后,DP 的应用不提供任何隐私保证。理想情况下,隐私损失应该很小,以实现强大的隐私保证。因此,为了减轻不断增长的隐私损失的风险,您可以强制执行由隐私预算表示的最大隐私损失。每个查询都可以被视为隐私费用,该费用会产生增量隐私损失。如果查询数量超过此隐私预算,则您可以停止回答查询,从而停止 DP。

为了避免达到隐私预算限制,您可以尝试使大多数查询的隐私费用几乎为零。但是,参数的选择通常意味着非常嘈杂的响应,因此数据效用可以忽略不计。因此,由于隐私或实用性考虑,DP 可能不适用于长期运行的系统。

 

新兴技术

许多国际组织都提倡将隐私作为一项基本要求。其中,OECD(经济合作与发展组织)为个人信息的管理提供了通用指导。它制定了某些原则,例如收集限制、数据质量、目的限制、使用限制、安全保障、公开性、个人参与和问责制。这些原则有助于在系统的生命周期内管理隐私要求。

随着系统复杂性的提高,其中存储单元和计算单元可能不是集中式的,减轻隐私泄露风险是一项挑战。此类系统基于例如 IoT 传感器、可穿戴计算设备、移动计算和智能电表,需要更强大的隐私技术和协议。此类隐私技术应考虑部署架构、系统中各个节点的计算可用性、敏感数据流和威胁模型。

斯瓦拉的疑问: 我们如何超越 k-匿名和 DP 来为复杂系统保护隐私?这些现有技术可以扩展吗?

有趣的是,这方面的研究一直在快速发展,并且正在提出不同的框架和方法。假设斯瓦拉使用的医疗保健应用程序需要提供疾病预测功能。此功能可能对斯瓦拉有帮助;但是,使用它需要报告症状。根据症状,该应用程序将使用来自所有订阅用户的输入来训练预测性机器学习模型。由于此敏感信息正在被存储和处理,斯瓦拉和其他患者必然会产生严重的隐私问题。诸如联邦学习之类的技术可以应用于此处,以获得隐私和效用的最佳效果。

为了构建用于疾病预测的全局模型,同时保护隐私,在每个用户移动设备上本地驻留的数据上训练本地模型。每个用户设备将学习到的模型参数发送到云服务器,在云服务器上执行聚合以构建全局模型。此学习到的全局模型被推送到每个用户的移动设备以进行预测。这种本地学习和改进模型,然后推送这些更新以集中构建全局模型,并将全局模型推送回本地使用,可能会继续进行。

请注意,数据存储是本地的;这使用户可以控制其数据,而计算发生在远程服务器中。因此,在这种设置中进行学习可以通过发送模型参数而不是将用户数据发送到中央计算服务器来实现隐私。这种简单的联邦学习架构(图 18)也有助于实现前面提到的一些 OECD 隐私原则。

Privacy of Personal Information: Going incog in a goldfish bowl

这些分布式架构已随着 IoT 数据分析而进一步扩展。例如,在边缘计算中,繁重的计算任务被卸载到边缘节点,而客户端设备(例如 IoT 传感器和智能设备)被分配了一个轻量级任务,其输出随后用于在边缘节点执行繁重的任务。在这里,正在提出 LDPO(本地差分隐私混淆)框架,以确保数据隐私并保证边缘计算的数据效用。

LDPO 框架的基本方法是添加噪声以防止私人信息泄露。但是,添加噪声可能会降低数据效用,这就是为什么提出了基于 LDP 的数据提炼模型。这限制了个人数据的收集,同时仍最大程度地提高了数据效用。

LDPO 框架基于以下组件,这些组件涉及使用数据最小化来学习数据的最紧凑和最有用的特征,并使用 LDP 扰动这些已识别的特征以获得隐私保证。此外,这些特征使用不同的哈希函数匿名化为 k 位字符串,以便转换产生唯一的字符串。最后,数据被传输到边缘服务器,在边缘服务器上,使用哈希函数执行特征重建和分布估计以进行数据重建,从而防止敏感属性被暴露。

假设斯瓦拉参加了一项研究,其中使用可穿戴健康设备收集了她的健康参数。如图 19 所示,LDPO 框架保护了斯瓦拉的个人数据,并有助于实现一些 OECD 原则。除了联邦学习类型的分布式架构外,FHE(全同态加密)和 SMPC(安全多方计算)是可以用于对数据进行私有计算的密码学技术(图 20)。

Privacy of Personal Information: Going incog in a goldfish bowl

 

Privacy of Personal Information: Going incog in a goldfish bowl

FHE 是一种加密方案,它使分析函数可以直接在加密数据上运行,同时产生与在明文上执行函数相同的加密结果。如果阿莎医院要使用 FHE 进行疾病预测,斯瓦拉的记录将在她的设备本地进行同态加密,并发送到云服务器进行处理。在云中运行的预测模型的结果也将采用加密形式,该形式将发送到斯瓦拉的设备。斯瓦拉将能够解密响应,而包括云管理员在内的任何人都将无法了解有关斯瓦拉病情的信息。尽管从安全和隐私的角度来看,这令人兴奋,但在当前的技术水平下,FHE 计算的运行速度比等效的明文计算慢约一百万倍。

即便如此,这已经比 FHE 诞生时最初的万亿倍减速有了很大的改进。如今,存在 FHE 方案的多个开源实现,并且鉴于 FHE 对云计算的潜在好处,正在努力开发更高效的实现,以及标准化 FHE。

或者,SMPC 允许多方对其私有数据执行计算,以评估共同感兴趣的函数:SMPC 非常适用于机器学习,因为它允许公司提供其模型以对客户的私有数据执行推理,同时确保最大程度的隐私。

例如,阿莎医院医疗保健应用程序的中央服务器可以托管在云中,医院的每位注册患者(包括斯瓦拉)在其设备上都装有医疗保健应用程序。使用 SMPC,云服务提供商可以通过安全地共享患者数据并将安全计算的结果(例如疾病预测)发送回患者来执行训练有素的分类模型。

人们已经了解多种 SMPC 技术有一段时间了;但是,其中许多技术都涉及大量的消息传递开销。研究正在进行中,以开发廉价、高效且有效的 SMPC 技术。还尝试明智地结合 SMPC 和 FHE 技术,以提出具有可接受的时间和通信复杂性的混合方案。

 

结论

随着世界信息现在以数字形式重塑,个人信息的隐私已成为个人和组织都至关重要的问题。组织必须了解和解决与任何涉及数据的活动相关的隐私问题。本文解释了虚构的阿莎医院如何应用各种隐私保护技术。每种技术都有不同的优点和缺点,具体取决于上下文(用例)。目前还没有万能的解决方案——也就是说,没有通用的方法可以保证隐私——但是使用最先进的隐私保护技术可以在很大程度上避免隐私泄露造成的潜在损害。

隐私意识强的斯瓦拉了解她持有的数据的价值以及保护数据的必要性。另一方面,遵循隐私原则并在其运营中使用 k-匿名和 DP 等隐私保护技术的组织可以抵消像贝塔尔这样心怀恶意的人。隐私的承诺不仅限于这两种技术,还扩展到联邦学习、LDPO 和 FHE 等新方法。

 

致谢

本文作为 印度小型图系列(2021 年)中的第一个小型图发布。小型图的想法最初由 Mathai Joseph 教授提出,并在与 印度执行董事 Hemant Pande 以及 印度学习倡议委员会主席 Rajeev Shorey 协商后进一步发展。我们感谢我们原始小型图的审稿人:斯坦福大学教授 John Mitchell;本-古里安大学教授 Yuval Elovici;以及 TCS Research 首席科学家 Sitaram Chamarty,感谢他们宝贵且建设性的建议。我们还要感谢 TCS 人才发展专家 Freya Barua,感谢她在语言编辑和内容定位方面的专业帮助。

 

参考文献

1. Aggarwal, G., Feder, T., Kenthapadi, K., Motwani, R., Panigrahy, R., Thomas, D., Zhu, A. 2005. k-匿名性的近似算法。《隐私技术杂志》(11 月)。

2. Bambauer, J., Muralidhar, K., Sarathy, R. 2014. 愚人金:对差分隐私的图解批判。《范德比尔特娱乐与技术法学刊》16(4), 701-755;https://scholarship.law.vanderbilt.edu/cgi/viewcontent.cgi?article=1207&context=jetlaw

3. Bayardo, R.J., Agrawal, R. 2005. 通过最佳 k-匿名化实现数据隐私。载于《第 21 届 IEEE 国际数据工程会议论文集》(4 月),217-228;https://dl.acm.org/doi/10.1109/ICDE.2005.42

4. 大英百科全书。印度人民:民族群体;https://www.britannica.com/place/India/People

5. Chen, R.J., 等人。2021. 医学和医疗保健机器学习中的合成数据。《自然生物医学工程》5.6, 493-497。

6. Ciriani, V., Di Vimercati, S.D.C., Foresti, S., Samarati, P. 2008. k-匿名数据挖掘:一项调查。载于《隐私保护数据挖掘》,编辑:C.C. Aggarwal 和 P.S. Yu, 105-136。波士顿:Springer;https://link.springer.com/chapter/10.1007/978-0-387-70992-5_5

7. Cormode, G. 2011. 个人隐私与群体隐私:学习攻击匿名化。载于《第 17 届 SIGKDD 国际知识发现与数据挖掘会议论文集》,1253-1261;https://dl.acm.org/doi/10.1145/2020408.2020598

8. Dalenius, T. 1977. 统计泄露控制方法论。《统计学杂志》15, 429?444。

9. Domingo-Ferrer, J., Sánchez, D., Blanco-Justicia, A. 2021. 差分隐私的局限性(及其在数据发布和机器学习中的误用)。《 通讯》64(7), 33?35;https://dl.acm.org/doi/10.1145/3433638

10. Dwork, C., McSherry, F., Nissim, K., Smith, A. 2006. 在私有数据分析中校准噪声以适应灵敏度。载于《第三届密码学理论会议论文集》,265-284;https://dl.acm.org/doi/10.1007/11681878_14

11. Gavison, R. 1980. 隐私和法律的界限。《耶鲁法学杂志》89(3), 421-471;https://www.jstor.org/stable/795891

12. Greenberg, A. 2017. Apple 的一项关键隐私保护措施如何不足。《连线》(9 月 15 日);https://www.wired.com/story/apple-differential-privacy-shortcomings/

13. Kisilevich, S., Rokach, L., Elovici, Y., Shapira, B. 2009. k-匿名性的高效多维抑制。《IEEE 知识与数据工程汇刊》22(3), 334-347;https://ieeexplore.ieee.org/document/4840348

14. Lodha, S., Thomas, D. 2007. 概率匿名性。载于《第一届 SIGKDD 隐私、安全和可信性 KDD 国际会议论文集》,56-79;https://dl.acm.org/doi/10.5555/1793474.1793480

15. Meyerson, A., Williams, R. 2004. 最优 k-匿名性的复杂性。载于《第 23 届 SIGMOD-SIGACT-SIGART 数据库系统原理研讨会论文集》,223-228;https://dl.acm.org/doi/abs/10.1145/1055558.1055591

16. Nissenbaum, H. 2004. 作为情境完整性的隐私。《华盛顿法律评论》79(1), 119-158;https://digitalcommons.law.uw.edu/wlr/vol79/iss1/10/

17. Samarati, P., Sweeney, L. 1998. 披露信息时保护隐私:k-匿名性及其通过泛化和抑制的实施。技术报告。SRI 国际;http://www.csl.sri.com/papers/sritr-98-04/

18. Stokes, K., Torra, V. 2012. 重新识别和 k-匿名性:图中泄露风险的模型。《软计算?基础、方法和应用的融合》16(10), 1657-1670;https://dl.acm.org/doi/10.1007/s00500-012-0850-4

19. Sweeney, L. 2002. k-匿名性:一种保护隐私的模型。《国际不确定性、模糊性和基于知识的系统杂志》10(5), 557-570;https://dl.acm.org/doi/10.1142/S0218488502001648

20. Ullman, J. 2016. 使用差分隐私回答 n2+o(1) 计数查询很难。《SIAM 计算杂志》45(2), 473-496;https://epubs.siam.org/doi/10.1137/130928121

21. Wagh, S., He, X., Machanavajjhala, A., Mittal, P. 2021. DP-密码学:在新兴应用中结合差分隐私和密码学。《 通讯》64(2), 84-93;https://dl.acm.org/doi/10.1145/3418290

 

Sutapa Mondal 是塔塔咨询服务有限公司 (TCS) 的研究员。她在网络安全和隐私实验室从事数据隐私和安全领域的工作。她的研究兴趣主要集中在云和服务运营领域中具有隐私意识的系统。Sutapa 毕业于印度德里信息技术学院,获得计算机科学技术硕士学位,专业为数据工程;毕业于巴纳斯塔利大学,拉贾斯坦邦,获得信息技术技术学士学位。可以通过 [email protected]. 联系她。

Mangesh Gharote 是塔塔咨询服务有限公司 (TCS) 的高级科学家。他的研究中心围绕隐私和安全意识资源管理,尤其是在云计算和服务运营领域。Mangesh 毕业于印度理工学院孟买分校,获得运营管理博士学位和工业工程与运筹学硕士学位。可以通过 [email protected] 联系他。

Sachin P. Lodha 是塔塔咨询服务有限公司 (TCS) 的首席科学家,并领导其网络安全和隐私研究。他对隐私及相关主题特别感兴趣。他在该领域的努力促成了多项屡获殊荣的创新。他拥有印度理工学院孟买分校的技术学士学位,以及罗格斯大学的计算机科学硕士和博士学位。可以通过 [email protected] 联系他。

 

版权所有 © 2022 归所有者/作者所有。出版权已授权给 。

acmqueue

最初发表于 Queue vol. 20, no. 3
数字图书馆 中评论本文





更多相关文章

Mark Russinovich, Cédric Fournet, Greg Zaverucha, Josh Benaloh, Brandon Murdoch, Manuel Costa - 机密计算证明
证明是用于完整性和隐私的强大工具,使验证者能够委托计算并仍然验证其正确执行,并使证明者能够保持计算细节的私密性。CCP 和 ZKP 都可以实现可靠性和零知识,但存在重要差异。CCP 依赖于硬件信任假设,这会产生高性能并为证明者提供额外的机密性保护,但对于某些应用程序来说可能是不可接受的。CCP 通常也更易于使用,尤其是对于现有代码,而 ZKP 会带来大量的证明者开销,这对于某些应用程序来说可能是不切实际的。


Raphael Auer, Rainer Böhme, Jeremy Clark, Didem Demirag - 央行数字货币的隐私格局
随着世界各地的中央银行转向数字化现金,隐私问题需要提到首位。所采取的路径可能取决于每个利益相关者群体的需求:具有隐私意识的用户、数据持有者和执法部门。


Kallista Bonawitz, Peter Kairouz, Brendan McMahan, Daniel Ramage - 联邦学习和隐私
集中式数据收集可能会使个人面临隐私风险,如果数据管理不当,组织将面临法律风险。联邦学习是一种机器学习设置,其中多个实体在中央服务器或服务提供商的协调下协作解决机器学习问题。每个客户端的原始数据都本地存储,不交换或传输;相反,使用旨在立即聚合的重点更新来实现学习目标。


Mark Russinovich, Manuel Costa, Cédric Fournet, David Chisnall, Antoine Delignat-Lavaud, Sylvan Clebsch, Kapil Vaswani, Vikas Bhatia - 迈向机密云计算
尽管现代云的发展在很大程度上是由规模经济驱动的,但也提高了安全性。大型数据中心提供聚合的可用性、可靠性和安全保证。确保操作系统、数据库和其他服务具有安全配置的运营成本可以在所有租户之间分摊,从而使云提供商能够聘请负责安全的专家;这对于较小的企业来说通常是不可行的,在较小的企业中,系统管理员的角色通常与许多其他角色混为一谈。





© 保留所有权利。

© . All rights reserved.