大数据风靡一时;使用大型数据集有望为我们提供新的视角,来解答过去难以或不可能回答的问题。在医学和社会科学等领域尤其如此,在这些领域可以收集和挖掘大量数据,以找到变量之间有洞察力的关系。然而,这些领域的数据涉及人类,因此引发了物理学或天文学等领域不会面临的隐私问题。
当研究人员尝试与他人共享数据时,此类隐私问题变得更加突出。数据共享是大数据科学的核心特征,允许其他人验证已完成的研究,并开展原始研究人员可能未尝试的其他调查方向。但是,共享有关人类受试者的数据会触发许多旨在保护这些受试者隐私的监管制度。例如,共享医疗数据需要遵守 HIPAA(健康保险流通与责任法案);共享教育数据会触发 FERPA(家庭教育权利和隐私法案)的要求。这些法律要求,为了普遍共享数据,数据必须经过去标识化或匿名化(请注意,就本文而言,这些术语可以互换使用)。虽然 FERPA 和 HIPAA 对去标识化的概念定义略有不同,但核心思想是,如果数据集中删除了某些值,则数据集中数据所属的个人将无法被识别,并且他们的隐私将得到保护。
之前的研究已经考察了这些要求在多大程度上保护了数据集中数据所属个人的身份。2 侵犯隐私的行为,例如重新识别,通常通过将来自去标识化数据集的数据与外部数据源链接来完成。通常令人惊讶的是,重新识别一个受试者所需的信息是如此之少。
最近的研究表明了去标识化的另一个方面,也许更令人担忧。这些研究表明,从去标识化数据集中得出的结论与使用原始数据集得出的结论显着不同。1 实际上,似乎去标识化的过程使得使用去标识化(因此易于共享)的数据集版本来验证从原始数据集得出的结论或进行有意义的新科学研究变得困难或不可能。这似乎使大数据社会科学处于尴尬的境地,要么拒绝隐私概念,要么接受数据无法轻易共享,这两种立场都是站不住脚的。
本文着眼于一个特定的数据集,该数据集由哈佛大学和麻省理工学院通过 edX 平台在最初一年提供的 MOOC(大规模开放在线课程)生成。它考察了该数据集的去标识化过程中哪些方面导致其发生显着变化,并提出了一种不同的去标识化方法,该方法显示出允许共享和隐私的希望。
去标识化数据集的第一步是确定该数据集的匿名化要求。在本特定数据集的去标识化过程中使用的隐私概念受 FERPA 指导,FERPA 要求删除个人身份信息,例如姓名、地址、社会安全号码和母亲的娘家姓。FERPA 还要求其他信息,单独或组合使用,不得“合理确定”地识别任何学生。
为了满足这些隐私规范,HarvardX 和 MITx 研究团队(在两所机构的总法律顾问的指导下)选择了k-匿名化框架,该框架要求数据集中的每个个体都具有与数据集中至少 k-1 个其他个体相同的身份泄露特征组合。身份泄露特征,称为准标识符,是指允许链接到其他数据集的那些特征;仅在单个数据集内有意义的信息不予考虑。
关于准标识符匿名化数据集非常重要,目的是防止重新识别个人,如果这些特征与共享相同特征的外部数据链接,则可能实现重新识别。图 1 中的示例说明了如何以允许重新识别的方式组合两个数据集。2
在 edX 数据集中,准标识符是课程 ID、教育程度、出生年份、性别、国家/地区和论坛帖子数量。论坛帖子数量被认为是准标识符,因为该论坛是一个公开访问的网站,可以对其进行抓取,以便将用户 ID 与他们的论坛帖子数量链接起来。课程 ID 被认为是准标识符,因为课程的唯一组合可能使学生在论坛中发布的个人身份信息与 edX 数据集链接起来。
在这种情况下,k-匿名化中所需的 k 值设置为 5,这是基于美国教育部隐私技术援助中心声称“统计学家认为单元格大小为 3 是绝对最小值”,而 5 到 10 的值甚至更安全。k 值越高,隐私标准越严格,因为需要更多的人具有给定的身份泄露特征组合。3
请注意,这并不是声称将数据集去标识化为 k = 5 的隐私标准可以保证数据集中没有人会被重新识别。相反,选择此隐私标准是为了允许合法共享数据。
有两种技术可以实现 k-匿名数据集:泛化和抑制。当粒度值组合起来创建包含更多记录的更广泛类别时,就会发生泛化。这可以针对数值变量(例如,将 20、21 和 22 岁组合成 20-22 岁的更广泛类别)和分类变量(例如,将位置数据从“波士顿”泛化为“马萨诸塞州”)来实现。当从数据集中完全删除违反匿名标准的记录时,就会发生抑制。
泛化和抑制技术在匿名化过程中引入了不同种类和程度的失真。依赖抑制可能意味着将删除数据集中的大量记录。当值与数据的原始分布不成比例地消除时,仅抑制的去标识化也会扭曲数据集的完整性,从而导致结果分析失真。
另一方面,泛化值通常不如粒度值强大——例如,可能很难在泛化的数值属性上拟合线性回归线。此外,虽然仅泛化的去标识化使非准标识符字段保持不变,但准标识符可能会被泛化到几乎无法得出关于它们与其他字段之间关系的结论的程度。最后,由于泛化应用于整个列,因此它会降低整个数据集的质量,而抑制会逐条记录地降低数据集的质量。
2014 年用于公开 edX 数据的去标识化过程采用了针对 k-匿名化的“抑制重点”方法。在这种方法中,首先将国家/地区的名称泛化为地区或大陆名称,然后将日期-时间戳转换为日期戳,最后抑制在这些泛化之后不是 k-匿名的任何现有记录。在此过程中,自动抑制了声称出生日期在 1931 年之前的记录(这似乎不太可能是正确的)。
Daries 等人 2014 年对 edX 数据的研究证实,抑制重点方法倾向于扭曲去标识化列的平均值,而泛化重点方法倾向于扭曲去标识化列之间的相关性。1
Daries 等人表明,去标识化通过抑制稀有(通常较高)参与程度的记录来扭曲课堂参与度的衡量标准。我们继续调查摘要统计信息的失真是在数据集中何处引入的。直观地看,每当一行被泛化或抑制时,就会引入失真。在 k-匿名下,这仅当行的准标识符值组合出现次数少于 k 次时才会发生。如果稀有准标识符值倾向于与高分或参与度相关联,那么去标识化数据集的平均分数或参与度预计会低于原始数据集。
事实上,我们发现准标识符特征的出现频率与数值属性相关时,最有可能在该数值属性中产生失真。具体而言,我们通过三种方式使用 edX 数据证实了这一假设
• 随着隐私要求的提高(即,k 增加),诸如平均分数之类的数值属性中的失真会增加,如图 2 所示。随着更多行被抑制,引入更多失真这一事实与以下假设一致:随着隐私标准的提高,稀有准标识符值与高分的关联将导致数据集的更多失真。
• 删除其值的出现频率与数值属性高度相关的准标识符列会导致数值属性中的失真量减少。这支持了以下假设:准标识符值频率与数值属性之间存在相关性,通过去标识化引入了数据集的失真。
• 随着准标识符值出现频率与其他数值属性之间的相关性手动增加,更多失真被引入到这些属性中。这也支持了以下假设:准标识符值频率与数值属性之间相关性的幅度会增加去标识化对这些属性的失真。
以上分析表明,准标识符特征与数值属性之间的关联可能会在去标识化期间通过抑制引入均值失真。因此,我们考虑泛化在减轻去标识化期间失真方面的潜在作用。
由于论坛帖子数量是其值频率与分数相关性最高的准标识符,因此我们首先探讨泛化此属性的效果。如图 3 所示,随着 bin 大小的增加(例如,从 0,1,2,3 到 0-1,2-3 等值),需要抑制的行数会减少。此外,随着 bin 大小的增加,平均分数接近真实值(0.045),这表明泛化可能通过防止与较稀有准标识符值相关的记录被抑制来减轻失真。
然而,泛化可能会使从数据集中得出统计结论变得困难。可以通过计算每个 bin 中预泛化值的加权平均值来在泛化后维护列的某些统计属性,例如其均值。这些 bin 平均值的平均值将等于预泛化值的真实均值。
然而,这种解决方案无法轻易保留泛化值之间的二维关系。表 1 说明了论坛帖子数量与各种数值属性的相关性如何随着论坛帖子 bin 大小的增加而变得越来越失真。
因此,遇到了之前讨论的泛化和抑制之间的根本权衡:尽管强调抑制的方法可能会在准标识符频率与数值属性之间存在相关性的属性中引入偏差,但泛化也可能会扭曲数据集中固有的相关关系和其他多维关系。
对泛化的一种潜在改进可能是更均匀地分布每个 bin 中的记录数,对于表示良好的值使用小 bucket 大小,而对于表示较差的值使用较大的 bucket 大小。
当论坛帖子数量被泛化为大于 10 的值的五个一组时(例如,1,2,3,...,11-15、16-20 等),论坛帖子数量与其他特征之间的相关性比使用恒定 bin 宽度的泛化方案的失真更小。这表明,优化每个 bin 中相等数量的记录可能在效用损失和数值分析(例如,不同变量之间的相关性)中引起的失真之间实现折衷。使用此泛化框架,现在让我们更详细地探讨其与抑制的关系。
为了在抑制和泛化引入的失真之间达成折衷,我们首先要量化抑制和泛化之间的关系。随着泛化的增加,可以防止多少抑制?并且随着泛化的增加,这种变化是否以恒定速率变化?
每个准标识符都单独进行 bin 处理,以确保每个 bin 中的最小记录数,称为 bin 容量。将 bin 容量从 1,000 增加到 5,000 会大大减少必须抑制的记录数,但随着 bin 容量继续增加,这种改进会逐渐减弱。此外,在图 4 中,随着 bin 大小的增加,线条斜率的减小表明,选择的 bin 容量越大,更大程度匿名化的边际成本越小。
然后,我们量化了在每个 bin 容量选择下引入的失真。专注于 bin 容量为 3k、5k 和 10k 的 5-匿名集合,我们将生成的去标识化数据集与原始集合在简单注册课程的学生百分比、注册并查看(定义为查看不到一半的材料)的学生百分比、探索(定义为查看超过一半的材料但未完成课程)的学生百分比以及获得认证(完成材料)的学生百分比方面进行比较。这种比较显示了偏爱抑制的去标识化方案中最大的差异;使用抑制重点去标识化方法,结果最多偏差 20%。
如图 5 所示,使用 3,000 条条目的 bin 容量的泛化方案产生的参与度分布比仅抑制方法更接近原始分布。虽然在某些类别中,失真很大(例如,春季学期 MITx/7.00x 的认证率),但在其他类别中,失真更接近原始值。
如图 6 所示,通过使用至少 5,000 条条目的 bin,情况会好得多。去标识化集合中的参与度分布与原始数据集中的几乎相同。衡量标准之间的最大差异小于三个百分点;大多数都在百分之一以内。
如图 7 所示,移动到 10,000 的 bin 容量会产生更好的结果。虽然有一两个案例的结果相差几乎三个百分点,但在大多数情况下,差异是百分之几。
正如预期的那样,某些属性均值失真的减少伴随着准标识符字段与数值属性之间的相关性失真的增加,因为 bin 容量增加。图 8 中的表格显示了在各种 bin 容量下论坛帖子数量与数值属性之间的相关性。对应于 bin 容量为 1 的列表示仅抑制方法。
令人鼓舞的是,我们观察到 bin 容量为 3,000 生成的数据集的相关性接近原始的、未去标识化的数据集的相关性,如图 8 所示。即使 bin 容量为 3,000 在最小化课堂参与度失真方面没有产生最佳结果,但这些结果可能表明存在一个 bin 容量,该容量可以在单维和多维关系之间的失真之间产生可接受的平衡。
鉴于这些结果,自然会产生一个问题,即是否可以为每个准标识符选择不同的 bin 容量,以便进一步最小化失真。
edX 数据集包含两个数值、可泛化的准标识符值:出生年份和论坛帖子数量。不同 bin 容量组合的实验产生了表 2 中显示的结果。此表说明了在各个泛化量下必须抑制的记录数。尤其值得注意的是,每个准标识符的泛化具有不均匀的效果:与出生年份的 bin 容量相比,随着论坛帖子数量的 bin 容量增加,所需的抑制值数量下降得更快。
随着准标识符值的数量增加,对此类泛化与抑制之间权衡的分析变得呈指数级增长地困难。使用蛮力方法计算抑制记录的数量将需要过多的计算时间,对于像 edX 这样包含六个准标识符字段的数据集。用于这些计算的近似算法的开发将使研究人员能够快速确定接近最优的泛化方案,从而在泛化与抑制引入的失真之间取得理想的平衡。这是需要进一步研究的领域。
只要围绕涉及人类受试者的大数据集的法规要求在共享这些数据集之前达到一定程度的匿名性,去标识化技术将继续重要。虽然有一些迹象表明监管机构可能正在重新思考去标识化与确保隐私之间的联系,但没有迹象表明这些法规会在短期内发生变化。目前,共享将需要去标识化。
但是去标识化很难。我们早就知道,很难确保数据集不允许随后重新识别个人,但我们现在发现,在不对数据集引入偏差的情况下对数据集进行去标识化也很困难,这些偏差可能会导致虚假结果。
记录抑制和数据泛化的结合为解决第二个问题提供了一条有希望的途径,但似乎没有灵丹妙药;我们最好的结果是通过尝试多种不同的泛化、大小调整和记录抑制组合获得的。还有更多工作要做,例如调查为不同的准标识符选择不同的 bin 容量的可能性,这可能会减轻匿名化引入的一些失真。与一年前相比,我们现在更有信心,某种形式的去标识化可能允许共享数据集,而不会将对这些共享数据集进行的分析扭曲到超出实用性的程度,但还有很多东西需要研究。
1. Daries, J. P., Reich, J., Waldo, J., Young, E. M., Whittinghill, J., Ho, A.D., Seaton, D. T., Chuang, I. 2014. 社会科学中的隐私、匿名和大数据。 通讯 57(9): 56-63。
2. Sweeney, L. 2002. k-匿名:一种保护隐私的模型。国际不确定性、模糊性和知识库系统杂志 10(5): 557-570。
3. Young, E. 2015. 在线课堂中的教育隐私:FERPA、MOOC 和大数据难题。哈佛法律与技术杂志 28(2): 549-592。
Olivia Angiuli 于 2015 年获得哈佛学院统计学和计算机科学学士学位。她于 2015 年 7 月开始在 Quora 担任数据科学家。她最终对利用大数据造福社会感兴趣。可以通过 [email protected]. 联系到她。
Joe Blitzstein 是哈佛大学统计学实践教授,其研究是统计学、概率论和组合数学的混合。他对图形模型、复杂网络和蒙特卡罗算法特别感兴趣。他获得了斯坦福大学的博士学位。可以通过 [email protected]. 联系到他。
Jim Waldo 是戈登·麦凯计算机科学实践教授、肯尼迪学院教员以及哈佛大学首席技术官。他的研究中心围绕分布式系统以及技术和政策主题,尤其是在隐私和网络安全方面。Jim 曾是 Sun Microsystems 的杰出工程师,在那里他从事 Java 编程语言和 Sun 研究实验室的各种项目。可以通过 [email protected]. 联系到他。
© 2015 1542-7730/15/0500 $10.00
最初发表于 Queue vol. 13, no. 8—
在 数字图书馆 中评论本文
Mark Russinovich, Cédric Fournet, Greg Zaverucha, Josh Benaloh, Brandon Murdoch, Manuel Costa - 机密计算证明
证明是用于完整性和隐私的强大工具,使验证者能够委托计算并仍然验证其正确执行,并使证明者能够对计算的细节保密。CCP 和 ZKP 都可以实现健全性和零知识,但存在重要差异。CCP 依赖于硬件信任假设,这产生了高性能并为证明者提供了额外的机密性保护,但对于某些应用来说可能是不可接受的。CCP 通常也更易于使用,尤其是在使用现有代码的情况下,而 ZKP 带来了巨大的证明者开销,这对于某些应用来说可能是不切实际的。
Raphael Auer, Rainer Böhme, Jeremy Clark, Didem Demirag - 央行数字货币的隐私格局
随着世界各地的中央银行转向数字化现金,隐私问题需要提到首位。所采取的路径可能取决于每个利益相关者群体的需求:注重隐私的用户、数据持有者和执法部门。
Sutapa Mondal, Mangesh S. Gharote, Sachin P. Lodha - 个人信息隐私
每次与外部服务的在线交互都会创建有关用户的数字记录和存储的数据。这些外部服务可能是信用卡交易、医疗咨询、人口普查数据收集、选民登记等。尽管表面上收集数据是为了向公民提供更好的服务,但个人隐私不可避免地面临风险。随着互联网的普及和生成的数据量不断增加,数据保护,特别是保护个人隐私,已变得尤为重要。
Kallista Bonawitz, Peter Kairouz, Brendan McMahan, Daniel Ramage - 联邦学习与隐私
如果数据管理不当,集中式数据收集可能会使个人面临隐私风险,并使组织面临法律风险。联邦学习是一种机器学习设置,其中多个实体在中央服务器或服务提供商的协调下协作解决机器学习问题。每个客户端的原始数据都本地存储,不进行交换或传输;相反,使用旨在立即聚合的重点更新来实现学习目标。