2020年,美国人口普查局将进行宪法规定的十年一次的人口和住房普查。由于普查涉及收集大量私人数据并承诺保密,因此传统上仅在高度聚合的级别发布统计数据。已发布的统计表容易受到 DRA(数据库重建攻击)的攻击,在这种攻击中,仅通过找到一组与已发布的统计表一致的微数据即可恢复底层的微数据。DRA 可以通过使用表格创建一组数学约束,然后求解由此产生的联立方程组来执行。本文展示了如何通过向已发布的表格添加噪声来解决此类攻击,从而使重建不再产生原始数据。这对 2020 年人口普查具有重要意义。
人口普查的目标是计算每个人一次,且仅一次,并在正确的位置。结果用于履行宪法要求,根据各州的人口数量在各州之间分配美国众议院的席位。
除了十年一次人口普查的主要目的外,美国国会还规定了数据的许多其他用途。例如,美国司法部使用按种族划分的街区计数来执行《投票权法案》。更广泛地说,十年一次人口普查的结果与其他数据结合使用,以帮助向州和地方组织分配超过 6750 亿美元的联邦资金。
除了收集和分发美国人民的数据外,人口普查局还负责保护调查回复的隐私和保密性。所有人口普查出版物都必须遵守美国法典第 13 篇第 9 节规定的保密标准,该标准规定,人口普查局的出版物禁止识别“任何特定机构或个人提供的数据”。本节禁止人口普查局发布受访者的姓名、地址或任何其他可能识别特定人员或机构的信息。
维护此保密要求通常构成挑战,因为许多统计数据可能会以可归因于特定实体的方式无意中提供信息。例如,如果统计机构准确地报告一个街区居住着两个人,并且该街区居民的平均年龄为 35 岁,那将构成对个人信息的不当披露,因为其中一位居民可以查找数据,减去他们的贡献,并推断出另一位的年龄。
当然,这是一个非常简单的例子。几十年来,统计机构已经了解了这种意外披露的风险,并开发了各种技术来保护数据保密性,同时仍然发布有用的统计数据。这些技术包括单元格抑制,它禁止发布来自小群体受访者的统计摘要;顶层编码,其中高于特定限制的年龄在计算统计数据之前被编码为该限制;噪声注入,其中随机值被添加到某些属性;以及交换,其中代表不同个人或家庭的记录的某些属性被交换。这些技术统称为 SDL(统计披露限制)。
自 1970 年代交互式查询系统可用性增加以来,计算机科学家开始探索统计隐私问题。目标是构建一个系统,该系统允许用户进行查询以生成摘要统计数据,而不会泄露有关个人记录的信息。出现了三种方法:审计数据库查询,以便阻止用户发出针对特定个人数据的查询;向数据库中存储的数据添加噪声;以及向查询结果添加噪声。1 在这三种方法中,添加噪声的方法被证明是最容易的,因为审计查询的复杂性随着时间的推移呈指数增长——事实上,最终被证明是 NP(非确定性多项式)困难的。8 尽管这些结果都以交互式查询系统的语言来表达,但它们同样适用于统计机构的活动,其中数据库是机密的调查回复集,而查询是该机构打算发布的统计表计划。
2003 年,Irit Dinur 和 Kobbi Nissim 表明,攻击者甚至不需要仔细构建数据库上的查询来泄露其底层的机密数据。4 即使是数量惊人的随机查询也可能泄露机密数据,因为查询结果可以组合起来,然后用于“重建”底层的机密数据。向数据库或查询结果添加噪声会降低重建的准确性,但也会降低查询的准确性。挑战在于添加足够的噪声,以保护每个人的隐私,但又不能添加过多的噪声以至于破坏数据库的效用。
随后的出版物3,6 完善了向已发布表格添加噪声以保护数据集中的个人隐私的想法。然后在 2006 年,Cynthia Dwork、Frank McSherry、Kobbi Nissim 和 Adam Smith 提出了一个正式框架来理解这些结果。他们的论文“在私有数据分析中校准噪声以适应敏感性”5 引入了差分隐私的概念。他们为数据发布给个人造成的隐私损失提供了数学定义,并提出了一种机制,用于确定任何给定级别的隐私保护需要添加多少噪声。(作者在 2016 年的密码学理论会议上获得了时间考验奖,并在 2017 年获得了哥德尔奖。)
预计 2020 年的人口普查将统计大约 3.3 亿人,他们居住在大约 850 万个街区,其中一些有人居住的街区只有一个人,而另一些街区则有数千人。在这种规模和多样性水平下,很难想象这样的数据发布可能容易受到数据库重建的影响。然而,我们现在知道,如果不实施隐私保护措施,重建实际上将对 2020 年人口普查的微数据(即未经保护的统计表的基础数据)的保密性构成重大威胁。为了帮助理解采用正式隐私方法的重要性,本文介绍了对规模小得多的统计出版物的数据库重建:一个假设的街区,其中包含分布在两个家庭中的七个人。(2010 年美国人口普查包含 1,539,183 个人口普查街区,分布在美国 50 个州和哥伦比亚特区,每个街区有一到七名居民。数据可以从 https://www2.census.gov/census_2010/01-Redistricting_File--PL_94-171/ 下载。)
即使是相对少量的约束也会导致街区居民的精确解决方案。差分隐私可以通过创造不确定性来保护已发布的数据。尽管读者可能认为重建只有七个人的街区对于整个国家来说是一个微不足道的风险,但可以使用 2010 年人口普查中提供的数据对美国几乎每个街区执行此攻击。本文的最后一节讨论了这对 2020 年十年一次人口普查的影响。
为了展示攻击,让我们考虑一个虚构的地理框架(例如,郊区街区)的人口普查,该普查由虚构的统计机构进行。对于每个街区,该机构收集每位居民的年龄、性别和种族,并发布各种统计数据。为了简化示例,这个虚构的世界只有两个种族——黑人或非裔美国人,以及白人——和两个性别——女性和男性。
统计机构被禁止发布原始微数据,而是发布表格报告。表 1 显示了虚构的统计机构发布的虚构街区的统计数据。“统计”列仅用于识别目的。
请注意,表 1 中的大量信息已被抑制——标记为 (D)。在这种情况下,统计机构的披露避免规则禁止其发布基于一两个人统计的数据。此抑制规则有时称为“三规则”,因为报告中来自少于三人的单元格被抑制。此外,已应用补充抑制以防止对小单元格进行减法攻击。
可以通过将居住在该街区的人的属性视为变量的集合来重建数据库。然后从已发布的表格中提取一组约束。数据库重建找到一组与约束一致的属性。如果统计数据具有高度约束性,那么将只有一个可能的重建,并且重建的微数据必然与用于创建原始统计出版物的底层微数据相同。请注意,必须至少有一个解决方案,因为已知该表格是从真实的数据库中制表的。
例如,统计数据 2B 表明该地理区域居住着三名男性。这家虚构的统计机构此前发布了技术规范,称其计算机在内部将每个人的年龄表示为整数。任何人的最年长验证年龄为 122 岁。14 如果我们考虑到未报告的百岁老人,并将 125 岁视为人类的最年长可能年龄,那么只有有限数量的年龄组合,具体而言
在 317,750 种可能的年龄组合中,只有 30 种组合满足中位数为 30 且平均数为 44 的约束(参见表 1)。(请注意,只要最年长可能年龄为 101 岁或以上,该表就不依赖于最年长可能年龄。)应用已发布的统计表施加的约束,这三名男性的可能年龄组合可以从 317,750 种减少到 30 种。表 2 显示了中位数为 30 且平均数为 44 的 30 种可能的年龄。
为了进行全面的重建攻击,攻击者提取所有这些约束,然后创建一个包含所有约束的单一数学模型。然后,自动化求解器可以找到满足这些约束的变量赋值。
为了继续该示例,统计数据 1A 建立了约束系统的宇宙。由于该街区包含七个人,并且每个人都有四个属性(年龄、性别、种族和婚姻状况),因此创建了 28 个变量,代表每个人的这四个属性。这些变量是 A1-A7(年龄)、S1-S7(性别)、R1-R7(种族)和 M1-M7(婚姻状况),如表 3 所示。该表显示了与 DRA 相关的变量。分类属性的编码在键中给出。
由于平均年龄为 38 岁,我们知道
A1 + A2 + A3 + A4 + A5 + A6 + A7 = 7 × 38
语言 Sugar13 用于以 SAT(可满足性)求解器可以处理的形式编码约束。Sugar 将约束表示为 s 表达式。11 例如,年龄组合方程可以表示为
; 首先定义整数变量,范围为 0..125
(int A1 0 125)
(int A2 0 125)
(int A3 0 125)
(int A4 0 125)
(int A5 0 125)
(int A6 0 125)
(int A7 0 125)
; 统计数据 1A:平均年龄为 38 岁
(= (+ A1 A2 A3 A4 A5 A6 A7)
(* 7 38)
)
一旦统计表中的约束被转换为 s 表达式,Sugar 就会使用暴力算法求解它们。本质上,Sugar 会探索变量的每种可能的组合,直到找到满足约束的组合。通过使用各种启发式方法,SAT 求解器能够快速消除许多变量赋值的组合。
布尔 SAT 问题是第一个被证明是 NP 完全的问题。9 该问题询问,对于给定的布尔公式,是否可以用 true 或 false 替换每个变量,使公式的计算结果为 true。现代 SAT 求解器在各种 SAT 问题实例中以及在相当大的实例大小范围内都能良好且相对快速地工作。
许多现代 SAT 求解器使用一种称为 CDCL(冲突驱动子句学习)的启发式技术。10 简而言之,CDCL 算法
1. 任意地为变量赋值。
2. 使用此赋值来确定公式中其他变量的值(此过程称为单元传播)。
3. 如果发现冲突,则回溯到导致冲突发生的子句,并撤销在该点之后进行的变量赋值。
4. 将导致冲突的子句的否定作为新子句添加到主公式,并从步骤 1 恢复。
此过程可以快速解决 SAT 问题,因为将冲突添加为新子句有可能避免浪费性的“重复回溯”。此外,CDCL 及其前身算法 DPLL(Davis-Putnam-Logemann-Loveland)都是可证明的完整算法:如果在给定足够的时间和内存的情况下,它们将始终返回解决方案或“不可满足”。另一个优点是,CDCL 求解器在生成所有可能的解决方案的宇宙时,会重用过去的工作。
各种各样的 SAT 求解器可供公众使用,费用极少或没有费用。尽管 SAT 求解器要求用户在使用前将问题转换为布尔公式,但 Naoyuki Tamura 的 Sugar 等程序通过自动将用户输入的数学和英语约束转换为布尔公式来促进此过程。
尽管 SAT 求解器具有启发式复杂性,但它们只能处理具有布尔变量的系统,因此 Sugar 将 s 表达式转换为更大的一组布尔约束。例如,每个年龄变量都使用一元表示法编码为 126 个布尔变量。使用此表示法,十进制值 0 被编码为 126 个 false 布尔变量,十进制值 1 被编码为 1 个 true 值和 125 个 false 值,依此类推。尽管此转换不是空间高效的,但如果整数的范围有限,则它很快。
为了编码中位年龄约束,一组数字的中位数精确定义为当数字按排序顺序排列时中间数字的值(对于数字为奇数的情况)。到目前为止,人员 1 到 7 之间没有任何区别:数字标签纯粹是任意的。为了更容易描述中位数约束,我们可以断言标签必须按年龄顺序分配。这通过引入五个约束来完成,这具有消除仅交换记录的重复答案的副作用,这种方法称为打破对称性。12
在断言标签按时间顺序排列后,我们可以约束中间人的年龄为中位数
(<= A1 A2)
(<= A2 A3)
(<= A3 A4)
(<= A4 A5)
(<= A6 A7)
(= A4 30)
此代码片段确保输出按年龄排序。此技术还在消除已交换记录的重复答案方面做得很好。
Sugar 有一个“if
”函数,允许为人口子集编码约束。回想一下,统计数据 2B 包含三个约束:有三名男性,他们的中位年龄为 30 岁,平均年龄为 44 岁。值 0 代表女性,值 1 代表男性
#define FEMALE 0
#define MALE 1
使用变量 Sn
表示人员 n
的性别,然后我们有约束
S1 + S2 + S3 + S4 + S5 + S6 + S7 = 3
这可以表示为
(= (+ S1 S2 S3 S4 S5 S6 S7) 3)
现在,使用 if
函数,可以轻松地为男性平均年龄 44 岁创建约束
(= (+ (if (= S1 MALE) A1 0) ; 男性平均年龄 = 44
(if (= S2 MALE) A2 0)
(if (= S3 MALE) A3 0)
(if (= S4 MALE) A4 0)
(if (= S5 MALE) A5 0)
(if (= S6 MALE) A6 0)
(if (= S7 MALE) A7 0)
)
(* 3 44))
表 1 转换为 164 个单独的 s 表达式,扩展到 457 行。然后,Sugar 将其转换为由 6,755 个变量组成的单个布尔公式,排列在 252,575 个子句中。此格式称为 CNF(合取范式),因为它由使用布尔 AND 运算组合的许多子句组成。
有趣的是,我们甚至可以为抑制数据创建约束。统计数据 3A 被抑制,因此我们知道假设不需要补充抑制,则有 0、1 或 2 个单身成年人。让 Mn
表示人员 n
的婚姻状况
#define SINGLE 0
#define MARRIED 1
(int SINGLE_ADULT_COUNT 0 2)
(= (+ (if (and (= M1 SINGLE) (> A1 17)) 1 0)
(if (and (= M2 SINGLE) (> A2 17)) 1 0)
(if (and (= M3 SINGLE) (> A3 17)) 1 0)
(if (and (= M4 SINGLE) (> A4 17)) 1 0)
(if (and (= M5 SINGLE) (> A5 17)) 1 0)
(if (and (= M6 SINGLE) (> A6 17)) 1 0)
(if (and (= M7 SINGLE) (> A7 17)) 1 0))
? SINGLE_ADULT_COUNT)
(>= SINGLE_ADULT_COUNT 0)
(<= SINGLE_ADULT_COUNT 2)
将约束转换为 CNF 允许使用任何可以解决 NP 完全程序的求解器来解决它们,例如 SAT 求解器、SMT(可满足性模理论)求解器或 MIP(混合整数规划)求解器。有许多这样的求解器,大多数都以所谓的 DIMACS 文件格式作为输入,这是一种用于表示 CNF 方程的标准化形式。DIMACS 格式(以离散数学和理论计算机科学中心命名)在一系列年度 SAT 求解器竞赛中得到普及。这些竞赛的结果之一是过去二十年来 SAT 求解器的速度大大提高。许多求解器现在可以在几分钟内解决具有数百万个变量和子句的 CNF 系统,尽管某些问题确实需要更长的时间。Marijn Heule 和 Oliver Kullmann 在他们 2017 年的文章“暴力破解的科学”7 中讨论了 SAT 求解器的快速发展和使用。
开源 PicoSAT2 求解器能够在 2013 年 MacBook Pro 上大约两秒钟内找到此处详细介绍的 CNF 问题的解决方案,该 MacBook Pro 配备 2.8-GHz Intel i7 处理器和 16 GB RAM(尽管该程序不受 RAM 限制),而开源 Glucose SAT 求解器可以在同一台计算机上在 0.1 秒内解决该问题。两个求解器之间的鲜明差异表明了改进的求解算法可能带来的速度提升。
PicoSAT 为 6,755 个布尔变量找到了一个令人满意的赋值。求解器运行后,Sugar 可以将这些赋值转换回构造变量的整数值。(SMT 和 MIP 求解器可以在更高的抽象级别上表示约束,但对于我们的目的而言,SAT 求解器就足够了。)
Sugar 输入以标准 CSP(约束满足问题)文件格式给出。约束必须在文件的单行中给出,但在这里我们将大多数约束分成多行以提高可读性。约束方程由描述它们编码的统计数据的注释分隔。
本文中模型的输入可在线获取,网址为 https://queue.org.cn/appendices/Garfinkel_SugarInput.txt。
存在所有可能的解决方案的解决方案空间,以解决这组约束。如果解决方案空间包含单个可能的解决方案,那么已发布的统计数据将完全揭示底层的机密数据——前提是未向微数据或表格添加噪声作为披露避免机制。如果有多个令人满意的解决方案,则会揭示所有解决方案中常见的任何元素(人员)。如果方程没有解,则已发布的统计数据集与虚构的统计机构声称它是从真实的机密数据库中制表的主张不一致,或者在该制表中存在错误。这并不意味着高质量的重建是不可能的。与其将已发布的统计数据用作一组约束,不如将它们用作多维目标函数的输入:然后可以使用另一种称为优化器的求解器来求解系统。
通常,SAT、SMT 和 MIP 求解器在找到单个令人满意的解决方案时会停止。PicoSAT 的优点之一是它可以生成 CNF 问题的所有可能解决方案的解决方案空间。然而,在这种情况下,只有一个令人满意的赋值可以生成表 1 中的统计数据。该赋值见表 4。
表 1 为解决方案空间提供了一些冗余约束:可以删除一些约束,同时保留唯一的解决方案。例如,删除统计数据 2A、2B、2C 或 2D 仍然会产生单个解决方案,但删除 2A和 2B 会将解决方案空间增加到八个令人满意的解决方案。所有这些解决方案都包含重建的微数据记录 8FBS、36FBM、66FBM 和 84MBM。这意味着即使抑制了统计数据 2A 和 2B,我们仍然可以推断出必须存在这四个微数据记录。
统计机构长期以来一直使用抑制来尝试为那些属性存在于微数据中的人提供隐私,尽管他们通常删除的统计数据是基于少量人员的统计数据。这种方法有多有效?
在表 1 中,统计数据 4A 是抑制的明显候选者——特别是考虑到统计数据 4B、4C 和 4D 已经受到抑制以避免不适当的统计披露。
删除统计数据 4A 的约束将解决方案的数量从一个增加到两个,如表 5 所示。
有三种方法可以防御数据库重建攻击。第一种是发布更少的统计数据——这是传统披露避免技术(单元格抑制、顶层编码和概括)采用的方法。第二种和第三种方法涉及添加噪声或随机性。噪声可以添加到正在制表的统计数据中,也可以添加到制表后的结果中。这里考虑每种方法。
尽管发布更少的统计数据似乎是对 DRA 的合理防御,但这种选择可能会严重限制可以发布的表格数量。一个相关的问题是,即使人口数量适中,也可能在计算上不可行地确定已发布的统计数据何时仍然识别出人口中相当一部分的个人。
此方法称为输入噪声注入。例如,每个受访者的年龄可能会随机更改少量。输入噪声注入不能阻止找到一组与已发布统计数据一致的微数据(我们称之为数据库重建),但它限制了重建的微数据的价值,因为重建的是添加噪声后的微数据。
例如,如果在人口普查的每个记录中添加 2... + 2 范围内的随机偏移量,并且重建结果是年龄为 (7, 17, 22, 29, 36, 66, 82) 或 (6, 18, 26, 31, 34, 68, 82) 的个人,则攻击者可能会考虑到这一点,但无法知道最年轻的人的真实年龄是 5、6、7、8 还是 9。随机性也可以应用于性别、种族和婚姻状况变量。显然,添加的噪声越多,隐私保护就越好,但生成的统计数据的准确性就越低。考虑到统计数据 1A,输入噪声注入可能会导致中位数为 28... 32,平均数为 36... 40。(请注意,当使用差分隐私时,注入的噪声不是从有界域中提取的,而是通常从拉普拉斯分布或几何分布中提取的。)
交换是 2010 年人口普查中使用的披露避免方法,它是一种输入噪声注入。在交换中,某些属性在记录之间交换或交换。交换的优点是它对某些类型的统计数据没有影响:如果人们仅在县内交换,那么任何县级制表都不会受到交换的影响。交换的缺点是它可能会对较低地理级别的统计数据产生重大影响,并且未交换的值不受保护。
此方法称为输出噪声注入。输入噪声注入直接将噪声应用于微数据,而输出噪声注入将输出应用于统计出版物。输出噪声注入通过消除基于 SAT 求解器的直接应用的简单方法,使数据库重建变得复杂。此外,即使构建了一组与已发布统计数据基本一致的微数据,此微数据也与收集的原始微数据有所不同。添加到表格中的噪声越多,微数据就越不同。
当噪声添加到输入数据(选项 2)或表格结果(选项 3)时,所有记录都有相同的更改概率,可以数学方式描述由此产生的隐私保护。这是差分隐私的基础。
人口普查局已宣布,它正在采用基于差分隐私的噪声注入机制,为作为 2020 年人口普查一部分收集的底层微数据提供隐私保护。以下是该决定的动机。
为 2010 年人口普查开发的保护机制基于交换。15 交换技术并非旨在保护底层数据免受 DRA 的攻击。事实上,人口普查局的政策是,交换和未交换的微数据都被视为机密数据。
2010 年人口普查发现总人口为 308,745,538 人。这些人居住在 10,620,683 个可居住街区。每个人都位于住宅单元或机构住房安排中(人口普查局称之为“集体宿舍”)。对于每个人,人口普查局制表了该人的位置,以及性别、年龄、种族和民族,以及该人与户主的关系——即每人六个属性,总共约 15 亿个属性。使用这些数据,人口普查局发布了约 77 亿个线性独立的统计数据,包括 PL94-171 重新划分选区文件中的 27 亿个、摘要文件 1 的其余部分中的 28 亿个、摘要文件 2 中的 20 亿个以及公共用途微数据样本中的 3100 万条记录。这导致每人约 25 个统计数据。鉴于这些数字和本文中的示例,很明显,理论上存在重建国家级人口普查的可能性,尽管 Sugar 和 PicoSAT 等工具可能不够强大,无法做到这一点。
为了保护人口普查受访者的隐私,人口普查局正在开发一个基于差分隐私的隐私保护系统。该系统将确保每个统计数据和相应的微数据都获得一定程度的隐私保护,同时确保生成的统计数据对于其预期目的来说足够准确。
本文解释了使用差分隐私的决定的动机。如果没有基于噪声注入的隐私保护系统,则仅使用已发布的统计数据就可以重建准确的微数据。通过使用差分隐私,我们可以添加实现人口普查局隐私要求所需的最小噪声量。未来的文章将解释该系统的工作原理。
2003 年,Irit Dinur 和 Kobbi Nissim4 表明,防止重建底层数据需要添加到数据库中的噪声量级为 Ω√n,其中 n 是数据库中的位数。实际上,许多统计机构在发布统计表时并没有添加这么多噪声。(在我们的示例中,每个记录包含 11 位数据,因此机密数据库有 77 位信息。表 3 中的每个统计数据都可以建模为四位的计数、七位的中位数和七位的平均值,总共 18 位;表 3 发布了 126 位信息。)Dinur 和 Nissim 的主要发现是,许多统计机构让自己面临数据库重建的风险。本文演示了一种进行该攻击的方法。
统计表创建了数据库重建的可能性,因为它们形成了一组约束,当从真实的机密数据库中正确制表已发布的表格时,最终只有一个精确的解决方案。限制查询的数量或特定类型——例如,通过抑制来自少量受访者的结果——通常不足以防止访问间接识别信息,因为系统拒绝回答“危险”查询本身会为攻击者提供信息。
随着过去十年计算机速度和 SAT 以及其他 NP 困难求解器的效率的显着提高,统计数据库上的 DRA 不再仅仅是理论上的危险。统计机构每年发布的大量数据产品可能会为坚定的攻击者提供足够多的信息来重建目标数据库的部分或全部,并侵犯数百万人的隐私。传统的披露避免技术并非旨在防御此类攻击。
面对数据库重建的威胁,统计机构有两种选择:他们可以大幅减少信息的发布,或者使用某种噪声注入。机构可以使用差分隐私来确定为实现其隐私保护目标而需要添加的最小噪声量,以及添加该噪声的最有效方式。
Robert Ashmead、Chris Clifton、Kobbi Nissim 和 Philip Leclerc 对本文提供了非常有用的评论。田村直之在 Sugar 的使用方面提供了宝贵的帮助。
1. Adam, N.R., Worthmann, J.C. 1989. 统计数据库的安全控制方法:一项比较研究。 Computing Surveys 21(4), 515-556); http://doi.acm.org/10.1145/76894.76895.
2. Biere, A. 2008. PicoSAT 要点. Journal on Satisfiability, Boolean Modeling and Computation 4, 75-97; https://pdfs.semanticscholar.org/7ea4/cdd0003234f9e98ff5a080d9191c398e26c2.pdf.
3. Blum, A., Dwork, C., McSherry, F., Nissim, K. 2005. 实用隐私:SuLQ 框架。载于Proceedings of the 24th SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, 128-138; https://dl.acm.org/citation.cfm?id=1065184.
4. Dinur, I., Nissim, K. 2003. 在保护隐私的同时揭示信息。载于Proceedings of the 22nd SIGMOD-SIGACT-SIGART Principles of Database Systems, 202-210; https://dl.acm.org/citation.cfm?id=773173.
5. Dwork, C., McSherry, F., Nissim, K., Smith, A. 2006. 在私有数据分析中校准噪声的灵敏度。载于Proceedings of the Third Conference on Theory of Cryptography, 265-284. Berlin, Heidelberg: Springer-Verlag; http://dx.doi.org/10.1007/11681878_14.
6. Dwork, C., Nissim, K. 2004. 垂直分区数据库上的隐私保护数据挖掘。载于Proceedings of the 24th International Cryptology Conference 3152, 528-544. Santa Barbara, California: Springer Verlag; https://www.microsoft.com/en-us/research/publication/privacy-preserving-datamining-on-vertically-partitioned-databases/.
7. Heule, M.J.H., Kullmann, O. 2017. 蛮力科学。Communications of the 60(8), 70-79; http://doi.acm.org/10.1145/3107239.
8. Kleinberg, J., Papadimitriou, C., Raghavan, P. 2000. 布尔属性审计。载于Proceedings of the 19th SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, 86-91; http://doi.acm.org/10.1145/335168.335210.
9. Kong, S., Malec, D. 2007. Cook-Levin 定理。讲座,威斯康星大学。
10. Marques-Silva, J., Lynce, I., Malik, S. 2009. 冲突驱动的子句学习 SAT 求解器。载于Handbook of Satisfiability, 131-153. Amsterdam, The Netherlands: IOS Press.
11. McCarthy, J. 1960. 符号表达式的递归函数及其机器计算,第一部分。Communications of the 3(4), 184-195; https://dl.acm.org/citation.cfm?id=367199.
12. Metin, H., Baarir, S., Colange, M., Kordon, F. 2018. CDCLSym:在 SAT 求解中引入有效的对称性破坏。载于Tools and Algorithms for the Construction and Analysis of Systems, ed. D. Beyer and M. Huisman, 99-114. Springer International Publishing; https://link.springer.com/chapter/10.1007/978-3-319-89960-2_6.
13. Tamura, N., Taga, A., Kitagawa, S., Banbara, M. 2009. 将有限线性 CSP 编译为 SAT。Contraints 14(2), 254-272; https://dl.acm.org/citation.cfm?id=1527316; http://bach.istc.kobe-u.ac.jp/sugar/.
14. Whitney, C.R. 1997. 世界最年长者 Jeanne Calment 去世,享年 122 岁。New York Times (8 月 5 日); https://nyti.ms/2kM4oFb.
15. Zayatz, L., Lucero, J., Massell, P., Ramanayake, A. 2009. 2010 年人口普查和美国社区调查五年表格数据产品的披露规避。美国人口普查局统计研究部; https://www.census.gov/srd/CDAR/rrs2009-10_ACS_5yr.pdf.
要么静态,要么回家
最终,动态系统本质上安全性较低。
Paul Vixie
https://queue.org.cn/detail.cfm?ref=rss&id=2721993
社会科学中的隐私、匿名和大数据
高质量的社会科学研究和人类受试者的隐私需要信任。
Jon P. Daries 等人
https://queue.org.cn/detail.cfm?id=2661641
实践研究:私有在线通信;系统验证亮点
计算机科学最佳研究的专家策展指南
Albert Kwon、Second、James Wilcox
https://queue.org.cn/detail.cfm?id=3149411
Simson L. Garfinkel 是美国人口普查局保密和数据访问高级计算机科学家,也是人口普查局披露审查委员会主席。
John M. Abowd 是美国人口普查局的首席科学家兼研究与方法副局长,他目前休假,担任康奈尔大学埃德蒙·埃兹拉·戴经济学教授、信息科学教授和统计科学系成员。
Christian Martindale 是杜克大学的一名高年级学生。他计划从事管理咨询或法律职业。
版权 © 2018 由所有者/作者持有。出版权已授权给 。
最初发表于 Queue vol. 16, no. 5—
在 数字图书馆 中评论这篇文章
Jinnan Guo, Peter Pietzuch, Andrew Paverd, Kapil Vaswani - 使用机密联邦学习的可信 AI
安全性、隐私性、问责制、透明性和公平性原则是现代人工智能法规的基石。经典的 FL 在设计时非常强调安全性和隐私性,但以牺牲透明度和问责制为代价。CFL 通过将 FL 与 TEE 和承诺相结合,弥合了这一差距。此外,CFL 还带来了其他理想的安全属性,例如基于代码的访问控制、模型机密性和推理期间的模型保护。机密计算的最新进展(例如机密容器和机密 GPU)意味着现有的 FL 框架可以无缝扩展以支持 CFL,且开销较低。
Raluca Ada Popa - 机密计算还是密码计算?
通过 MPC/同态加密与硬件飞地的安全计算在部署、安全性和性能方面存在权衡。关于性能,您想到的工作负载非常重要。对于简单的工作负载(例如简单的求和、低阶多项式或简单的机器学习任务),这两种方法都可以在实践中使用,但对于丰富的计算(例如复杂的 SQL 分析或训练大型机器学习模型),目前只有硬件飞地方法在许多实际部署场景中足够实用。
Matthew A. Johnson, Stavros Volos, Ken Gordon, Sean T. Allen, Christoph M. Wintersteiger, Sylvan Clebsch, John Starks, Manuel Costa - 机密容器组
此处展示的实验表明,Parma(驱动 Azure 容器实例上的机密容器的架构)增加的额外性能开销不到底层 TEE 增加的开销的百分之一。重要的是,Parma 确保了容器组所有可达状态的安全不变性,这根植于证明报告。这允许外部第三方与容器安全地通信,从而实现各种需要机密访问安全数据的容器化工作流程。公司可以在云中运行最机密的工作流程,而无需在安全要求上妥协,从而获得优势。
Charles Garcia-Tobin, Mark Knight - 利用 Arm CCA 提升安全性
机密计算具有通过将监管系统从 TCB 中移除来提高通用计算平台安全性的巨大潜力,从而减小 TCB 的大小、攻击面以及安全架构师必须考虑的攻击向量。机密计算需要在平台硬件和软件方面进行创新,但这些创新有可能增强对计算的信任,尤其是在第三方拥有或控制的设备上。机密计算的早期消费者将需要自行决定他们选择信任的平台。