开放数据在科学研究方面具有巨大的潜力,但是,在人类受试者研究中,隐私和发布高质量的开放数据之间存在 tension。管理学生隐私和学生记录发布的联邦法律表明,匿名化学生数据可以保护学生隐私。在这一标准的指导下,我们对来自 MITx 和 HarvardX 在 edX 平台上的 16 个 MOOC(大型开放式在线课程)的数据集进行了去标识化并发布。在本文中,我们展示了这些以及其他去标识化程序会不可避免地导致数据集发生变化,从而威胁到基线分析的复制和扩展。为了平衡学生隐私和开放数据的好处,我们建议关注保护隐私,而不是匿名化数据,而是扩展政策,强制研究人员维护开放数据集中的受试者隐私。如果我们想要进行高质量的社会科学研究,同时又保护人类受试者的隐私,我们最终必须信任研究人员。否则,我们将永远面临此处所示的匿名性和科学之间的严格权衡。
大型开放式在线课程中的“开放”一词有多种解释。一些 MOOC 托管在开源平台上,一些仅使用开放许可的内容,并且大多数 MOOC 对任何学习者开放访问,无需付费或先决条件。我们想增加一个关于开放性的概念:开放访问 MOOC 生成的数据。我们认为这是 MOOC 的责任之一,履行这一责任威胁着当前政策和公众认知中的匿名性惯例。
秉承开放数据的精神,在 2014 年 5 月 30 日,来自哈佛大学和麻省理工学院的研究团队(包括本文作者团队)宣布发布了一个开放数据集,其中包含 edX 平台第一年进行的 16 门课程的学生记录。(2012 年 5 月,麻省理工学院和哈佛大学推出了 edX,这是一个用于托管和推广 MOOC 的非营利平台。MITx 和 HarvardX 分别是专注于 MOOC 的两个机构组织。)6 该数据集是用于发布《哈佛大学和麻省理工学院:开放式在线课程的第一年》的去标识化版本,该报告揭示了关于学生人口统计学、选课模式、认证率和其他学生行为指标的发现。6 发布此数据的目标有两个:第一,允许其他研究人员复制分析结果;第二,允许研究人员在原始工作之外进行新颖的分析,从而增加关于开放式在线课程的文献。
数据发布后几小时内,数据的原始分析开始出现在 Twitter 上,附带图表和源代码。《高等教育纪事报》的数据新闻团队在发布两周后发表了“关于 MOOC 你应该知道的 8 件事”,这篇文章探讨了数据集的新维度,包括课程的性别平衡。13 在发布后的第一个月内,数据已被下载超过 650 次。令人惊讶的是,数据集开始迅速实现其目的:允许研究界使用来自在线学习平台的开放数据来推进科学进步。
来自该数据的新研究的快速传播令人兴奋,但这种兴奋因发布数据的必要限制而有所缓和:它代表了完整数据的子集。为了遵守关于学生隐私的联邦法规,发布的数据集必须进行去标识化。本文论证了在满足学生隐私联邦法规需求与我们发布数据以供复制和下游分析的责任之间存在的权衡。例如,最初的分析发现,大约 5% 的课程注册者获得了证书。一些去标识化方法将该百分比削减了一半。
在不影响未来某种分析的可能性下,匿名化可识别数据是不可能的。可以量化来自去标识化数据的复制与原始发现之间的差异;然而,很难充分预测来自新颖分析的发现是否会产生有效的见解或去标识化的产物。更高的去标识化标准可能导致较低价值的去标识化数据。这可能会对社会科学研究人员的动机产生寒蝉效应。如果发现结果可能因去标识化过程而产生偏差,那么研究人员为什么要将他们稀缺的时间花费在去标识化数据上呢?
在 2012 年 5 月 edX 平台发布时,麻省理工学院和哈佛大学的校长谈到 edX 平台及其生成的数据是一种公共产品。如果学术界和独立研究人员都能访问来自 MOOC 的数据,那么在线教育研究的进展将会更快,研究结果可以得到进一步的推进、完善和检验。然而,如果保护学生隐私意味着开放数据集与原始数据明显不同,那么这些关于开放 MOOC 数据的理想就会被破坏。隐私和开放数据之间的 tension 需要比匿名数据集更好的解决方案。实际上,我们当前监管框架中的根本问题可能是不幸的,并且是不必要的将隐私和匿名性混为一谈。哈佛法学院的 Jeffrey Skopek17 概述了两者之间的区别,如下所示:
...在隐私条件下,我们知道一个人的身份,但不知道相关的个人事实,而在匿名条件下,我们知道一个个人事实,但不知道相关人员的身份。从这个意义上说,隐私和匿名性是彼此的另一面。因此,由于这个原因,它们通常可以以相反的方式运作:隐私通常通过从公共流通中删除与该人相关的信息和其他商品来隐藏关于已知身份的人的事实,而匿名性通常隐藏关于已知事实的人的身份,目的是将这些商品投入公共流通(第 1755 页)。
要实现开放数据在社会科学中的潜力,需要一种保护学生隐私的新范式:要么是差分隐私3 等技术解决方案,将分析与数据的所有权分开,要么是基于政策的解决方案,允许开放访问可能重新识别的数据,同时监管数据的使用。
本文描述了发布学习者数据背后的动机、学生隐私的当代监管框架、我们为遵守这些法规而创建来自 MOOC 的开放数据集所做的努力,以及去标识化的一些分析后果。从这个去标识化的案例研究中,我们得出结论,开放数据的科学理想与当前关于匿名化数据的监管要求是不相容的。要解决这种不相容性,将需要新的方法,以更好地平衡隐私保护和教育研究以及更广泛的社会科学领域的科学进步。
与开源代码和开放许可内容一样,对开放数据的支持一直在稳步增长。在美国,政府机构提高了对共享研究数据的期望。5 2003 年,美国国立卫生研究院成为第一个要求研究资助申请者描述其数据共享计划的联邦机构。12 2013 年,科技政策办公室发布了一份备忘录,要求公开存储来自非机密、联邦资助研究的数字数据。7 这些趋势与学习科学界对数据共享日益增长的兴趣相吻合。2006 年,卡内基梅隆大学的研究人员开放了 DataShop,这是一个来自智能辅导系统的事件日志存储库,也是联邦政府以外教育研究中最大的开放数据来源之一。8
开放数据在各个科学学科中都具有巨大的潜力,可以通过复制促进更高的透明度,并通过新颖的分析促进更快的创新。这在开放式在线学习(如 MOOC)的研究中尤为重要。今年早些时候发布的一项研究1 估计,仅在美国就有超过 700 万人至少参加过一门在线课程,而且这个数字每年增长 6%。这些学生正在从社区学院到研究型大学的各种机构参加在线课程,开放的 MOOC 数据将促进可能对所有提供在线课程的机构有帮助的研究。
开放数据还可以促进不同专业领域的研究人员之间的合作。正如学习分析研究协会主席 George Siemens 所说,涉及大型和复杂数据集的学习研究需要数据科学家和教育研究人员之间的跨学科合作。16 开放数据集使这两个不同领域的研究人员更容易走到一起。
虽然开放教育数据在推进科学方面具有广阔的前景,但它也引发了关于学生隐私的重要问题。在高等教育中,学生隐私法的基石是 FERPA(家庭教育权利和隐私法案)。FERPA 是一项联邦隐私法规,规范对学生教育记录的访问和披露。在我们的去标识化程序中,我们的目标是遵守 FERPA,尽管并非所有机构都认为 MOOC 学习者受 FERPA 的约束。11
FERPA 为学生记录中的 PII(个人身份信息)提供保护。根据 FERPA,PII 不得披露,但如果从记录中删除 PII,则学生变为匿名,隐私得到保护,并且可以将由此产生的去标识化数据披露给任何人 (20 U.S.C. § 1232g(b)(1) 2012; 34 C.F.R. § 99.31(b) 2013)。因此,FERPA 将匿名化(删除 PII)等同于隐私。
FERPA 的 PII 定义包括一些法定定义的类别,例如姓名、地址、社会安全号码和母亲的娘家姓,但也包括
...单独或组合使用,链接或可链接到特定学生的其他信息,这些信息将使学校社区中不了解相关情况的理性人能够以合理的确定性识别学生(34 C.F.R. § 99.3, 2013)。
在评估识别的合理确定性时,教育机构应考虑到可能增加识别机会的其他数据发布。22 因此,充分的去标识化程序不仅必须删除法定要求的要素,还必须删除准标识符。这些准标识符是信息片段,它们与其他信息或来自学生记录外部的其他数据源结合使用时,可以唯一标识身份。它们不是由教育部法规或监管指南定义的,而是留给教育机构自行定义。22
结合准标识符来唯一识别个人的潜力已得到充分证实。例如,卡内基梅隆大学计算机科学学院的 Latanya Sweeney21 证明,美国 87% 的人口可以通过邮政编码、出生日期和性别的组合以合理的确定性进行唯一识别。在开放式在线学习环境中,由于活动的公共性质,这些风险进一步增加。例如,一些 MOOC 学生参与课程讨论论坛——对于许多课程来说,这些论坛在课程结束后仍然可以在线访问。学生的用户名显示在他们的帖子旁边,允许跨课程链接信息,从而可能揭示出注册了独特课程组合的学生。课程早期讨论论坛的一个非常常见的用途是自我介绍主题,学生在其中声明他们的年龄和地点以及其他 PII。
与此同时,另一个身份识别数据来源是社交媒体。学生可能会在 Facebook 或 Twitter 上详细记录他们的在线教育,在注册新课程后立即发推文,或在 Facebook 帖子中提及他们的课程成绩。鉴于这些外部来源,可以论证,人员-课程数据集中的许多通常不被认为是标识符的列都可以被视为准标识符。
由 FERPA 定义的监管框架指导了我们为开放发布而对人员-课程数据集进行去标识化的努力。删除诸如学生用户名和 IP 地址之类的直接标识符很简单,但处理准标识符的挑战更加复杂。我们选择了一个 k-匿名性框架。20 如果数据集中的任何一个个体不能与同一数据集中的至少 k-1 个其他个体区分开来,则该数据集是 k-匿名的。这需要确保没有一个个体具有与 k-1 个其他人不同的准标识符组合。如果数据集无法满足这些要求,则必须修改数据以满足 k-匿名性,可以通过概括案例中的数据或抑制整个案例来实现。例如,如果数据集中的一名学生来自拉脱维亚,我们可以采用以下补救措施之一:概括她的位置,例如将其报告为来自欧洲而不是拉脱维亚;抑制她的位置信息;或完全抑制她的案例。
这开始说明了生成满足匿名性强制要求的数据集与通过公开发布数据来推进学习科学之间的根本 tension。根据当前的监管制度保护学生隐私需要修改数据,以确保无法识别个别学生。然而,这些修改可能会大大改变数据集,从而对开放数据对于复制或新颖分析的效用提出严重质疑。以下各节描述了我们生成 k-匿名数据集的方法,然后检查了我们对数据集的大小和性质进行修改的后果。
原始的、已识别的人员-课程数据集包含以下信息
• 关于学生的信息(用户名、IP 地址、国家/地区、自我报告的教育水平、自我报告的出生年份和自我报告的性别)。
• 课程 ID(标识机构、学期和课程的字符串)。
• 关于学生在课程中的活动的信息(首次互动的日期和时间、最后一次互动的日期和时间、活跃天数、查看的章节数、edX 平台记录的事件数、视频播放事件数、论坛帖子数和最终课程成绩)。
• 计算出的四个变量,用于指示课程参与程度(已注册:注册课程;已查看:至少与课件互动一次;已探索:与超过 50% 的课程章节的内容互动;以及已认证:获得及格成绩并获得证书)。
将此人员-课程数据集转换为我们认为符合 FERPA 指南的 k-匿名数据集需要四个步骤:1) 定义标识符和准标识符;2) 定义 k 的值;3) 删除标识符;以及 4) 修改或删除数据集中准标识符的值,以确保 k-匿名性,同时最大限度地减少对数据集的更改。
我们在原始数据集中定义了两个变量作为标识符,六个变量作为准标识符。用户名本身被认为是标识符,因此我们将其替换为随机 ID。IP 地址也被删除。四个学生人口统计学变量被定义为准标识符:国家/地区、性别、年龄和教育水平。课程 ID 被认为是准标识符,因为学生可能会选修独特的课程组合,并且因为它提供了论坛中发布的 PII 与人员-课程数据集之间的链接。学生发布的论坛帖子数也是一个准标识符,因为有决心的人可以从存档的课程中抓取论坛的内容,然后识别出论坛帖子数独一无二的用户。
一旦选择了准标识符,我们就必须确定用于实施 k-匿名性的 k 值。一般来说,较大的 k 值需要对去标识化进行更大的更改,而较小的 k 值会使数据集更容易受到重新识别的攻击。美国教育部在各种情况下为去标识化过程提供指导,但它不建议或要求特定上下文中 k 的特定值。在一个常见问题解答中,该部门的隐私技术援助中心表示,许多“统计学家认为 3 的单元格大小是绝对最小值”,并继续说 5 到 10 的值甚至更安全。15 我们为我们的去标识化选择了 5 的 k 值。
由于我们的数据集包含 16 门课程的注册信息,因此多门课程的注册信息可能被用于重新识别。k-匿名性方法将确保没有一个个体可以使用课程内的准标识符进行唯一识别,但必须进一步注意消除注册者可能基于注册独特组合或课程数量而被唯一识别的可能性。例如,如果只有三个人注册了所有 16 门课程,那么这三名注册者在跨课程方面将不是 k-匿名的,并且他们的一些注册记录将需要被抑制,以降低他们被重新识别的风险。
去标识化过程的关键部分是修改数据,使任何准标识符的组合都不能描述由少于五名学生组成的群体。为此任务采用的两种工具是概括,即将更精细的值组合成类别(例如,1、2、3、4 和 5 变为“1-5”);以及抑制,即删除会损害 k-匿名性的数据。21 许多去标识化策略,包括 Sweeney 的 Datafly 算法,都实施了这两种工具,但对其中一种技术的侧重程度不同。18 更多的概括意味着抑制的记录更少,但剩余的记录将不如原始数据具体。更多地依赖抑制将从数据中删除更多记录,但剩余的记录将被更改得更少。
以下部分通过比较两种去标识化方法来说明有效研究推断和去标识化方法之间的差异性权衡:一种方法偏爱概括而不是抑制(以下称为概括强调法,或 GE 法),另一种方法偏爱抑制而不是概括(以下称为抑制强调法,或 SE 法)。还有其他处理去标识化问题的方法,但这两种方法很容易实现。我们的目的不是辨别在任何一般情况下哪种技术占主导地位,而是要表明匿名性和有效研究推断之间的权衡 a) 是不可避免的,并且 b) 将取决于去标识化的方法。
SE 方法对国家/地区的名称使用概括(将行数少于 5,000 行的国家/地区分组为洲/地区名称),并对首次和最后一次事件的时间戳使用概括(通过截断时间戳的小时和分钟部分,将它们分组为日期)。然后,对跨准标识变量不是 k-匿名的行采用抑制。有关实施细节的更多信息,请参阅数据发布随附的文档。10
GE 方法将出生年份概括为两组(例如,1980-1981 年),并将论坛帖子数概括为五组(对于大于 10 的值,例如 11-15)。然后,对跨准标识变量不是 k-匿名的行采用抑制。概括导致数据集需要的抑制比 SE 方法中的少,但也降低了概括变量的精度。
两种去标识化过程都更可能抑制较小课程中的注册者:课程越小,任何给定的人口统计学组合都不是 k-匿名的机会就越高,并且该行需要被抑制的可能性就越大。此外,由于活动变量(论坛帖子数)被包括在内作为准标识符,因此这两种方法都可能删除在论坛中更活跃的用户。由于只有 8% 的学生在论坛中发过帖子,并且由于这些学生通常在其他方面也很活跃,因此许多最活跃的学生的记录被抑制了。
两个去标识化数据集都与原始数据集在很大程度上有所不同。我们复制了在原始数据集上进行的分析,并评估了新数据集中的变化幅度。本节重点介绍这些差异。
两个去标识化数据集都比原始数据集小得多(见表 1),但去标识化并未统一影响各个课程的注册人数。表 1 显示了每个去标识化数据集与原始文件相比注册人数的百分比下降。只有一小部分 CS50x 的记录被删除,因为 CS50x 托管在 edX 平台之外;因此,我们没有关于论坛使用情况的数据(我们的准标识变量之一)。
表 2 显示,去标识化对最活跃的学生产生了不成比例的影响。Andrew Dean Ho 等人6 确定了四类互斥的学生:仅注册:注册了课程但未与课件互动;仅查看:至少互动过一次,且少于一半的课程章节;仅探索:与一半或更多课程章节的内容互动,但未获得证书;以及已认证:在课程中获得证书。表 2 显示,每个类别中学生的比例在去标识化后似乎仅略有变化;但是,去标识化数据集中的认证学生百分比几乎是原始数据集中的百分比的一半。鉴于围绕 MOOC 认证率的政策问题,这是一个非常重要的差异,即使只是百分点上的小变化。
来自去标识化数据集的人口统计学数据与原始人员-课程数据集相似。表 3 分别显示了每个数据集的性别和学士学位获得情况的分布。所有三个数据集中的学士学位持有者比例几乎相同。去标识化数据集报告的女性学生百分比略低于原始数据集。MOOC 的性别偏见是一个敏感的政策问题,因此这种差异引发了对使用去标识化数据集进行的分析的担忧。
对高度活跃用户的抑制大大降低了课件中事件总数的中位数。表 3 显示了所有三个数据集的事件中位数,去标识化数据集的事件中位数是原始数据集报告值的三分之二。
最后,我们分析了所有三个数据集中的变量之间的相关性。我们使用相关性来说明可能依赖于相关性和协方差矩阵的预测模型中的可能变化,从基于回归的成绩预测到主成分分析和其他多元方法。尽管相关性的直接变化取决于基本比率,并且相关性的平均值不是很好形成,但我们在此处提供这些简单的统计数据以便于解释。没有相关性改变方向,并且所有相关性在 0.05 水平上仍然显着。对于所有注册者,SE 数据集报告的相关性比 GE 方法更接近原始数据集,而仅对于探索和认证学生,GE 数据集略微接近原始数据集(见表 4)。
可以使用先前表格中的结果来制定一个多元模型,该模型在这些表格中具有总体参数。通过从这样一个模型中生成与我们在基线数据集中拥有的数字成比例的数据,我们将使研究人员能够复制上述相关性和平均值。然而,对于任何未被选定的多元模型暗示的分析,这样的模型都会导致结果失真。此外,在 MOOC 数据2 中看到的异常分布将难以使用传统的分布形式进行建模。
这里提出的去标识化数据集与原始数据集之间的比较为保护匿名性和发布有用数据之间的 tension 提供了证据。我们强调,此处确定的差异并非可能最令人担忧的差异。以上分析描述了进行复制研究的研究人员可能期望看到的差异。对于尚未对数据执行的新颖分析,很难先验估计去标识化的影响。对于希望使用去标识化公共数据集来推进研究的研究人员来说,这意味着任何给定的发现都可能是去标识化扰动的结果。
正如上一节所示,去标识化数据集与原始数据集之间的差异范围从各种人口统计学类别比例的微小变化到活动变量和认证率的大幅下降。很可能尚未想到的分析会产生两个数据集之间更显着的差异。即使找到一种保持原始数据集中许多观察到的研究结果的去标识化方法,也不能保证其他分析不会被去标识化破坏。
在这一点上,可以理所当然地认为,任何去标识化标准都会随着时间的推移而提高。信息变得越来越容易获取,研究人员在可能的重新识别策略方面也越来越成熟和富有创造力。微软研究院的 Cynthia Dwork 在 2014 年初由麻省理工学院和白宫赞助的大数据隐私研讨会上的一次演讲中指出,去标识化工作一直在像军备竞赛一样发展,类似于密码学领域的进步。4 尽管 k-匿名性是一种有用的启发式方法,但研究人员已经质疑仅靠它是不够的。Ashwin Machanavajjhala 等人9 指出,k-匿名数据集仍然容易受到“同质性攻击”。如果在经历确保 k-匿名性的过程之后,存在大小为 k 或更大的组,其中敏感变量的值是同质的(即,组的所有成员都具有相同的值),那么即使攻击者不知道哪个记录属于目标,该敏感变量的值也会被有效披露。Machanavajjhala 等人将此原则定义为 l-多样性。其他研究人员提出了对 k-匿名性的字母汤式批评,例如 m-不变性和 t-相似性。4 即使有可能设计出一种不会影响统计分析的去标识化方法,它也可能很快因重新识别技术的进步而过时。
我们努力去标识化一组简单的学生数据(仅占 edX 平台提供的细粒度事件日志的一小部分)的这个例子揭示了开放数据、结果的可重复性和新颖分析的潜力与研究对象的匿名性之间的冲突。这种 tension 超越了 MOOC 数据,延伸到许多社会科学数据,但这种挑战在教育研究中尤为突出,因为 FERPA 将匿名性(因此也是去标识化)与隐私混为一谈。一个结论可能是数据太敏感而无法共享;因此,如果去标识化对数据集的完整性产生过大的影响,则不应共享数据。我们认为这是一个不可取的立场,因为少数有幸获得数据的研究人员将在一个泡沫中工作,他们的同行几乎没有人能够挑战或扩充他们的发现。这种限制充其量会减缓知识的进步。最坏的情况是,这些限制会阻止突破性研究的进行。
放弃开放数据或放松学生隐私保护都不是明智的选择。相反,研究界应该积极寻求技术和政策解决方案来解决开放数据和隐私之间的 tension。一种有希望的技术解决方案是差分隐私。3 在差分隐私的框架下,原始数据被维护,但研究人员无法访问原始 PII。相反,它驻留在安全数据库中,该数据库能够回答有关数据的问题。研究人员可以向数据库提交一个模型(例如,回归方程),并返回回归系数和 R 平方值。差分隐私本身也面临挑战,并且仍然是一个开放的研究问题,因为实施这样的系统将需要仔细制定围绕可以提出的问题数量和具体性的限制,以防止识别受试者。例如,如果答案少于 k 行(其中 k 是 k-匿名性中使用的相同最小单元格大小),则无法返回答案。
政策变更在短期内可能更可行。美国 PCAST(总统科学技术顾问委员会)提出的一个方法是接受匿名化是一种过时的策略,并且随着数据挖掘和大数据的进步,这种策略变得越来越困难。14 PCAST 建议隐私政策应强调数据的使用不应损害隐私,而应侧重于“‘什么’而不是‘如何’”。14 可以想象这样一种系统,即访问开放数据集的研究人员将同意仅将数据用于追求特定目的,例如研究,而不是出于商业目的联系受试者或重新发布数据。这样的政策将需要附带执行和审计的规定,并且创建可行的执行系统,诚然,绝非易事。
我们认为,即使研究人员能够识别个人及其所有行为,在道德和法律框架约束下的研究人员仍然可以维护隐私。如果我们想要高质量的社会科学研究和人类受试者的隐私,我们最终必须信任研究人员。否则,我们将在匿名性和科学之间永远面临严格的权衡。
1. Allen, I. E., Seaman, J. 2014. Grade change: tracking online education in the United States(成绩变化:追踪美国在线教育); http://sloanconsortium.org/publications/survey/grade-change-2013.
2. DeBoer, J., Ho, A. D., Stump, G. S., Breslow, L. 2013. Changing "course": reconceptualizing educational variables for massive open online courses(改变“课程”:重新概念化大规模开放在线课程的教育变量). Educational Researcher(教育研究者). 2014年2月7日在线预先发布。
3. Dwork, C. 2006. Differential privacy(差分隐私). Automata, Languages and Programming(自动机、语言和程序设计). Springer Berlin Heidelberg: 1-12.
4. Dwork, C. 2014. State of the art of privacy protection(隐私保护的最新技术);视频 http://web.mit.edu/bigdata-priv/agenda.html.
5. Goben, A. Salo, D. 2013. Federal research: data requirements set to change(联邦研究:数据要求即将改变). College & Research Libraries News 74(8): 421-425; http://crln.acrl.org/content/74/8/421.full.
6. Ho, A. D., Reich, J., Nesterko, S., Seaton, D. T., Mullaney, T., Waldo, J., Chuang, I. 2014. HarvardX and MITx: the first year of open online courses, fall 2012-summer 2013(HarvardX 和 MITx:2012年秋季至2013年夏季第一年开放在线课程); http://ssrn.com/abstract=2381263.
7. Holdren, J. P. 2013. Increasing access to the results of federally funded scientific research(增加获取联邦资助科学研究成果的途径); http://www.whitehouse.gov/sites/default/files/microsites/ostp/ostp_public_access_memo_2013.pdf.
8. Koedinger, K. R., Baker, R. S. J. d., Cunningham, K., Skogsholm, A., Leber, B., Stamper, J. 2010. A data repository for the EDM community: The PSLC DataShop(EDM 社区的数据存储库:PSLC DataShop). In Handbook of Educational Data Mining(教育数据挖掘手册), ed. C. Romero, S. Ventura, M. Pechenizkiy, R. S. J. d. Baker. Boca Raton, FL: CRC Press.
9. Machanavajjhala, A., Gehrke, J., Kifer, D., Venkitasubramaniam, M. 2007. L-diversity: privacy beyond k-anonymity(L-多样性:超越 k-匿名性的隐私). Transactions on Knowledge Discovery from Data (TKDD) 1(1): 3.
10. MITx and HarvardX. 2014. HarvardX-MITx person-course academic year 2013 de-identified dataset, version 2.0(HarvardX-MITx 2013学年个人课程去标识化数据集,版本 2.0); http://dx.doi.org/10.7910/DVN/26147.
11. MOOCs @ Illinois. 2013. FAQ for Faculty(教师常见问题解答); http://mooc.illinois.edu/resources/faqfaculty/.
12. National Institutes of Health. 2003. Final NIH statement on sharing research data(NIH 关于共享研究数据的最终声明); http://grants.nih.gov/grants/guide/notice-files/NOT-OD-03-032.html.
13. Newman, J. Oh, S. 2014. 8 things you should know about MOOCs(关于 MOOCs 你应该知道的 8 件事). The Chronicle of Higher Education(高等教育纪事报) (June 13); http://chronicle.com/article/8-Things-You-Should-Know-About/146901/.
14. President's Council of Advisors on Science and Technology. 2014. Big data and privacy: a technological perspective(大数据与隐私:技术视角); http://www.whitehouse.gov/sites/default/files/microsites/ostp/PCAST/pcast_big_data_and_privacy_-_may_2014.pdf.
15. Privacy Technical Assistance Center. 2012. Frequently asked questions—disclosure avoidance(常见问题解答——披露规避); http://ptac.ed.gov/sites/default/files/FAQs_disclosure_avoidance.pdf.
16. Siemens, G. 2014. The Journal of Learning Analytics: supporting and promoting learning analytics research(学习分析杂志:支持和促进学习分析研究). Journal of Learning Analytics 1(1): 3-5; http://epress.lib.uts.edu.au/journals/index.php/JLA/article/view/3908/4010.
17. Skopek, J. M. 2014. Anonymity, the production of goods, and institutional design(匿名性、商品的生产和制度设计). Fordham Law Review 82(4): 1751-1809; http://ir.lawnet.fordham.edu/flr/vol82/iss4/4/.
18. Sweeney, L. 1998. Datafly: a system for providing anonymity in medical data(Datafly:一种在医疗数据中提供匿名性的系统). In Database Security, XI: Status and Prospects(数据库安全,XI:现状与展望), ed. T. Lin, and S. Qian. Amsterdam: Elsevier Science.
19. Sweeney, L. 2000. Simple demographics often identify people uniquely(简单的人口统计数据通常可以唯一地识别个人). Health (San Francisco) 671: 1-34.
20. Sweeney, L. 2002a. k-anonymity: a model for protecting privacy(k-匿名性:一种保护隐私的模型). International Journal on Uncertainty, Fuzziness and Knowledge-based Systems 10(5): 557-570.
21. Sweeney, L. (2002b). Achieving k-anonymity privacy protection using generalization and suppression(使用概括和抑制实现 k-匿名性隐私保护). International Journal on Uncertainty, Fuzziness and Knowledge-based Systems 10(5): 571-588.
22. United States Department of Education. 2008. Family educational rights and privacy(家庭教育权利和隐私). Federal Register 73(237). Washington, DC: U.S. Government Printing Office; http://www.gpo.gov/fdsys/pkg/FR-2008-12-09/pdf/E8-28864.pdf.
喜欢还是讨厌?请告诉我们
作者是一群来自麻省理工学院和哈佛大学的研究人员和管理者,他们一直在处理来自edX平台上的MITx和HarvardX MOOCs的数据以及与数据相关的政策
Jon P. Daries, Massachusetts Institute of Technology
Justin Reich, Harvard University
Jim Waldo, Harvard University
Elise M. Young, Harvard University
Jonathan Whittinghill, Harvard University
Daniel Thomas Seaton, Massachusetts Institute of Technology
Andrew Dean Ho, Harvard University
Isaac Chuang, Massachusetts Institute of Technology
© 2014 1542-7730/14/0700 $10.00
最初发表于Queue杂志第12卷第7期—
在数字图书馆中评论这篇文章
Ellen Chisa - 产品经理的演变
软件从业人员都知道,产品管理是软件开发的关键组成部分。产品经理与用户沟通,以帮助确定要构建什么、定义需求并编写功能规范。在整个软件构建过程中,他们与工程师密切合作。他们充当想法的倾听者,在出现技术挑战时帮助平衡进度,并在需要技术修订时向执行团队反馈。产品经理从编写第一行代码之前就参与其中,直到软件发布之后。
Michael J. Lutz, J. Fernando Naveda, James R. Vallino - 本科软件工程:满足专业软件开发的需求
1996年秋季学期,RIT(罗切斯特理工学院)在美国推出了第一个本科软件工程项目。该项目历时五年规划、开发和审查,从一开始就旨在培养毕业生在商业和工业软件开发领域担任专业职位。