四个小兄弟监视着你？隐私、手机和无处不在的数据收集 -

2009年8月27日
第7卷，第7期

四个小兄弟监视着你？

隐私、手机和无处不在的数据收集

参与式感知技术可以改善我们的生活和社区，但要以多大的隐私代价为代价？

凯蒂·希尔顿，加州大学洛杉矶分校

它们可以拨打电话、上网冲浪，世界上有近 40 亿部手机。它们内置的麦克风、摄像头和位置感知功能可以收集图像、声音和 GPS 数据。除了聊天和短信，这些功能还可以使手机成为普及的、熟悉的工具，用于量化个人模式和习惯。它们也可以成为成千上万的人记录社区、收集证据来证明案例或研究流动性和健康的平台。这些数据可以帮助您了解您的日常碳足迹、空气污染暴露、运动习惯以及与家人和朋友互动的频率。

但与此同时，这些数据也揭示了您经常去的地方、习惯和日常活动。一旦这些数据被捕获，熟人、朋友或当局可能会强迫您披露它。更糟糕的是，它可能会在您不知情或未经您许可的情况下被收集或重复使用。在极端情况下，手机可能成为历史上最广泛的嵌入式监控工具。想象一下，随身携带一个具有位置感知功能的窃听器，配备摄像头、加速度计和蓝牙嗅探功能，走到哪里都带着它。您的手机可以记录您的来来往往，推断您一天的活动，并记录您在街上遇到的人或与您交谈的人。如果政府部署或雇主强迫使用，40 亿个“小兄弟”可能会监视您。

手机从事感知数据是用于自我和社区研究的工具，还是用于胁迫或监视，取决于谁收集数据、如何处理数据以及用户获得哪些隐私保护。随着这些新型数据开始在电话网络上传输，应用程序开发人员将成为保护始终在线、始终开启的手机收集的敏感数据的第一道防线。

我应该提到，我不是站在第一线的开发人员之一。我在科学技术研究（STS）领域工作，这是一门对人、技术和数据如何互动并相互影响的社会科学感兴趣的学科。与我合作的开发人员可能会说，STS 就是告诉他们他们应该做什么——我必须承认这正是本文的目标。我担心手机作为传感器带来的后果，并且对程序员以及社会科学家可以做些什么来使这种数据收集工作在不滑向胁迫、监视和控制的情况下进行有一些看法。

参与式感知

使用手机收集数据用于个人或社会项目的研究称为移动、城市或参与式感知。^2-4 参与式感知的目的是使（和鼓励）任何人收集和调查以前不可见的数据。它试图通过强调个人参与感知过程来避免监视或强制感知。旨在实现参与式感知的应用程序范围从非常个人化和自我反思到旨在改善个人健康或社区体验的可共享数据。本文考察了加州大学洛杉矶分校 CENS（嵌入式网络传感中心）的三个应用程序，以说明可能性的多样性，并提出数据收集和共享方面的问题。

PEIR（个人环境影响报告）。 PEIR 的参与者整天携带手机，以计算他们的碳足迹和空气污染暴露量——这在雾霾弥漫的洛杉矶（该项目所在地）都是大问题。通过参考 GPS 和手机信号塔，手机每隔几秒钟上传参与者的位置。基于这些时间-位置轨迹，PEIR 系统可以推断参与者一天的活动（步行、骑自行车、开车、乘坐公共汽车）。该系统将位置、时间和活动的组合映射到南加州区域空气质量和天气数据，以估算个人的碳足迹和颗粒物暴露量。感知参与者一天的位置可以获得更准确且以前无法获得的有关人们面临的环境危害以及他们造成的危害的信息。要参与，个人需要记录并提交连续的位置轨迹。

Biketastic。 该项目旨在改善洛杉矶的自行车通勤，洛杉矶是一个对骑自行车者非常不友好的城市。骑自行车者在通勤期间携带支持 GPS 的手机。手机自动将骑自行车者的路线上传到公共网站。手机还使用其加速度计来记录路面的粗糙程度，并采集音频样本来分析沿途的噪音音量。参与者可以登录以查看他们的路线与现有数据的结合，包括空气质量、时间敏感的交通状况和交通事故。他们还可以使用该系统与其他骑车者分享有关他们路线的信息。通过将现有的当地条件与骑自行车者贡献的数据相结合，Biketastic 将使该地区的骑自行车者能够规划出交通事故概率最低的路线；空气质量最佳的路线；或根据个人喜好，例如路面质量或与公共交通的连接。Biketastic 通过公共地图共享位置数据，尽管个人使用假名用户名。

AndWellness。 AndWellness 目前正在开发中，它是一种旨在鼓励行为改变的个人监控工具。它可以帮助客户独立工作或与教练一起工作，以记录他们偏离健康饮食或锻炼计划的地点和时间。在最初一周的记录中，AndWellness 会提示用户在一天中输入个人评估。这些评估会询问用户上次进食时间以及是否符合计划。经过一周的跟踪和数据分析后，用户可以看到他们倾向于偏离计划的地点和时间，并计划干预措施以对抗不必要的偏差。AndWellness 不仅收集位置信息，还收集有关饮食和习惯的敏感数据。个人可以选择与支持小组、教练、治疗师、医生、家人或朋友分享这些数据。

将参与式感知从移动电话网络支持的可能性转变为协调一致的现实充满了挑战。这些挑战包括重新利用现在用作通信工具的手机进行数据收集和共享的伦理问题。个人如何确定他们希望何时、何地以及如何参与？对于他们希望记录和分享的内容，他们有多少发言权？

参与式感知中的隐私

隐私——理解、选择和控制您与谁以及在多长时间内共享哪些个人信息的能力——对于参与式感知来说是一个巨大的挑战。隐私决策有很多组成部分，包括身份（谁在请求数据？）、粒度（数据揭示了关于我的多少信息？）和时间（数据将保留多长时间？）。^7,10,11 位置轨迹可以记录和量化习惯、日常活动和个人关系。您的位置可能会泄露您孩子的学校、您定期去看治疗师或医生的行程，以及您上班迟到或早退的时间。这些轨迹很容易挖掘，而且一旦共享，就很难或不可能撤回。

共享如此精细和具有揭示性的数字数据可能会带来许多风险或负面后果。安全威胁是显而易见的：小偷、跟踪者等都可能是危险。可能不太明显——也可能更可能——是其他社会后果。想想您多久会用善意的谎言来推脱社交活动，或者保守您的位置和活动秘密来给朋友一个惊喜。就像 Facebook 命运多舛的 Beacon 服务一样，参与式感知可能会扰乱我们已经习以为常的社会界限。如果对您有权力的人（您的雇主、政府）收集或访问您的位置数据会怎样？很容易想象这对合法但受污名化的活动会产生寒蝉效应。如果您知道您的位置对其他人可见，您还会像以前一样参加政治抗议或拜访整形外科医生吗？可通过传票访问的大型位置数据数据库也可能成为从轻微民事纠纷到棘手的离婚案件等一切事物的证据。

也许最重要的是，隐私是您的身份和自我呈现的重要组成部分。决定向谁透露什么信息是决定您是谁的一部分。我可能想跟踪我倾向于何时何地暴饮暴食，但我认为没有理由与我的医生以外的任何人分享这些信息。同样，我可能会参加周末的政治数据收集项目，但这并不意味着我的父母需要知道。尊重公共和私人之间的许多层次，并赋予人们协商这些层次的能力，对于尊重个人隐私至关重要。

在美国和欧洲，公平信息实践是保护个人数据隐私的标准之一。最初在 20 世纪 70 年代编纂的《公平信息实践准则》概述了数据管理原则，以帮助组织保护个人数据。^12,13 这些准则仍然被认为是隐私保护的黄金标准。¹⁴ 但这些原则是为公司或政府而非许多分布式数据收集者设计的，现在已不再足够。参与式感知期间收集的数据比传统的个人数据（姓名、社会安全号码等）更精细。它揭示了关于个人习惯和日常活动的更多信息。此外，数据不再仅仅由具有既定数据实践的大型组织或政府收集。个人或社区团体可能会创建参与式感知应用程序并开始收集个人数据。¹⁵

启用隐私参与

这就是开发人员的责任所在。开发人员如何帮助个人或小型团体启动参与式感知项目，以实施适当的数据保护标准？为了使用如此精细和个人化的数据创建可行的标准，系统必须积极地让个人参与到他们自己的隐私决策制定中。在 CENS，我们称之为参与式隐私监管——系统可以帮助用户根据上下文（谁在请求、请求什么等）协商披露决策的想法。我们需要构建系统，以提高用户理解隐私并从而监管隐私的能力。

构建这样的系统是一项尚未满足的重大挑战。⁶ 作为朝着应对这一挑战迈出的第一步，我们提出了三个新原则供开发人员在构建移动数据收集应用程序时考虑和应用。这些原则是有意广泛的，因为“可接受的”数据实践可能因应用程序而异（医疗项目可能在收集更多个人数据方面是合理的，但需要严格的保护，而社区文档项目则不然）。这些原则是思考工具，旨在帮助开发人员使隐私保护适应参与式感知应用程序。

参与者优先

参与式隐私监管的目标是让参与者尽可能多地控制他们的位置数据。GPS 轨迹或地理标记媒体创建的辅助轨迹应归个人所有。参与者应该能够做出和撤销与第三方应用程序共享数据子集的决定。以这种方式构建，参与者不仅仅是数据收集的主体，而是充当调查员（当他们收集数据以参与自我分析应用程序时）或共同调查员（当他们将数据贡献给更大的研究计划时）的角色。因此，他们应该对数据的收集、处理、存储和丢弃方式有发言权。

开发人员可以通过为个人参与者定制访问控制和数据管理工具，使参与者能够拥有和管理他们的数据。收集具有揭示性的感知数据的用户将需要安全的存储和直观的界面来管理访问和共享。例如，CENS 研究人员正在开发一个 PDV（个人数据保险库），为个人提供私有且强大的存储空间来存储他们的感知数据。PDV 提供身份验证和访问控制等服务，使参与者不仅可以在一个地方收集所有感知数据，还可以指定社交网络中的哪些个人和群体可以查看哪些数据集。斯坦福大学⁸ 和 AT&T¹ 的研究实验室也在开发类似的工具，并且与 Google Health⁵ 和 Microsoft 的 HealthVault⁹ 等商业应用程序没有太大区别。

随着开发人员构建数据管理工具，将个人数据控制权重新交到个人手中，他们将需要考虑用户需要哪些控制才能做出隐私和共享决策。在最基本的层面上，共享决策应考虑到身份（谁在请求？）、时间（仅在上午 9 点到下午 5 点之间发送数据）、位置（仅当我在校园内时发送数据）和数据类型（仅共享地理标记的照片）。开发人员要考虑的更高级技术包括基于活动的访问控制（仅共享驾驶路线）或日常活动（不共享异常路线）。

应用程序开发人员可以通过限制参与者在保险库外部需要共享的原始数据量来进一步保护参与者优先权。当隐私受到威胁时，更多的数据并不总是更好。例如，Biketastic 的参与者可以全天候 24/7 将其位置数据收集到 PDV，但仅在他们通常骑自行车通勤的日期和时间与 Biketastic 共享数据。Biketastic 不需要知道参与者在工作时间、午休时间或晚上做什么。收集最少数据的另一个例子是请求处理后的数据而不是原始数据。开发人员可以构建 PEIR 等应用程序，仅请求推断的活动数据（驾驶、步行和室内的时间）和邮政编码，而不是精细的位置数据。PEIR 不需要知道参与者在哪条街道上——只需要知道他们从事了哪些产生碳的活动。通过收集服务所需的最少信息量，应用程序开发人员可以帮助参与者保持对其原始数据的控制。

数据易读性

参与式感知系统可以通过以个人可以理解的方式可视化精细、大量的数据，来帮助参与者理解和决定他们的数据。提高数据易读性的方法包括使用地图、图表、图标、图片或比例尺等工具进行可视化。数据易读性还包括向用户显示谁访问过他们的数据以及访问频率，并向参与者显示他们的数据去向以及可访问的时间。系统功能应提高参与者对复杂风险的理解，并帮助他们就数据捕获、共享和保留做出更好的决策。

开发人员应该对易读性可能意味着什么发挥创造力。例如，应用程序的用户界面不仅可以帮助用户设置数据共享策略，还可以查看其策略的结果。想象一下 Facebook 弹出一个窗口，询问：“您真的想与您的父亲分享相册‘派对照片’吗？”为数据保险库或感知应用程序开发功能，以阐明谁可以查看哪些数据，将有助于用户更好地理解数据共享的后果。

另一种方法是显示对收集数据的多种解释。例如，AndWellness 界面同时使用地图和时间线来帮助用户得出关于他们的饮食习惯何时何地偏离计划的结论。开发人员还可以尝试自然语言，帮助将数值数据或复杂算法转化为更容易理解的内容。自然语言可以从数据点进行推断（例如，这条自行车路线中间有几座山，大多数山都很容易爬，最后有一座陡峭的山）；或者纯文本描述可以解释计算和处理的工作原理（例如，单击 PEIR 中的路线会将参与者带到“行程日志”，其中包含系统如何计算该路线的影响和暴露量的分步分解）。

纵向参与

最后，开发人员将需要考虑时间作为影响参与式感知隐私的因素。当您开始乘坐公共交通工具上班时，您可能会结束参与碳足迹计算器，但在收到令人惊讶的诊断结果后，您会注册一项新的健康计划。个人习惯和日常活动会随着时间的推移而改变，从而改变收集到个人数据保险库中的数据。

由于时间是如此关键的因素，应用程序界面应鼓励参与者从数据收集到分析、长期保留或删除的整个过程都参与到数据中。系统应支持持续参与，以便参与者能够在他们的上下文发生变化时更改他们的数据实践。让个人参与到关于他们数据的决策中的关键在于拒绝将数据放入黑匣子。相反，分析数据、从数据中学习以及就数据做出持续的选择成为感知的目标。

我们为开发人员提供了一些关于如何鼓励长期参与的建议。要求用户定期回访保险库或应用程序的策略可以提醒他们随着需求的变化更新他们的共享首选项。数据保险库可以在用户每次添加新联系人或应用程序时提醒他们更新共享首选项。构建自适应过滤器也可以使参与者能够随着偏好的变化而更改他们的数据共享。此类过滤器可以从用户行为中学习，以响应隐私偏好。例如，保险库可以学习永远不共享特定路线，或者可以学习在共享晚上 9 点后记录的任何路线之前与用户核实。

TraceAudit 是另一个帮助用户随着时间推移参与其数据的想法。TraceAudit 基于 Internet 路由跟踪的想法，并依赖于仔细的日志记录程序。允许用户访问日志的界面可以让用户跟踪应用程序如何使用他们的数据、数据已共享到何处以及谁有权访问数据。例如，PEIR 中数据使用的 TraceAudit 可以向参与者准确显示他们的原始位置轨迹如何变成影响和暴露量的计算，以及数据在该过程中如何共享。日志可以向用户显示，他们的 PDV 在工作日早上 7 点到晚上 8 点之间向 PEIR 发送原始数据。PEIR 基于此原始数据执行活动分类（步行、驾驶等花费的时间），并将活动摘要和发生活动的邮政编码发送到加州空气资源委员会。PEIR 收回与这些活动和邮政编码相对应的 PM2.5（细颗粒物）污染暴露量和 CO₂ 排放值。然后，PEIR 保存并显示这些总计算结果供用户使用。TraceAudit 提供透明度和问责制，帮助个人了解 PEIR 如何使用和共享他们的数据。

技术之外的挑战

关注参与者优先权、纵向参与和数据易读性的系统设计将帮助用户做出数据共享决策并保护他们在参与式感知中的隐私。然而，技术决策不足以确保感知参与者的隐私。参与者参与隐私决策制定也需要通过支持性的社会结构来加强。

参与式感知为全新形式的精细和普遍的数据收集打开了大门。这种数据收集的风险并不总是显而易见的。即使我们为人们提供管理其数据的选项，他们也可能不理解这样做的益处。数据素养必须通过多种途径随着时间的推移而获得。关于参与式感知的公开讨论和辩论对于教育参与者了解感知数据的风险和可能性至关重要。讨论论坛和博客发挥着重要作用，传统媒体甚至社区团体也是如此。

此外，参与式感知的参与者将需要了解他们的数据一旦离开个人保险库并被第三方应用程序使用后会发生什么。用于参与式感知数据的多样化且丰富的应用程序可以帮助实现参与式感知的潜在实用性，但也会使参与者难以理解哪些应用程序是值得信赖的并且遵守可接受的数据实践。参与者需要知道他们注册了什么——而神秘的、细则的 EULA（最终用户许可协议）不是答案。用户应该知道应用程序将保留他们的数据多长时间，以及是否会将数据传递给其他方。自愿标签系统（很像食品上的“公平贸易”标签）可以帮助消费者区分遵守最低限度负责任的数据实践的应用程序。这些可能包括记录数据使用情况并保留审计跟踪，以及在指定时间段后丢弃位置数据。这些措施可以帮助提高参与式感知应用程序的透明度。

最后，加强对未共享保险库数据的法律保护可以鼓励参与参与式感知。正在进行的工作正在调查个人感知数据的法律特权的可能性。这种特权可以通过法规启用，并以律师-客户或医生-患者特权为模型。

结论

当律师和社会科学家致力于结构性变革以帮助确保参与式感知中的隐私时，许多迈向隐私保护的最初且至关重要的步骤将取决于应用程序开发人员。通过创新将参与者放在首位，我们可以创建尊重个人控制敏感数据需求的系统。我们还可以增强人们理解如此精细的数据的能力，并让参与者长期参与到关于这些数据的决策中。通过关注这些原则，开发人员将有助于确保 40 亿个小兄弟不会监视我们。相反，参与式感知可以拥有安全、自愿和积极参与的未来。
问

致谢

非常感谢 Jeffrey Burke、Deborah Estrin 和 Mark Hansen 合作者，他们的想法和贡献塑造了本文的材料。本文基于美国国家科学基金会在第 0832873 号拨款下支持的工作。

参考文献

1. Cáceres, R., Cox, L., Lim, H., Shakimov, A., Varshavsky, A. 2009. 虚拟个人服务器作为移动设备的隐私保护代理。第一届 SIGCOMM 研讨会论文集，关于移动手持设备的网络、系统和应用（MobiHeld），西班牙巴塞罗那。

2. Cuff, D., Hansen, M., Kang, J. 2008. 城市感知：走出困境。《通讯》51: 24-33。

3. Eagle, N. 2008. 跨文化行为推断：使用电话作为文化镜头。《IEEE 智能系统》23: 62-64。

4. Eisenman, S. B., Lane, N. D., Miluzzo, E., Peterson, R. A., Ahn, G. S., Campbell, A. T. 2006. MetroSense 项目：大规模以人为中心的感知。《 Sensys 世界传感器网络研讨会论文集》，科罗拉多州博尔德。

5. Google Health；https://www.google.com/health。

6. Iachello, G., Hong, J. 2007. 人机交互中的最终用户隐私。《人机交互基础与趋势》1: 1-137。

7. Kang, J. 1998. 网络空间交易中的隐私。《斯坦福法律评论》50: 1193-1294。

8. Lam, M. 2009. 构建没有老大哥的社交网络未来；http://suif.stanford.edu/%7Elam/lam-pomi-ws09.pdf。

9. Microsoft HealthVault；http://www.healthvault.com/。

10. Nissenbaum, H. 2004. 作为情境完整性的隐私。《华盛顿法律评论》79: 119-158。

11. Palen, L., Dourish, P. 2003. 为网络世界解构“隐私”。CHI 2003，佛罗里达州劳德代尔堡：129-136。

12. 信息社会中的个人隐私：《隐私保护研究委员会报告》。1977 年；http://epic.org/privacy/ppsc1977report/。

13. 美国卫生、教育和福利部。1973. 记录、计算机和公民权利。马萨诸塞州剑桥市：麻省理工学院出版社。

14. Waldo, J., Lin, H. S., Millett, L. I. 2007. 在数字时代参与隐私和信息技术。华盛顿特区：国家科学院出版社。

15. Zittrain, J. 2008. 互联网的未来——以及如何阻止它。纽黑文和伦敦：耶鲁大学出版社。

喜欢还是讨厌？请告诉我们
[email protected]

凯蒂·希尔顿是加州大学洛杉矶分校信息研究专业的博士生。她的研究探讨了无处不在的感知技术引发的隐私和伦理挑战，并且她协调了嵌入式网络传感中心的一个研究项目，专注于这些问题。她于 2003 年获得奥伯林学院文学学士学位，并于 2007 年获得加州大学洛杉矶分校图书馆和信息科学硕士学位。

最初发表于 Queue vol. 7，no. 7—
在数字图书馆中评论本文

更多相关文章

马克·鲁西诺维奇、塞德里克·福内特、格雷格·扎维鲁查、乔希·贝纳洛、布兰登·默多克、曼努埃尔·科斯塔 - 机密计算证明
证明是用于完整性和隐私的强大工具，使验证者能够委托计算并仍然验证其正确执行，并使证明者能够保持计算细节的私密性。CCP 和 ZKP 都可以实现可靠性和零知识，但存在重要差异。CCP 依赖于硬件信任假设，这带来了高性能和对证明者的额外机密性保护，但对于某些应用程序来说可能是不可接受的。CCP 通常也更易于使用，尤其是对于现有代码，而 ZKP 带来了巨大的证明者开销，这对于某些应用程序来说可能是不切实际的。

拉斐尔·奥尔、雷纳·伯梅、杰里米·克拉克、迪德姆·德米拉格 - 央行数字货币的隐私格局
随着世界各国央行纷纷将现金数字化，隐私问题需要提到首要位置。所采取的路径可能取决于每个利益相关者群体的需求：注重隐私的用户、数据持有者和执法部门。

苏塔帕·蒙达尔、曼格什·S·加罗特、萨钦·P·洛达 - 个人信息隐私
每次与外部服务进行在线交互都会创建关于用户的数字记录和存储的数据。这些外部服务可能是信用卡交易、医疗咨询、人口普查数据收集、选民登记等。尽管表面上收集数据是为了向公民提供更好的服务，但个人隐私不可避免地会面临风险。随着互联网覆盖范围的扩大和生成的数据量不断增加，数据保护，特别是保护个人隐私，变得尤为重要。

卡莉斯塔·博纳维茨、彼得·凯鲁兹、布伦丹·麦克马汉、丹尼尔·拉梅奇 - 联邦学习和隐私
如果数据管理不当，集中式数据收集可能会使个人面临隐私风险，并使组织面临法律风险。联邦学习是一种机器学习设置，其中多个实体在中央服务器或服务提供商的协调下合作解决机器学习问题。每个客户端的原始数据都存储在本地，不会交换或传输；相反，旨在立即聚合的重点更新用于实现学习目标。