下载本文的PDF版本 PDF

算法决策中的责任制

计算新闻学的视角


尼古拉斯·迪亚科普洛斯,马里兰大学帕克分校

每个财政季度,自动化写作算法都会为美联社(Associated Press)批量生产数千篇公司盈利文章,而这些文章几乎完全基于结构化数据。为美联社撰写文章的Automated Insights和Narrative Science等公司现在几乎可以在任何拥有清晰且结构良好数据的领域撰写直接新闻报道:金融领域当然可以,体育、天气和教育等领域也可以。这些文章也并非敷衍了事;它们具有可变性、语气和风格,在某些情况下,读者甚至难以区分机器生成的文章和人工撰写的文章。4

这种系统所提供的规模、速度和节省劳力的成本优势是难以辩驳的。但媒体组织为此付出的代价似乎是细微差别和准确性。在谷歌上快速搜索“'generated by Automated Insights' correction”,会找到数千篇自动撰写、发布,然后不得不发布更正的文章的结果。错误范围从相对无害的公司总部所在地,到更严重的用词错误——例如,未达到而不是超过盈利预期。这些错误中是否有任何是市场波动的错误?根本原因是数据错误、推理错误还是粗心的工程设计?发布更正的正确方法是什么?

内容的算法化策展也是几乎我们所有人都在使用的一些最重要和最有影响力的新闻传播平台背后的驱动力。最近的一项皮尤研究发现,Facebook是61%的千禧一代获取政府和政治新闻的来源,18 然而,大多数公众并未意识到Facebook新闻Feed是算法化策展的。11 当你考虑到Facebook仅仅根据个人新闻Feed中推广的硬新闻数量就可以影响选举中的选民投票率时,24 这就变得更加成问题了。这一信息,以及最近的研究表明,有偏见的搜索结果会改变未决选民的投票偏好,10 指出我们需要开始质疑此类策展和排名系统在多大程度上会影响民主进程。

这些仅仅是算法影响我们的媒体和信息接触的几个例子。但自动化决策的影响正在几乎所有行业和政府领域感受到,无论是市政当局管理有限资源的欺诈检测系统,还是对教师绩效进行评分和排名的公式,抑或是亚马逊、Airbnb或Uber进行动态产品定价的多种方式。8 现在是时候认真思考,驱动社会大范围运转的算法化决策应该如何对公众负责。面对重大或代价高昂的错误、歧视、不公平地拒绝公共服务或审查时,何时以及如何应该约束算法?

计算机科学和工程专业的从业人员可以在这里发挥作用。虽然自主决策是算法能力的核心,但算法中的人为影响因素有很多:标准选择、优化函数、训练数据以及类别的语义,仅举几例。通常,人工操作员仅在最终决策中参与,却早已受到算法的推动和建议的影响。

算法决策

首先,从算法做出的不同类型的原子决策方面了解情况是有帮助的。这些包括优先排序、分类、关联和过滤的过程。

优先排序

优先排序是我们每天都在做的事情,以应对信息的猛烈冲击。作为时间和注意力有限的生物,我们不能忽视节约的需求。算法以强调或关注某些事物而牺牲其他事物的方式对信息进行优先排序;顾名思义,优先排序是关于区分的。因此,可能会对个人或其他实体产生影响,在设计期间应予以考虑。搜索引擎是典型的例子,但还有许多其他重要的排名——从学校和医院的质量,到监视名单上非法移民的风险程度,应有尽有。14 排名中使用的标准、它们的定义和数据化方式以及它们的权重都是重要的设计决策,值得仔细考虑和审查。

分类

分类决策通过考虑特定实体的关键特征,将该实体标记为属于给定类别。类别成员资格随后可以驱动各种下游决策。在自动化分类中,偏见、不确定性或完全错误的发生机会很多。作为监督机器学习算法基础的训练数据是一个重要的考虑因素,因为其中可能潜藏着人为偏见。Shilad Sen及其合作者最近发表的研究强调了考虑收集训练数据的文化社区的必要性。23 从Mechanical Turk众包的数据可能对广泛共享和一致认可的知识有用,但在其他情况下会引入差异。正如他们所写,底线是:“在收集黄金标准时,研究人员和从业人员必须考虑黄金标准的对象、使用它的系统或算法以及知识类型。”

在开发分类算法时,设计人员还必须考虑分类的准确性:假阳性和假阴性,以及这两种类型的错误对利益相关者的后果。例如,在波士顿,一名被归类为持有欺诈性驾驶执照的男子(在本例中为假阳性)在问题解决之前无法工作。可以调整分类算法以减少两种类型错误中的任何一种,但当一种错误减少时,另一种错误就会增加。调整可以赋予决策中不同利益相关者和结果特权,这意味着设计人员在平衡错误率时会做出重要的价值判断。16

关联

关联决策围绕在实体之间创建关系展开。这些关系的语义可以从通用的“与…相关”或“类似于…”到不同的特定领域含义不等。这些关联在其人类解释中会导致内涵。例如,当德国一名男子在谷歌上搜索自己的名字时,自动完成建议将其与“科学教”和“欺诈”联系起来,这对该男子来说既有意义又令人不安,导致他提起诽谤诉讼,并最终胜诉。6 协同过滤是一种流行的算法类别,它围绕一个实体定义关联邻域(实际上是一个集群),并使用这些紧密联系来建议或推荐其他项目。13 量化的困扰困扰着关联,就像困扰排名和分类一样。已定义和测量的标准,以及决定两个实体匹配程度的相似性指标,都是工程选择,可能会对关联的准确性产生影响,无论是在客观上还是在其他人对该关联的解释方面。

大数据教会的一个问题是对相关性作为国王的过度信仰。相关性肯定会在数据维度之间创建统计关联。

但尽管有流行的格言“相关性不等于因果关系”,人们经常将相关性关联误解为因果关系。在谷歌上名字与欺诈相关的男子可能或可能不是该关联的原因,但我们肯定会这样解读它。这一切都表明了沟通关联的挑战,以及区分相关性关联与因果关联的必要性。

过滤

最后,过滤决策涉及根据各种规则或标准包含或排除信息。通常,这在用户界面级别出现,例如,在Facebook或Flipboard等新闻阅读应用程序中。由于实际上总有一些喷子或恶棍愿意污染沙箱,因此在发布社交媒体时,审核和过滤是至关重要的要素。在线评论有时会通过算法过滤,以确定它们是否是反社会的,因此不值得公开消费。当然,这里的危险在于走得太远——变成审查。应仔细考虑可能是误报的审查决策,尤其是在言论自由根深蒂固的文化中。

最终,在考虑算法可能做出的各种决策和预测时,特别是那些可能影响人的决策和预测,但也包括那些影响财产的决策和预测,您必须考虑可能出现的错误以及歧视和审查的可能性。只需阅读的道德政策即可。1,2

软件工程道德规范列出了八项原则,这些原则是对专业行为的期望。首先也是最重要的是,软件工程师应以公众利益行事:对其工作负责并承担责任,用公共利益来调节私人利益,确保安全和隐私,避免欺骗,并考虑弱势群体。的一般道德要求包括诸如“避免伤害他人”、“公平行事,不歧视”和“尊重他人隐私”之类的准则。

让这些深入人心。

您是否曾经编写过可能违反任何这些要求的算法?这可能不是故意的,但如果您进行了更彻底的基准测试或考虑了您的算法创作的输出将被使用的人文环境,您可能会注意到一些副作用。您是否可能以不适当的方式使用了受保护的特征,例如种族、民族、宗教、国籍、性别、性取向、残疾、婚姻状况或年龄?关键在于,这些道德理想需要贯穿整个工程过程,以便人们不断地重新思考:不太可能发生的假阳性的后果是什么?或者训练数据集中的标准如何衡量和定义的影响是什么?早在近二十年前,海伦·尼森鲍姆就具有远见卓识地建议制定明确的护理标准,包括考虑这些问题的严格工程指南。21

政府与私营部门的责任制

政府使用算法的责任制(以及算法背后人员的责任制)的授权与私营部门的授权略有不同。在现代民主国家的情况下,公民选举

一个政府,该政府提供社会公益,并以规范和法规来调节的方式行使其权力和控制权。政府只有在对公民负责的范围内才是合法的。但算法目前在很大程度上不受监管,它们确实正在以某种方式(例如,隐藏的政府监视名单)对个人或政策行使权力,而在某些情况下,这种权力完全缺乏责任制。最近一项对用于预测预期寿命和偿付能力的SSA(社会保障管理局)模型的学术审查发现,存在系统性低估,这意味着资金比更好的估计所保证的更为稳固。15 我们,作为被统治者,应该认为,鉴于这些预测所依据的重要政策决策,这些预测缺乏透明度,甚至缺乏系统的基准测试和评估是不可接受的。

另一方面,公司不具有相同的公共责任制授权,尽管它们有时可能会受到社会压力(例如,抵制)的推动而采取行动。也许更引人注目的是资本主义的论点,即更高的数据质量以及因此更好的推理将带来更满意的客户。做到这一点的最明确方法是设计裁决和促进最终用户纠正假阳性的流程。

允许用户检查、质疑和更正数据中的不准确标签将提高机器学习应用程序的整体数据质量。

透明度可以成为促进责任制的机制,我们应该向政府要求透明度,并敦促行业实现透明度。公司通常会限制其透明度,因为担心因商业秘密而失去竞争优势,或担心其系统暴露于博弈和操纵。然而,算法的完整源代码透明度在许多情况下(如果不是大多数情况下)都是过度的。相反,披露某些关键信息,包括汇总结果和基准,对于向公众传达算法性能将更为有效。

当汽车制造商披露碰撞测试结果时,他们不会告诉您他们如何设计车辆的细节。当地方市政当局发布餐厅检查评分时,他们不会披露餐厅的独特食谱。关键在于,存在透明度模型,可以有效地审计和披露公众感兴趣的信息,而不会与知识产权和商业秘密相冲突。在某些情况下,对操纵和博弈披露标准的担忧是没有根据的。例如,不基于用户行为的标准不提供个人进行博弈的机制,因为个人无法直接控制这些属性。在某些情况下,对算法进行博弈或操纵甚至可能是一件好事。例如,如果信用评级机构披露了他们用来对个人进行评分的标准,那么如果每个人都对其评分进行博弈,难道不是一件伟大的事情吗?他们将不得不在游戏中采取对财务负责的行为。

对于政府而言,《信息自由法》(FOIA)以及美国和许多其他司法管辖区的类似法律强制要求在请求时披露政府记录和数据,当然,也存在例外情况,例如当政府集成受商业秘密保护的第三方系统时。至少有一次成功使用FOIA请求来强制披露政府源代码。19 在1992年判决的另一起FOIA案件中,联邦公路管理局拒绝披露其用于计算承运人安全评级的算法,但最终在法庭上败诉,原告成功辩称政府必须披露该计算中使用的因素权重。9

因此,FOIA在处理政府使用算法的问题上有所帮助,但美国现行FOIA法律的问题之一是,它不要求机构创建尚不存在的文件。假设政府算法可以在内存中计算与某些受保护类别(例如种族)相对应的变量,并在其他下游决策中使用该变量。只要内存中的该变量从未直接存储在文档中,FOIA就无法强制披露它。审计跟踪可以帮助缓解此问题,方法是记录预测过程中逐步进行的相关性和推理。应制定指南,说明政府何时使用算法应触发审计跟踪。3

现在可能是时候重新考虑FOIA法规了,可以按照我建议的FOIPA(信息处理自由法)的方向进行。FOIPA将避开与披露公式或源代码相关的问题,而是允许公众提交基准数据集,政府将被要求通过其算法处理这些数据集,然后提供结果。这将允许包括记者或政策专家在内的利益相关方运行评估,以探测政府算法,对错误进行基准测试,并查找歧视或审查案例。例如,您可以采用两行数据,这两行数据仅在一个敏感信息(如种族)上有所不同,并检查结果以确定是否发生了不正当的歧视。

算法透明度标准

到目前为止,我们已经涵盖了很多内容:从算法做出的决策,到错误的风险,以及负责任地设计这些系统的伦理。但您可能仍在问自己这个首要问题:关于我们的算法,我们可以而且应该披露什么?

为了帮助回答这个问题,我在2015年春季在哥伦比亚大学陶氏数字新闻中心领导组织了一次关于媒体算法透明度的研讨会。来自新闻媒体和学术界的约50人聚集在一起,讨论如何努力制定支持通过算法进行健全的新闻和信息管理政策的想法。我们讨论了关于“自动生成的新闻内容”、“故事讲述中的模拟、预测和建模”以及“算法增强的策展”的案例研究,并集思广益了可能公开披露的各种算法的维度。

基于研讨会上产生的广泛想法,我们提出了可能考虑披露的五大类信息:人为参与、数据、模型、推理和算法存在。

人为参与

在高层面上,围绕人为参与的透明度可能涉及解释算法的目标、目的和意图,包括编辑目标和人为编辑过程或算法由此产生的社会背景。您公司中谁对算法具有直接控制权?谁具有监督权并负责任?最终,我们希望确定作者,或设计者,或创建并支持此事的团队。在任何集体行动中,都很难分解并准确地将功劳归于谁做了什么(或可能对特定错误负责),21 然而,披露特定的人为参与将带来社会影响,既奖励个人的声誉,又降低发生事故时搭便车的风险。如果相关个人的名字被公开,他们可能会感到更大的公共责任感和压力。

数据

数据方面,有很多机会以各种方式对驱动算法的数据保持透明。这里实现透明度的一种途径是沟通数据的质量,包括其准确性、完整性和不确定性,以及其及时性(因为有效性可能会随时间变化)、特定人群样本的代表性以及假设或其他限制。数据处理的其他维度也可以变得透明:它是如何定义、收集、转换、审查和编辑的(无论是自动的还是人工的)?各种数据标签是如何收集的?它们是否反映了更客观或更主观的过程?可以披露一些关于数据是私有的还是公共的信息,以及它是否包含如果披露会产生个人隐私影响的维度。如果个性化正在发挥作用,那么正在使用哪些类型的个人信息?驱动个性化的个人的收集或推断的个人资料是什么?

模型

模型本身以及建模过程也可以在一定程度上变得透明。高度重要的是了解模型实际使用的输入:算法中使用哪些特征或变量?通常,这些特征是加权的:这些权重是多少?如果在某些机器学习过程中使用了训练数据,那么您将沿着上面列举的所有潜在维度来描述用于该过程的数据。一些软件建模工具具有不同的假设或限制:用于建模的工具是什么?

当然,这一切都与人为参与联系在一起,因此我们想知道权重的理由以及考虑替代模型或模型比较的设计过程。模型背后的假设(统计或其他)是什么?这些假设从何而来?如果模型的某些方面未在前端公开,原因是什么?

推理

算法做出的推理,例如分类或预测,通常会留下关于准确性或潜在错误的疑问。算法创建者可能会考虑针对标准数据集进行基准测试,并使用标准准确性度量来披露一些关键统计数据。误差范围是多少?准确率是多少?有多少假阳性和假阴性?采取了哪些类型的步骤来补救已知错误?错误是人为参与、数据输入还是算法本身造成的?分类器通常会产生置信度值,并且也可以汇总披露此值,以显示这些置信度值的平均范围,作为结果不确定性的度量。

算法存在

最后,我们可以披露是否以及何时使用了算法,特别是当使用个性化时,但也要意识到,例如,是否正在使用A/B测试。其他可见性问题与浮出水面有关,即关于已过滤掉的策展体验的哪些元素的信息。例如,在Facebook的情况下,您看不到什么?相反,您发布了什么(例如,在新闻Feed中)是其他人看不到的?

技术系统是流动的,因此任何披露尝试都必须考虑算法的动态性,算法可能会不断从新数据中学习。工程文化需要根深蒂固地融入持续评估的思想。也许需要创建与算法风险建模或透明度建模相关的新型多学科角色,以便这些问题得到专注和持续的关注。

在信息披露会使实体看起来很糟糕或对其公众形象造成重大损害的情况下,我足够务实,不会期望自愿遵守任何道德要求。实体使用信息披露来参与战略印象管理。相反,我们可以考虑强制信息披露的法规,或者至少围绕关键的算法影响决策(例如信用评分)进行例行审计。3 这里阐述的信息维度也可以为这些监管设计提供依据。

在其他情况下,对于调查黑盒算法,可能需要采取更具对抗性的方法。在新闻领域,我将其称为算法责任报告,5 它涉及沿关键维度对算法进行抽样,以检查输入输出关系,并调查和描述算法的影响、错误或偏见。这是传统调查性责任新闻报道的延伸,多年来,传统调查性责任新闻报道的目标是揭露政府和其他机构的渎职行为和权力滥用。

为了提供这种类型的报告的味道,我在2015年初开始调查广为宣传的Uber动态定价算法。8 这款叫车应用程序使用动态定价来“鼓励更多司机上线”并尝试匹配供需。这是一条容易接受的思路,并且符合基本的经济理论。我对华盛顿特区一个月的定价数据进行的分析表明,动态定价并没有激励新的司机上线,而是重新分配了已经在线的司机。这很重要,因为它意味着司机的供应将转向提供更高动态定价的社区,而使其他社区供应不足,并且汽车等待时间更长。Uber汽车是竞争性商品,分析引发了关于哪些社区最终获得更好或更差服务质量的问题。对某些人来说,更高的价格和更好的服务意味着对其他人来说更差的服务。

未来的挑战

为了理解何时以及如何以最佳方式负责任地行事并对我们构建的算法保持透明,仍有许多研究要做。决定披露什么只是一个开始;还需要探索沟通媒介。人机交互以及机器学习和软件工程都可以在这里发挥作用。

本文大致阐述了可能披露的关于算法的信息类别:人为因素、数据、模型、推理和算法存在。然而,实际上,每个算法都略有不同,需要根据具体情况进行理解,以确定可以披露什么。这既是一个技术过程,也是一个以人为中心的过程。我们需要开发信息披露建模过程,其中包括思考公众将如何使用披露的任何特定信息。

提供算法输出的透明度和解释可能服务于许多目标,包括可审查性、信任、有效性、说服力、效率和满意度。最终,我们需要进行用户建模,并思考一系列问题,例如我们希望通过每条披露的信息来实现什么目标,以及我们试图影响什么行为。公众将根据该信息做出哪些决策?可以披露哪些信息,以使这些决策更有效,或减轻风险?用户可能如何响应此信息?25

人机界面挑战的另一个维度是为透明度信息设计有效的用户体验。最近的研究表明,算法透明度信息可以带来更好的结果,但代价是愉悦和令人放心的使用体验。22 未来面临的主要挑战是确定有益但不影响可用性的适当披露机制。此外,一些用户可能根本不在乎,而另一些用户则非常感兴趣,这就提出了设计挑战,即如何在不为不感兴趣的用户提供过量信息而污染用户体验的情况下,满足众多公众的需求。当然,算法透明度不必直接集成到用户体验中。例如,公司或政府可以按季度或年度发布算法透明度报告,其中将披露先前列举的五个维度的各个方面。

研究界正在关注的一种方法是开发可以用人类容易理解的方式解释的机器学习方法。例如,BRL(贝叶斯规则列表)技术学习一系列人类可读的规则,这些规则链接在一起时,可以提供对分类器的人类可读解释。17 NLG(自然语言生成)中正在开发其他方法,以输出文本来解释为什么或如何做出决策。想象一下,如果您最喜欢的机器学习库(例如scikit-learn)可以用一句话解释为什么某个特定输入案例被这样分类。即使仅用于调试,那也将非常有用。

另一方面,我们可以考虑集成呈现策略,利用数据可视化来简洁地传达算法的工作原理。例如,早期研究表明,显着的视觉解释(例如直方图)可以有效地传达推荐解释。 13 在与IEEE Spectrum的合作中,我构建了一个数据驱动的应用程序,用于对顶级编程语言进行排名,该应用程序利用12个不同的加权数据输入来得出排名。7 然而,与年度《美国新闻与世界报道》大学排名等静态、固定的排名不同,我们定义了几种不同的权重。因此,例如,您可以快速对面向职位列表或开源项目的语言进行加权排名,并且您可以通过确定哪些数据输入对您很重要并相应地重新加权它们来创建自己的自定义排名(图1)。您还可以直观地比较您的排名以进行敏感性分析,并查看因素的变化将如何影响最终输出排名。根据人们在推特上分享的关于该应用程序的1,285条推文,我们发现大约六分之一的推文表明人们正在以各种方式重新加权排名。虽然现在声称在设计动态和透明的排名界面方面取得胜利还为时过早,但这至少是我设想的交互式建模方向迈出的一步。

Accountability in Algorithmic Decision-making: IEEE Top Programming Languages ranking and reweighting interfaces

这里也存在技术挑战。特别是,人们常常担心披露关于系统如何工作的信息可能会导致操纵和博弈。如果需要透明度,则可能需要进行一定数量的威胁建模。如果提供了关于算法的特定信息,那么如何对其进行博弈、操纵或规避?谁会获益或受损?还需要设计和实施抗操纵算法。需要开发健壮且难以博弈的特征集。

算法的软件工程还需要考虑支持算法状态透明度和反馈的架构,以便人们可以有效地引导它们。20 算法实现应支持回调或其他日志记录机制,这些机制可用于向客户端模块报告信息。这是至关重要的系统工作,将构成输出审计跟踪的基础。

最后,我们需要致力于机器学习和数据挖掘解决方案,这些解决方案直接考虑到公平和反歧视条款。 例如,最近的研究探索了算法方法,这些方法可以通过统计转换输入数据集来识别和纠正分类器中不同的影响,从而使受保护属性的预测成为不可能。12 在这个领域还需要更多的研究,因为不同类型的模型和数据类型可能需要不同的技术方法和调整。

结论

社会必须努力解决算法在政府和工业中的使用方式,以便将充分的问责机制构建到这些系统中。 这里提出的关于在授权算法做出决策时以合乎道德和负责任的方式行事的想法,对于融入您的实践非常重要。 在以下方面仍有许多研究要做:理解算法透明度的适当维度和模式,如何实现交互式建模,新闻业应如何发展,以及如何使机器学习和软件工程对解决这些问题敏感且有效。

参考文献

1. . 2015. 软件工程道德与职业实践准则; https://www.acm.org/about/se-code#full

2. 道德与职业行为准则。1992年; https://www.acm.org/about/code-of-ethics.

3. Citron, D., Pasquale, F. 2014. 评分社会:自动化预测的适当程序。华盛顿法律评论 89。

4. Clerwall, C. 2014. 机器人记者登场。新闻实践 8(5): 519-531。

5. Diakopoulos, N. 2015. 算法问责制:计算权力结构的新闻调查。数字新闻业 3(3): 398-415。

6. Diakopoulos, N. 2014. 算法诽谤:无耻的自动完成案例。Tow 数字新闻中心。

7. Diakopoulos, N., 等人。2014. 数据驱动的排名:IEEE 顶级编程语言新闻应用程序的设计与开发。计算 + 新闻研讨会论文集。

8. Diakopoulos, N. 2015. Uber 动态定价的真正运作方式。华盛顿邮报 Wonkblog (4月17日)。

9. Don Ray Drive-A-Way Co. 诉 Skinner 案,785 F. Supp. 198 (D.D.C. 1992)。1992年; http://law.justia.com/cases/federal/district-courts/FSupp/785/198/2144490/

10. Epstein, R., Robertson, R.E. 2015. 搜索引擎操纵效应 (SEME) 及其对选举结果的可能影响。美国国家科学院院刊 (PNAS) 112(33)。

11. Eslami, M., 等人。2015. “我一直以为我离 [她] 不是那么近”:推理新闻源中不可见的算法。第 33 届 SIGCHI 人机交互系统会议论文集

12. Feldman, M., 等人。2015. 证明和消除不同的影响。第 21 届 国际知识发现与数据挖掘会议论文集: 259-268。

13. Herlocker, J. L., 等人。2000. 解释协同过滤推荐。 计算机支持的协同工作会议论文集:241-250。

14. Kalhan, A. 2013. 通过技术、监控和隐私的视角看移民警务和联邦制。俄亥俄州立法律杂志 74。

15. Kashin, K., 等人。2015. 美国社会保障管理局预测中的系统性偏差和不透明性。经济展望杂志 29(2)。

16. Kraemer, F., 等人。2010. 是否存在算法伦理?伦理与信息技术 13(3): 251-260。

17. Letham, B., 等人。2015. 使用贝叶斯分析构建带有规则的可解释分类器。应用统计年鉴

18. Mitchell, A., 等人。2015. 千禧一代与政治新闻。皮尤研究中心,新闻与媒体 (6月1日); http://www.journalism.org/2015/06/01/millennials-political-news/

19. Muckrock. 2011. HEAT SAFETY TOOL 源代码; https://www.muckrock.com/foi/united-states-of-america-10/source-code-of-heat-safety-tool-766/

20. Mühlbacher, T., 等人。2014. 打开黑匣子:提高用户参与现有算法实现的策略。IEEE 计算机图形学与可视化汇刊 20(12): 1643-1652。

21. Nissenbaum, H. 1996. 计算机化社会中的问责制。科学与工程伦理 2(1): 25-42。

22. Schaffer, J., 等人。2015. 收到消息了吗?:微型博客数据分析的解释界面研究。第 20 届国际智能用户界面会议 (IUI) 论文集:345-356。

23. Sen, S., 等人。2015. Turkers、学者、“阿拉法特”和“和平”:文化社区和算法黄金标准。第 18 届 计算机支持的协同工作与社会计算会议论文集:826- 838。

24. Sifry, M. 2014. Facebook 希望你在星期二投票。以下是它在 2012 年如何搞乱你的信息流的。琼斯夫人杂志 (10月31日); http://www.motherjones.com/politics/2014/10/can-voting-facebook-button-improve-voter-turnout

25. Tintarev, N., Masthoff, J. 2007. 推荐系统中解释的调查。国际数据工程会议论文集:801-810。

Nicholas Diakopoulos 是马里兰大学帕克分校 Philip Merrill 新闻学院的助理教授,并在信息研究学院和计算机科学系担任客座职位。他还是哥伦比亚大学 Tow 数字新闻中心的研究员。他的研究领域是计算和数据新闻学,重点是算法问责制、叙事数据可视化以及新闻中的社会计算。他在佐治亚理工学院互动计算学院获得计算机科学博士学位,并在那里共同创立了计算新闻学课程。在加入 UMD 之前,他曾在哥伦比亚大学、罗格斯大学和纽约城市大学担任研究员,研究信息科学、创新和新闻学的交叉领域。

版权 © 2015 由所有者/作者持有。出版权已授权给 。

acmqueue

最初发表于 Queue vol. 13, no. 9
数字图书馆 中评论本文





更多相关文章

Mark Russinovich, Cédric Fournet, Greg Zaverucha, Josh Benaloh, Brandon Murdoch, Manuel Costa - 机密计算证明
证明是用于完整性和隐私的强大工具,使验证者能够委托计算并仍然验证其正确执行,并使证明者能够对计算细节保密。CCP 和 ZKP 都可以实现可靠性和零知识,但存在重要差异。 CCP 依赖于硬件信任假设,这产生了高性能和对证明者的额外保密性保护,但对于某些应用程序来说可能是不可接受的。 CCP 通常也更易于使用,特别是对于现有代码,而 ZKP 带来了巨大的证明者开销,对于某些应用程序来说可能是不切实际的。


Raphael Auer, Rainer Böhme, Jeremy Clark, Didem Demirag - 中央银行数字货币的隐私格局
随着世界各国央行纷纷将现金数字化,隐私问题需要提到首位。所采取的路径可能取决于每个利益相关者群体的需求:注重隐私的用户、数据持有者和执法部门。


Sutapa Mondal, Mangesh S. Gharote, Sachin P. Lodha - 个人信息隐私
每次与外部服务的在线互动都会创建有关用户的数据,这些数据会被数字记录和存储。这些外部服务可能是信用卡交易、医疗咨询、人口普查数据收集、选民登记等。尽管表面上收集数据是为了向公民提供更好的服务,但个人的隐私不可避免地面临风险。随着互联网影响力的增长和生成的数据量,数据保护,特别是保护个人隐私,已变得尤为重要。


Kallista Bonawitz, Peter Kairouz, Brendan McMahan, Daniel Ramage - 联邦学习和隐私
如果数据管理不当,集中式数据收集可能会使个人面临隐私风险,并使组织面临法律风险。联邦学习是一种机器学习设置,其中多个实体在中央服务器或服务提供商的协调下协作解决机器学习问题。每个客户端的原始数据都存储在本地,不进行交换或传输;相反,使用旨在立即聚合的集中更新来实现学习目标。





© 保留所有权利。

© . All rights reserved.