出处

第 19 卷,第 3 期 – 2021 年 5-6 月

Provenance

哪里出错了?
为什么我们需要一个 IT 事故调查委员会

政府应该设立 IT 事故调查委员会,原因与他们为船舶、铁路、飞机以及许多情况下为汽车设立事故调查委员会的原因完全相同。丹麦设立了铁路事故调查委员会,因为太多人被蒸汽火车致残和丧生。英国的航空事故调查处成立的原因也大致相同,但具体而言,是因为当航空公司自行调查时,没有人更聪明。这听起来是否有点熟悉?

作者:Poul-Henning Kamp

深入挖掘大数据出处 (使用 SPADE)
用于查询出处的用户界面

存在多种用于查询出处的界面。许多界面在允许用户选择他们选择的数据库类型方面不够灵活。有些在数据模型中提供查询功能,该数据模型与自然用于出处的面向图形的数据模型不同。其他界面具有用于查找结果的直观结构,但对有效链接响应的支持有限,这是分面搜索所需要的。本文介绍了一个用于查询出处的用户界面,该界面解决了这些问题,并且与正在使用的底层数据库无关。

作者:Ashish Gehani, Raza Ahmad, Hassan Irshad, Jianqiao Zhu, Jignesh Patel

当策展变成创造
算法、微内容以及平台和创作者之间逐渐消失的区别

当今的媒体平台受益于:(1) 组织内容的自由裁量权,(2) 用于策划用户发布内容的算法,以及 (3) 免于承担责任。这种有利的监管环境源于当前的法律框架,该框架区分了中介机构和内容提供商。这种区分不适用于现代社交媒体格局,在现代社交媒体格局中,平台部署强大的数据驱动算法,在塑造人们所看到的内容方面发挥着越来越积极的作用,并且用户提供不连贯的原始内容片段作为素材。今天的平台有权将他们喜欢的任何内容货币化,在符合其公司目标时进行审核(如果需要),并以他们希望的任何方式策划其内容。

作者:Liu Leqi, Dylan Hadfield-Menell, Zachary C. Lipton

分而治之
二分法的使用和局限性

如果您遇到一个偶尔才会失败的 Heisenbug,那么二分法就毫无用处。这些细微的错误是最难修复的,也是让我们批判性地思考我们正在做的事情的错误。定时错误、分布式系统中的错误以及我们在构建日益复杂的软件系统时面临的所有难题,目前还无法通过简单的二分法来解决。通常情况下,为一个复杂的问题编写一个可用的二分法测试比在树的尖端分析问题花费的时间更长。

作者:George V. Neville-Neil

真实世界的字符串比较
如何正确处理 Unicode 序列

在许多语言中,字符串比较是初学者的陷阱。对于任何 Unicode 字符串作为输入,比较通常甚至会对高级用户造成问题。Unicode 中不同字符的语义等价性需要在比较字符串之前对字符串进行规范化。本文展示了如何正确处理 Unicode 序列。两个字符串的相等性比较常常引发关于按值比较、对象引用比较、严格相等和松散相等之间差异的问题。最重要的方面是语义等价性。

作者:Torsten Ullrich

声明式机器学习系统
机器学习的未来将取决于它掌握在我们其余人手中。

现在训练和使用 ML 模型的人员通常是经验丰富的开发人员,他们在大型组织中工作并接受多年的学习,但下一波 ML 系统应该允许更多的人(可能没有任何编码技能)执行相同的任务。这些新的 ML 系统将不需要用户完全理解模型是如何训练和用于获得预测的所有细节,而是将为他们提供一个更抽象的界面,该界面要求更低且更熟悉。声明式界面非常适合此目标,通过隐藏复杂性并支持关注点分离,最终提高生产力。

作者:Piero Molino, Christopher Ré

不要陷入“骗局”
一致性、收敛性和合流性是不一样的!最终一致性和最终收敛性也与合流性不同。

“最终一致性”是一个流行的短语,其定义模糊。人们甚至在使用一致性时也不一致。但另外两个术语“收敛性”和“合流性”具有更清晰的定义,并且更容易理解。

作者:Pat Helland

© . All rights reserved.