看看 Pat 的
关于分布式系统的零散思考

pathelland.substack.com

逃离奇点

  下载本文的 PDF 版本 PDF

巴巴布的力量

期待不断地和愉快地感到困惑


Pat Helland

元数据定义了我们数据的形状、形式以及如何理解它。它遵循了自然语言在我们日益互联的世界中采取的趋势。虽然许多概念可以使用共享元数据进行交流,但没有人能够跟上达成共识所需的大量不同的新概念。

英语是世界通用语,但人类的许多方面以及不同人所持有的概念根本无法用英语捕捉,无论这种语言多么普及。事实上,英语本身就有角落、缝隙、方言、聚会和青少年俚语,它们创新和扩展了它的排列组合,其用法通常不会趋同。不同的人群以不同的方式扩展英语。

计算机系统具有新兴且日益增长的通用元数据以实现互操作性。XML 和现在的 JSON 通过使消息解析变得容易和通用,发挥着类似的作用。我们不再争论 ASCII 与 EBCDIC,这真是太好了,但这远非理解方面最具挑战性的问题。

当我们向上提升理解的堆栈时,新的微妙之处不断涌现。就在我们认为自己理解的时候,对方又有了新的疯狂想法!

尽管我们希望彼此完全理解,但独立的创新远比清晰明了的沟通更重要。我们的经济未来取决于“巴巴布的力量”。

 

两只大象的天启

为了促进沟通,计算行业、各公司和其他组织试图建立标准的沟通形式。我们看到 TCP、IP、以太网和其他通信标准,以及 XML、JSON 甚至 ASCII,使沟通更加容易。除此之外,还有垂直领域的特定标准(例如医疗保健和制造业标准)。许多公司也有内部通信标准。

麻省理工学院的戴夫·克拉克观察到,成功的标准只有在它们足够幸运地在研究热潮之后和产品化巨额投资之前滑入不活跃的低谷时才会发生(图 1)。这一观察被称为两只大象的天启(尽管克拉克实际上并没有这样命名)。1

The Power of Babble: The Apocalypse of Two Elephants

在这个低谷中出现的标准是有效的,并且几乎没有竞争。如果标准没有在这里出现,或者低谷被两个驼峰重叠挤压,那么前进的道路就会更加模糊。

最好的法律标准是对事实标准的橡皮图章。

如果没有事实标准作为起点,那么法律标准通常包含委员会讨论的所有想法的联合。自然选择将这些标准及其混乱之处归入历史书籍。

 

商业世界的方言

计算机系统和应用程序倾向于独立开发,以支持用户的特殊需求。过去,每个系统都是定制的,并支持详细的规范。越来越多的共享应用程序平台被利用,无论是在本地还是在云端。在这些通用应用程序中,存在通用的元数据——至少就应用程序具有共同的传承而言。

当应用程序独立开发时,它们具有不同的概念和表示形式。许多这些购买的应用程序都设计用于扩展。当特定客户将扩展添加到应用程序的侧面时,这会影响其内部和共享数据的形状、形式和含义。

当存在共同的应用程序血统时,就对其数据有共同的理解。流行的 ERP(企业资源计划)、CRM(客户关系管理)和 HRM(人力资源管理)应用程序都有其解决业务问题的方式,并且采用这些解决方案的不同公司可能会发现更容易互操作。

 

内讧式互操作

尽管如此,即使在同一公司的部门或部门之间,理解方面的挑战也可能存在。一家大型企业集团可能会销售多种产品,包括灯泡、洗碗机、机车和核电站。我敢猜测,它没有单一的规范客户记录类型。

当然,合并和剥离会影响公司的元数据。我从个人经验中知道,在银行或保险公司更改我的邮寄地址有多么困难。即使过了一年,他们似乎也无法追踪记录我地址的所有系统。他们难以管理其元数据也就不足为奇了。

 

你说什么?

只要有两种数据表示形式,要么有人适应,要么翻译的保真度就会受到影响。在许多情况下,适应是由经济实力驱动的。当制造商想向大型零售商出售商品时,它可能会被告知公司之间消息传递的确切形状、形式和语义。为了获得业务,制造商会弄清楚的!

狗摇尾巴。在任何沟通伙伴关系中,适应的责任都落在最需要这段关系发挥作用的一方。

在两种数据表示形式之间进行翻译很可能是有损的。并非所有形式的信息都可以转移到另一种形式。很可能有些东西会被置为空值,或者可能被翻译成不精确映射的形式。

每次翻译都是有损的。当翻译发生时,知识的损失就发生了。最好的结果将来自专门的转换,旨在完全采用一个源并将其尽可能好地转换为完全一个目标。这是损失最小的翻译形式。不幸的是,这导致了大量的翻译器。为每个源和目标对创建特定的转换会导致出色的转换保真度,但也会导致 N2 个转换器(见图 2)。

The Power of Babble: Least-lossy Conversion

怎么办?很多时候,我们只是捕获规范表示,并进行两次数据翻译:首先,有损翻译成规范表示;然后,有损翻译从规范表示到目标表示。这是双重有损的,并且无法提供同样好的结果。

为什么要翻译成规范形式?因为对于 N 个源只需要 2*N 个翻译器,并且当 N 变大时,这比 N2 少得多。使用规范元数据作为通用翻译减少了转换器的数量,但会导致双重有损转换(见图 3)。

The Power of Babble: "Double-lossy" conversion

在大多数情况下,人们使用规范元数据来限制复杂性,但在损失过大时添加特定的源到目标转换器。

 

你的玫瑰色眼镜是什么颜色的?

我们都根据一组假设来看待事物。这是一种世界观,使我们能够解释传入的信息。这种解释可能是正确的,也可能是错误的,但更重要的是,对于我们的主观用法来说,它是正确的还是错误的。

计算机系统总是为特定的公司、部门或团体设计的。数据通常被转换为适合一方的含义和用途,但在翻译过程中会失去其更深层的含义。

有时,某些数据的含义和理解深深地植根于文化问题。任何翻译成新的环境和文化都会完全失去意义。除非您研究农奴和领主之间以及男人和女人之间的关系,否则阅读中世纪欧洲的日常生活并没有太大帮助。只有这样,你才能理解书中描述的行为。同样,在任何关于隐私的讨论中,都必须解决文化期望。在北美和欧洲,保护免受披露医疗挑战可能造成的损害至关重要。在印度,为您的孩子审查未来配偶的基本需求被认为比保持疾病隐私更重要。如果不了解假设并通过该视角进行解释,就无法进行沟通。

人工语言世界语创建于 1887 年,希望为所有人实现共同的共享自然语言。有些人抓住并使用它来写作和分享。有人说今天有数百万人说这种语言。

然而,世界语的使用一直在减少。世界上不同社群所说的约 6,000 种语言中的每一种都有其自身的风味和细微差别。有些事情你可以在一种语言中说出来,但在另一种语言中就是说不出来。

 

多样化和同质化

人们使用的词语和短语以及应用程序使用的元数据遵循类似的模式。凭借共同的代码库 DNA 和历史,某些含义是相同的。随着时间的推移、演变和混合,彼此理解变得更加困难。

云端或本地的新软件应用程序有时会提供足够的业务优势,以至于企业会调整其业务运营方式以适应应用程序。新用户通过艰苦的工作采用规范的数据和业务流程表示。当软件的业务价值足够高时,映射到它是具有成本效益的。现在,企业与新方法以及与其他共享新数据的企业进行互操作的程度更加紧密。

接下来,企业将开始使用可扩展性功能来扩展系统。这些扩展可能会成为误解的根源,但它们为企业带来了业务价值。

美国、加拿大和许多其他西方国家的人口具有巨大的多样性。新来者带来了新的习俗。他们努力了解新家园的现有习俗。虽然起初有很多差异,但在短短几年内,移民就融入了社会。他们的孩子深深地扎根于新的国家,即使他们仍然喜欢他们母亲在家做的某些食物。这些食物变得像比萨饼、炸玉米饼和沙拉三明治一样具有美国特色(或英国特色或德国特色)。同样,基本元数据也在不断移动和调整,因为它吸收了那些不久前还完全没有意义的新消息和字段。

 

欣赏多样性

虽然不理解另一方很痛苦,但这可能意味着已经发生了创新和增长。经济力量将驱动何时何地值得费心投资于更深入的理解。

对理解的随意对待允许更好的凝聚力,正如亚马逊的产品目录和谷歌或必应的搜索结果所例证的那样。请记住,在许多情况下,文化和背景问题将驱动事物的解释方式。可扩展数据没有预先安排的理解。在表示形式之间进行翻译是有损的,并且经常需要在昂贵的手工翻译器和甚至更具损失性的多次翻译之间进行痛苦的权衡。

就我个人而言,随着岁月的流逝,我对我不了解和不理解的事情变得更加放松。很多东西让我困惑!当我们跨越不同的界限进行互操作时,我们最好记住,我们对完美理解和一致意见的压力越小,我们就会相处得越好。展望未来,我期待不断地和愉快地被巴巴布的力量所迷惑。

 

参考文献

1. Clark, D. 2009. 两只大象的天启,或“我真正说过的”。高级网络架构。麻省理工学院 CSAIL; http://groups.csail.mit.edu/ana/People/DDC/Apocalypse.html

 

Pat Helland 自 1978 年以来一直从事事务系统、数据库、应用程序平台、分布式系统、容错系统和消息传递系统的实施工作。为了消遣,他偶尔撰写技术论文。他目前在 Salesforce 工作。

版权所有 © 2016 归所有者/作者所有。出版权已许可给 。

相关文章

不变性改变一切
- Pat Helland
我们需要它,我们负担得起它,现在是时候了。
https://queue.org.cn/detail.cfm?id=2884038

存储集群标准化
- Garth Goodson 等人。
pNFS 将成为并行数据访问的新标准吗?
https://queue.org.cn/detail.cfm?id=1317402

搜索被认为是不可或缺的
- Ryan Barrows 和 Jim Traverso
标签、分类和导航的结合可以帮助最终用户利用企业搜索的力量。
https://queue.org.cn/detail.cfm?id=1142068

acmqueue

最初发表于 Queue 第 14 卷,第 4 期
数字图书馆 中评论本文





更多相关文章

Qian Li, Peter Kraft - 事务和无服务器是天作之合
数据库支持的应用程序是无服务器计算令人兴奋的新领域。通过紧密集成应用程序执行和数据管理,事务性无服务器平台实现了许多在现有无服务器平台或基于服务器的部署中不可能实现的新功能。


Pat Helland - 任何其他名称的身份
新兴的系统和协议既收紧又放松了我们对身份的概念,这很好!它们使完成工作变得更容易。REST、IoT、大数据和机器学习都围绕着故意保持灵活且有时模棱两可的身份概念。身份概念是我们分布式系统的基本机制的基础,包括互换性、幂等性和不变性。


Raymond Blum, Betsy Beyer - 实现数字永恒
当今的信息时代正在为世界所依赖的数据创造新的用途和新的管理方式。世界正在远离熟悉的物理文物,转向更接近其本质信息的新的表示方式。我们需要流程来确保知识的完整性和可访问性,以保证历史将被知晓和真实。


Graham Cormode - 数据速写
您是否曾经感到被源源不断的信息流淹没?似乎大量的新电子邮件和短信需要持续关注,还有电话要接听、文章要阅读、敲门声要回应。将这些碎片拼凑在一起以跟踪重要的事情可能是一个真正的挑战。为了应对这一挑战,流数据处理模型越来越受欢迎。其目的不再是捕获、存储和索引每一分钟的事件,而是快速处理每次观察,以便创建当前状态的摘要。





© 保留所有权利。

© . All rights reserved.