数据

RSS
排序方式

远端内存中的指针
重新思考如何组织数据和计算

有效利用新兴的远端内存技术需要考虑在父进程上下文之外操作富连接数据。正在开发中的操作系统技术通过公开内存对象和全局不变指针等抽象来提供帮助,设备和新实例化的计算可以遍历这些抽象。这些想法将允许在具有分离内存节点的未来异构分布式系统上运行的应用程序利用近内存处理以获得更高的性能,并独立扩展其内存和计算资源以降低成本。

作者:Ethan Miller、Achilles Benetopoulos、George Neville-Neil、Pankaj Mehra、Daniel Bittman | 2023 年 7 月 17 日

0 条评论

磨砺你的工具
为 2020 年代更新 bulk_extractor

本文介绍了我们在最初发布十年后更新高性能数字取证工具 BE (bulk_extractor) 的经验。在 2018 年至 2022 年间,我们将该程序从 C++98 更新到 C++17。我们还进行了完整的代码重构并采用了单元测试框架。DF 工具必须经常更新,以跟上其使用方式的变化。对 bulk_extractor 工具更新的描述可以作为可以而且应该做什么的示例。

作者:Simson Garfinkel、Jon Stewart | 2023 年 3 月 28 日

0 条评论

不仅仅是算法
与 Alfred Spector、Peter Norvig、Chris Wiggins、Jeannette Wing、Ben Fried 和 Michael Tingley 的讨论

收集、存储和处理数据的能力取得了巨大进步,导致数据科学的快速发展及其对经济和社会的几乎所有方面的巨大影响。数据科学也对学术学科产生了巨大影响,出现了新的研究议程、新的学位和组织实体。新教科书《情境中的数据科学:基础、挑战、机遇》的作者分享了他们关于该领域对经济和社会几乎所有方面的影响的看法。

作者:Alfred Spector、Peter Norvig、Chris Wiggins、Jeannette Wing、Ben Fried、Michael Tingley | 2023 年 3 月 27 日

0 条评论

可读可执行文件

可读可执行文件重新定义了已编译二进制文件和源代码之间的关系,使其成为鸡和蛋的关系,因此很容易从另一方派生出另一方。本期 Drill Bits 提供了一个通用的可读性工具,并通过将其追溯到每个人最喜欢的命令行实用程序来展示可读性的优势。

作者:Terence Kelly | 2022 年 11 月 15 日

0 条评论

崩溃一致性
在崩溃存在的情况下保持数据安全是一个基本问题。

在崩溃存在的情况下保持数据安全是存储系统中的一个基本问题。尽管崩溃一致性的高级思想相对容易理解,但在实践中实现它们却出奇地复杂且充满挑战。系统研究社区正在积极努力解决这一挑战,此处审查的论文提供了三种解决方案。

作者:Ram Alagappan | 2022 年 9 月 15 日

0 条评论

FHIR:减少医疗保健数据交换中的摩擦
与 James Agnew、Pat Helland 和 Adam Cole 的讨论

随着医疗保险和医疗补助服务中心目前全力以赴要求医疗保健提供商达到患者数据互操作性和可访问性的高标准,很容易认为很久以前没有实现此目标的唯一原因仅仅是缺乏意愿。互操作数据?这有多难?事实证明比您想象的要难得多。为了深入探讨为什么会这样,我们请 Salesforce 的首席架构师 Pat Helland 与 Smile CDR 的 James Agnew(首席技术官)和 Adam Cole(高级解决方案架构师)进行了交谈,Smile CDR 是一家位于加拿大安大略省多伦多的供应商,提供领先的平台,供医疗保健组织实现 FHIR(快速医疗保健互操作性资源)合规性。

作者:James Agnew、Pat Helland、Adam Cole | 2022 年 5 月 17 日

0 条评论

持久内存分配
利用杠杆来移动软件世界

杠杆放大了轻触的力量,而正确的软件接口在代码的多个层中提供了强大的杠杆作用:熟悉的接口使新的持久内存分配器能够为庞大的软件和硬件安装基础注入新的活力。兼容性允许持久堆轻松地滑到广泛使用的脚本语言解释器之下,从而使所有脚本都具有轻松的按需持久性。

作者:Terence Kelly | 2022 年 5 月 11 日

0 条评论

自主计算
我们经常跨越自主边界进行计算,但确保独立性的模式的含义很少被讨论。

自主计算是使用协作来连接领地及其使者的业务工作模式。这种模式以纸质表格为基础,已经使用了几个世纪。在这里,我们解释领地、协作和使者。我们研究了使者如何在自主边界之外工作,并且在保持局外人的同时很方便。我们还研究了如何在不同领地之间启动工作、长时间运行并最终完成。

作者:Pat Helland | 2022 年 4 月 4 日

0 条评论

数据的规划和照料
毫无理由地重新排列桶

诸如“我们如何保护这些数据?”之类的问题只有在开始时提出才有效,而不是当一些律师或政府官员坐在会议室里,翻阅您的数据和日志,并在他们的呼吸下发出威胁性的声音时。我们关心的所有关于数据的事情都需要预见,但似乎在我们匆忙创造“利益相关者价值”的过程中,我们愿意牺牲这些重要属性,就像数据饕餮一样行事,直到像先生一样。

作者:George V. Neville-Neil | 2022 年 3 月 23 日

0 条评论

持久性编程
我们这样做对吗?

几年前,我的团队正在为一个增强型 911 (E911) 紧急呼叫中心开发一个商业 Java 开发项目。我们对尝试使用传统的 Java over SQL 数据库模型来满足该项目的数据存储要求感到沮丧。在对项目的特定要求(和非要求)进行一些反思之后,我们深吸一口气,决定从头开始创建我们自己的自定义持久层。

作者:Archie L. Cobbs | 2022 年 3 月 14 日

0 条评论

不要陷入“骗局”
一致性、收敛性和合流性是不一样的!最终一致性和最终收敛性也与合流性不同。

“最终一致性”是一个流行的短语,定义模糊。人们甚至在使用一致性时也不一致。但是另外两个术语“收敛性”和“合流性”具有更清晰的定义,并且更容易理解。

作者:Pat Helland | 2021 年 8 月 5 日

0 条评论

真实世界的字符串比较
如何正确处理 Unicode 序列

在许多语言中,字符串比较是初学者的陷阱。以任何 Unicode 字符串作为输入,比较通常甚至会对高级用户造成问题。Unicode 中不同字符的语义等价性需要在比较字符串之前对其进行规范化。本文展示了如何正确处理 Unicode 序列。两个字符串的相等性比较经常引起关于按值比较、对象引用比较、严格相等和宽松相等之间差异的问题。最重要的方面是语义等价性。

作者:Torsten Ullrich | 2021 年 7 月 29 日

0 条评论

深入挖掘大数据来源(使用 SPADE)
用于查询来源的用户界面

存在多个用于查询来源的界面。许多界面在允许用户选择他们选择的数据库类型方面不够灵活。有些界面在与对于来源来说很自然的面向图形的数据模型不同的数据模型中提供查询功能。其他界面具有用于查找结果的直观构造,但对有效链接响应的支持有限,这是分面搜索所需要的。本文介绍了一个用于查询来源的用户界面,该界面解决了这些问题,并且与正在使用的底层数据库无关。

作者:Ashish Gehani、Raza Ahmad、Hassan Irshad、Jianqiao Zhu、Jignesh Patel | 2021 年 7 月 19 日

0 条评论

Baleen 分析
大规模数据过滤提供了意外的惊喜。

数据分析会收集它可以找到的任何东西,并且我们正在发现以前无法获得的模式和见解,这对数据分析以及服务和微服务之间的消息传递都具有影响。似乎许多不同来源之间的良好理解允许更大的灵活性和互连性。灵活性越来越胜过完美。

作者:Pat Helland | 2021 年 1 月 7 日

0 条评论

外部数据与内部数据
保存在 SQL 之外的数据与保存在内部的数据具有不同的特征。

本文介绍了服务和信任对数据处理的影响。它介绍了内部数据与外部数据的概念。在讨论了不跨服务边界共享事务的时间影响之后,本文考虑了外部数据中不变性和稳定性的必要性。这导致将外部数据描述为由不同服务独立生成的数据项的 DAG。

作者:Pat Helland | 2020 年 8 月 2 日

0 条评论

我们思考数据的方式
人工检查黑盒 ML 模型;重新获得数据所有权

我为本期 acmqueue 选择的两篇论文都挑战了我们思考和使用数据的方式,尽管方式非常不同。在“停止解释高风险决策的黑盒机器学习模型,而改用可解释模型”中,Cynthia Rudin 提出了可以由人类专家检查和解释的模型的案例。第二篇论文“本地优先软件:你拥有你的数据,尽管有云”描述了如何保留对数据的自主权。

作者:Adrian Colyer | 2020 年 2 月 18 日

0 条评论

时空不连续
合并来自多个来源的数据可能会导致痛苦的延迟。

当您只有一个数据库供应用程序担心时,您不必考虑部分结果。您也不必考虑在某些其他数据之后到达的数据。它只是简单地在那里。现在,您可以使用大型分布式系统做更多事情,但您必须在及时答案和完整答案之间的权衡方面更加复杂。

作者:Pat Helland | 2019 年 11 月 18 日

0 条评论

SQL 的独特成功
SQL 作为数据表示万神殿中的重要人物,拥有辉煌的未来。

SQL 拥有辉煌的过去和辉煌的未来。那个未来不是作为数据的单一且无处不在的持有者,而是作为数据表示万神殿中的重要人物。当数据不保存在 SQL 中时,到底会发生什么?

作者:Pat Helland | 2016 年 8 月 2 日

0 条评论

管理数据科学的科学
管理数据科学研究团队的经验教训

他们整天都在做什么?当我第一次接手一家从事数据挖掘和机器学习研究的初创公司的工程副总裁时,这就是其他高管想知道的。他们知道团队非常聪明,而且他们看起来工作非常努力,但高管们对工作本身有很多疑问。他们如何知道他们正在做的工作是“正确”的工作?他们可以做其他项目吗?我们如何才能更快地将这项研究成果交付给我们的客户?

作者:Kate Matsudaira | 2015 年 4 月 29 日

0 条评论

来源入门
更好地理解数据需要跟踪其历史和上下文。

评估一块数据的质量或有效性通常不是孤立完成的。您通常会检查数据出现的上下文,并尝试确定其原始来源或审查其创建过程。然而,在处理数字数据时,这并非如此简单:计算结果可能来自众多来源,并通过应用复杂的连续转换,可能经过很长一段时间。

作者:Lucian Carata、Sherif Akoush、Nikilesh Balakrishnan、Thomas Bytheway、Ripduman Sohan、Margo Seltzer、Andy Hopper | 2014 年 4 月 10 日

1 条评论

传感器数据管理中的来源
为科学研究带来来源的凝聚力、独立解决方案

在当今信息驱动的工作场所中,数据不断地被移动和转换。典型的日常方法是使用电子邮件附件、共享网络位置、数据库以及最近的云。通常,有多个版本的数据位于不同的位置,并且这些数据的用户对缺乏描述其来源或换句话说,其沿袭的元数据感到困惑。本文描述的橡树岭国家实验室 (ORNL) 的 ProvDMS 项目旨在解决传感器数据环境中的这一问题。

作者:Zachary Hensley、Jibonananda Sanyal、Joshua New | 2014 年 1 月 23 日

0 条评论

Hazy:让构建和维护大数据分析更容易
竞相利用最新的统计和机器学习技术释放大数据的全部潜力。

大数据的兴起为从企业到科学的各个领域带来了巨大的机遇和巨大的挑战。这些机遇包括更明智的业务决策、更高效的供应链管理和资源分配、更有效地定位产品和广告、更好地“组织世界信息”、更快地实现科学发现等等。

作者:Arun Kumar、Feng Niu、Christopher Ré | 2013 年 1 月 23 日

0 条评论

LINQ 的世界
大数据不仅仅关乎规模,LINQ 完全能够胜任这项任务。

构建基于 Web 和云的应用程序的程序员将来自许多不同来源(例如传感器、社交网络、用户界面、电子表格和股票行情自动收录器)的数据连接在一起。这些数据中的大多数不适合传统关系数据库的封闭和干净的世界。它太大、非结构化、非规范化且实时流式传输。首先,跨所有这些不同的数据模型和查询语言呈现统一的编程模型似乎是不可能的。然而,通过关注共性而不是差异,大多数数据源将接受某种形式的计算来过滤和转换数据集合。

作者:Erik Meijer | 2011 年 8 月 30 日

5 条评论

存储冲突
注意以二进制格式保存数据

在我工作的地方,我们非常重视将我们所有的数据,而不仅仅是我们的源代码,都存储在我们的源代码控制系统中。当我们创办公司时,我们决定尽可能多地将东西存储在一个地方。问题是,随着时间的推移,我们已经从纯粹的编程环境转变为有其他人的环境——那种使用 Outlook 发送电子邮件并将数据保存在二进制和专有格式中的人。

作者:George V. Neville-Neil | 2011 年 5 月 5 日

0 条评论

反对数据锁定
想留住您的用户?只需让他们轻松离开。

工程师在编写软件时采用了许多不同的策略来关注用户:例如,倾听用户反馈、修复错误以及添加用户强烈要求的功能。由于基于 Web 的服务使​​用户更容易转移到新应用程序,因此关注建立和保持用户信任变得更加重要。我们发现,赢得和维持用户信任的一种非常有效的方法是让用户可以轻松地带着他们的数据离开您的产品。这不仅可以防止锁定并赢得信任,还可以迫使您的团队在技术实力上进行创新和竞争。

作者:Brian W Fitzpatrick、JJ Lueck | 2010 年 10 月 8 日

4 条评论

其他人的数据
公司可以访问比以往任何时候都更多的外部数据类型。他们如何才能最有效地整合它?

每个组织都将其一些关键决策建立在外部数据源的基础上。除了传统的平面文件数据馈送之外,Web 服务和网页在数据仓库中也发挥着越来越重要的作用。Web 服务的增长使得数据馈送在部门甚至最终用户级别都易于使用。现在有超过 1,500 个公开可用的 Web 服务和数千个数据混搭,范围从零售销售数据到天气信息再到美国人口普查数据。这些混搭证明,当用户需要信息时,他们会找到获取信息的方法。

作者:Stephen Petschulat | 2009 年 11 月 13 日

0 条评论

延迟和活锁
有时数据传输速度不如预期。

亲爱的 KV:我的公司有一个非常大的数据库,其中包含我们所有的客户信息。该数据库已复制到世界各地的多个位置,以提高本地性能,以便亚洲客户想要查看他们的数据时,不必等待数据从我的公司所在的美国传来...

作者:George Neville-Neil | 2008 年 4 月 28 日

0 条评论

现在已不是您父亲的实时了
一个崇高术语的误用和滥用

实时这个词被如此滥用,难道不是一种耻辱吗?自从 1982 年以来,我就注意到一种缓慢的退化,当时实时系统成为我的研究、教学和咨询的主要重点。在过去的 20 多年中,我亲眼目睹了我心爱的实时成为计算词汇中最超载、过度使用和被高估的术语之一。更糟糕的是,它被计算社区以外的用户窃取,并被营销机会主义者无耻地利用。

作者:Phillip Laplante | 2006 年 2 月 23 日

3 条评论

数据的成本
半结构化数据是经济学的结果。

在过去的几年里,人们已经让自己相信他们发现了一种被忽视的数据形式。这种新的数据形式是半结构化的。胡说八道!没有新的数据形式。人们发现的实际上是经济学对数据类型的影响——但是,如果您将问题描述为经济学问题,那就不那么令人兴奋了。然而,它更准确且更有价值。清楚地看到半结构化数据的现实实际上可以导致改进数据处理。只要我们通过“新型数据”的模糊视野来看待这个问题,我们将继续误解问题并开发出误导性的解决方案来解决它。

作者:Chris Suver | 2005 年 12 月 8 日

0 条评论

超越关系数据库
数据访问不仅仅是 SQL。

环境中计算设备的数量和种类正在迅速增加。真正的计算机不再束缚于台式机或锁定在服务器机房中。PDA、高度移动的平板电脑和笔记本电脑设备、掌上电脑和移动电话手机现在为交付新应用程序和服务提供了强大的平台。然而,这些设备只是冰山一角。隐藏在视线之外的是支持无处不在的计算基础设施所需的许多计算和网络元素。

作者:Margo Seltzer | 2005 年 4 月 21 日

1 条评论

要来点数据吗?
当金拱门宣布他们将为特许经营店配备无线热点时,您就知道无线技术已经到来。

就在几个月前,麦当劳公司公布了其在曼哈顿 10 家餐厅开展试点无线接入计划的计划。今年晚些时候将在各个大都市区的数百家餐厅跟进。再加上英特尔最近宣布在其新的 Centrino 芯片组中内置无线 (802.11) 支持,您可以合理地得出结论,无处不在的无线接入可能很快就会降临到我们身上。

2003 年 7 月 30 日

0 条评论

© . All rights reserved.