2008年10月24日
第6卷，第5期

软件事务内存：为何它只是一种研究玩具？

STM 的前景可能因其开销和工作负载适用性而受损。

Călin Cașcaval、Colin Blundell、Maged Michael、Harold W. Cain、彭武、Stefanie Chiras 和 Siddhartha Chatterjee

事务内存（TM）¹³ 是一种并发控制范式，为代码区域提供原子和隔离的执行。许多研究人员认为 TM 是解决多核处理器编程问题的最有希望的解决方案之一。其最吸引人的特点是，大多数程序员只需要在本地考虑共享数据访问，标记要事务性执行的代码区域，并让底层系统确保正确的并发执行。该模型有望提供细粒度锁定的可扩展性，同时避免锁组合的常见陷阱，例如死锁。在本文中，我们探讨了一种高度优化的 STM 的性能，并观察到 TM 的总体性能在低并行度下要差得多，这可能会限制这种编程范式的采用。

事务内存系统的不同实现方式会做出权衡，这会影响性能和可编程性。Larus 和 Rajwar¹⁶ 概述了事务内存系统实现的设计权衡。我们在此总结了一些设计选择

纯软件（STM）^{7,10,12,14,18,23,25} 是本文的重点。虽然提供了灵活性且没有硬件成本，但它导致的开销超出了大多数用户的容忍度。
纯硬件（HTM）^{2,4,9,13,19,20,35} 面临两个主要障碍：高昂的实现和验证成本导致设计风险过大，无法在一个小众编程模型上进行 оправдание；硬件容量限制导致溢出发生时性能显着下降，并且管理溢出的提议（例如，签名⁵）会产生误报，从而增加了编程模型的复杂性。因此，从工业角度来看，HTM 设计必须为成本提供更多好处，并且在更多样化的工作负载（具有不同的事务特征）上，硬件设计人员才会考虑实施。硬件用于其他目的的重用也可以 оправдание 其包含，Sun 在 Rock 处理器中实现的 Scout Threading³² 就是这种情况。
混合^1,6,24,28 是 TM 最终被广大受众采用的最有可能的平台，尽管硬件和软件支持的确切组合仍不清楚。

混合系统的一个特例是硬件加速的 STM。在这种情况下，事务语义由 STM 提供，硬件原语仅用于加速 STM 中的关键性能瓶颈。如果硬件原语的成本适中，并且可以通过系统中的其他用途进一步分摊，则此类系统可以提供有吸引力的解决方案。

独立于这些实现决策，存在事务语义问题，这些问题破坏了社区所期望的理想事务编程模型。TM 引入了锁基互斥中不存在的各种编程问题。例如，语义因以下原因而变得混乱：

与非事务代码的交互，包括从事务外部访问共享数据（容忍弱原子性）以及在事务内部使用锁（打破隔离以使锁定操作在事务外部可见）；
异常和可串行化：如何处理异常并从事务上下文中传播一致的异常信息，以及如何保证事务执行尊重操作的正确顺序；
与无法事务化的代码的交互，原因是与其他线程通信或禁止推测的要求；
活锁，或系统保证所有事务即使在发生冲突的情况下也能取得进展。

除了内在的语义问题外，还有由高事务开销驱动的特定于实现的优化，例如程序员注释用于排除私有数据。此外，中止事务引入的非确定性使调试变得复杂——事务代码可能会被执行并在冲突时中止，这使得程序员难以找到具有可重复行为的确定性路径。所有这些都淡化了事务的生产力论点，尤其是纯软件 STM 实现。

鉴于所有这些问题，我们得出的结论是，TM 尚未成熟到足以呈现引人注目的价值主张，从而触发其广泛采用。虽然 TM 可以成为并行程序员投资组合中的有用工具，但我们认为它本身不会解决并行编程困境。有证据表明，它有助于构建某些并发数据结构，例如哈希表和二叉树。此外，还有传闻称它有助于工作负载；然而，尽管在该领域进行了多年的积极研究和发表，但我们很失望地发现研究文献中没有提及使用 TM 的大规模应用程序。STAMP³⁰ 和 Lonestar¹⁷ 基准测试套件是一个有希望的开始，但要代表完整的应用程序还有很长的路要走。

我们的这些结论基于我们过去两年构建最先进的 STM 运行时系统和编译器框架 IBM STM³¹ 的工作。在这里，我们描述了这一经验，首先讨论了 STM 算法和设计决策。然后，我们将此 STM 的性能与其他两个最先进的实现（Intel STM¹⁴ 和 Sun TL2 STM⁷）进行比较，并剖析 IBM STM 执行的操作，并详细分析 STM 的性能热点。

软件事务内存

STM 在软件中实现所有事务语义。这包括冲突检测、保证事务性读取的一致性、保持原子性和隔离性（防止其他线程在事务成功之前观察到推测性写入）以及冲突解决（事务仲裁）。图 1 说明了典型 STM 执行的主要操作的伪代码。我们展示了两种 STM 算法，一种执行完全验证，另一种使用全局版本号（标有 gv# 注释的附加语句）。

Software Transactional Memory: STM Operations.

STM 对于系统程序员的优势在于，它在实现这些操作的不同机制和策略方面提供了灵活性。对于最终用户而言，STM 的优势在于它提供了一个环境，可以将他们的应用程序事务化（即移植到 TM），而无需承担额外的硬件成本或等待此类硬件的开发。

相反，STM 在性能和编程语义方面存在明显的缺点

开销： 通常，与传统的共享内存编程或 HTM 相比，STM 会导致更高的顺序开销。这是由于事务内部共享可变位置的加载和存储的软件扩展，导致构成 STM 实现的数十条附加指令（例如，图 1c 中的 STM_READ 代码）。根据工作负载的事务特征，这些开销可能成为 STM 实现性能的巨大障碍。顺序开销（即，无论其他并发线程的操作如何都会产生的无冲突开销）必须通过事务内存的并发使能特性来克服。
语义： 为了避免产生高 STM 开销，非事务性访问（例如，事务外部发生的加载和存储）通常不会扩展。这会削弱事务的语义，从而使其复杂化，这可能要求程序员比在支持强事务语义时更加小心。以下是一些通常与此类 STM 相关的弱化保证
弱原子性： 通常，STM 运行时库无法检测事务和非事务性访问之间的冲突。因此，原子性的语义被弱化，以允许与非事务性访问发生未检测到的冲突（称为弱原子性³），或者等效地将负担放在程序员身上，以保证不会发生此类冲突。
私有化： 某些 STM 设计禁止内存位置的无缝私有化，即从事务性访问到私有访问的转换——或通常是非事务性访问，通过使用锁。对于某些 STM 设计，一旦某个位置被事务性访问，它必须继续被事务性访问。使用某些 STM 设计，程序员可以通过保证对私有化位置的首次访问（例如，在该位置不再可被其他线程访问之后）是事务性的来缓解这种转换。
内存回收： 某些 STM 设计禁止无缝回收事务性访问的内存位置以进行任意重用，例如使用 malloc 和 free。使用此类 STM 设计，事务性访问的位置的内存分配和释放与其他位置的处理方式不同。
遗留二进制文件： STM 需要观察事务区域的所有内存活动，以确保原子性和隔离性。通过代码检测实现此观察的 STM 通常无法支持调用未检测的遗留代码（例如，第三方库）的事务，而不会严重限制并发性，例如通过序列化事务。

评估

此处我们使用以下基准测试集

b+树 是数据库索引操作在 b+树数据结构上的实现，其中数据仅存储在树叶上。此实现对每个树操作使用粗粒度事务。每个 b+ 树操作都从树根开始，向下到叶子。叶子更新可能会触发结构修改以重新平衡树。重新平衡操作通常涉及在子父边上的递归上升。在最坏的情况下，重新平衡操作会修改整棵树。我们的工作负载在阶数为 20 的 b+树中插入 2,048 个项目。对于此代码，我们只有一个未手动检测的事务版本，因此实验结果仅在我们可以使用编译器提供检测的配置中呈现；
delaunay 实现了 Kulkarni 等人¹⁵ 描述的 Delaunay 网格细化算法。该代码生成有保证质量的 Delaunay 网格。这是一个 Delaunay 三角剖分，附加约束是网格中没有角度小于 30 度。该基准测试以未细化的 Delaunay 三角剖分为输入，并生成满足此约束的新三角剖分。在该算法的 TM 实现中，多个线程从工作队列中选择其元素，并将空腔细化为单独的事务。
genome、kmeans 和 vacation 是 STAMP 基准测试套件¹⁹ 0.9.4 版的一部分。有关这些基准测试的详细描述，请参阅 STAMP³⁰。

基线性能。 在图 2 中，我们展示了三个 STM 的性能比较：IBM^31,34、Intel¹⁴ 和 Sun 的 TL2⁷ STM。运行在四核、双路超线程 Intel Xeon 2.3GHz 机器上，运行 Linux Fedora Core 6。在这些运行中，我们使用了代码的手动检测版本，这些版本积极地最小化了 IBM 和 TL2 STM 的屏障数量。由于我们无法访问 Intel STM 的底层 API，因此 Intel STM 的曲线来自其编译器检测的代码，这些代码由于编译器检测而产生了额外的屏障开销³⁶。这些图是相对于串行、非事务化版本的可扩展性曲线。因此，y 轴上的值 1 表示性能等于串行版本。这些 STM 的性能大多相当，其中 IBM STM 在 delaunay 上显示出更好的可扩展性，而 TL2 在 genome 上获得了更好的可扩展性。然而，获得的总体性能非常低：在 kmeans 上，IBM STM 在 4 个线程时几乎无法达到单线程性能，而在 vacation 上，即使有 8 个线程，也没有任何 STM 真正克服事务内存的开销。

Software Transactional Memory: Scalability Results for Three STM Runtimes on a Quad-Core Intel Xeon Server: IBM, Intel STM V2, and Sun Tl2.

编译器检测。 编译器是基于 STM 的编程环境的必要组成部分，该环境将被大众程序员采用。其基本作用是消除程序员手动检测内存引用到 STM 读取和写入屏障的需求。虽然提供了便利性，但编译器检测确实通过引入冗余屏障为 STM 系统添加了另一层开销，这通常是由于编译器分析的保守性造成的，正如 Yoo³⁶ 中也观察到的那样。

图 3 提供了另一个基线：编译器检测的开销。性能是在运行 AIX 5.3 的 16 路 POWER5 上测量的。对于 STMXLC 曲线，我们使用代码的未检测版本，并使用编译器提供的语言扩展来注释事务区域和函数³¹。

Software Transactional Memory: Scalability Results for Manual and Compiler Instrumented Benchmarks on AIX PowerPC with IBM XLCSTM Compiler

编译器过度检测在传统的、非托管的语言（如 C 和 C++）中更为明显，其中没有过程间分析的编译器检测最终可能会检测事务区域中的每个内存引用（堆栈访问除外）。实际上，我们的编译器检测使 delaunay、genome 和 kmeans 中的动态读取屏障的数量增加了一倍以上。过程间分析可以帮助提高某些情况下编译器检测的紧密度，但通常受到全局分析准确性的限制。

STM 操作性能。 鉴于此基线，我们现在详细分析 STM 中的哪些操作导致了开销。为此，我们使用 PowerPC 架构的周期精确模拟器，该模拟器提供用于检测的钩子。STM 操作和子操作使用这些模拟器钩子进行检测。此环境的原因是我们想在指令级别捕获开销，并消除真实硬件引入的任何其他非确定性。模拟器消除了检测引入的所有其他簿记操作，并提供了 STM 开销的准确细分。

我们研究两种 STM 算法的性能：一种在每次事务性读取后完全验证（“fv”）读取集，另一种使用全局版本号（“gv#”）以避免完全验证，同时保持操作的正确性。fv 算法以更高的代价提供更多的并发性。gv# 被认为是 STM 实现的最佳权衡之一。

图 4 显示了这些算法在顺序运行上的单线程开销，再次说明了算法引起的显着减速。图 5 将这些开销分解为各种 STM 组件。对于这两种算法，事务性读取的开销占主导地位，这是由于读取操作相对于所有其他操作的频率而言。全局版本号在降低开销方面的有效性在“gv#”的较低读取开销中显示出来。

Software Transactional Memory: Single-Threaded Overhead of the STM Algorithms.

Software Transactional Memory: Percentage of Time Spent in Different STM Operations.

图 6 详细细分了事务性读取操作的开销。“fv”配置中，验证读取集的开销如预期那样在事务性读取时间中占主导地位。对于这两种算法，isync 操作（对于对元数据读取和数据读取以及数据读取和验证进行排序是必要的）构成了重要的组成部分。在同一事务中在读取之前执行写入的应用程序（delaunay、kmeans）中，检查位置是否已被同一事务中的先前写入写入所花费的时间构成了总时间的很大一部分。有趣的是，读取数据本身仅占总时间的一小部分，这表明为了使这些算法的性能具有吸引力，必须克服的障碍。

Software Transactional Memory: Percentage of Time Spent in STM Read Sub-Operations.

图 7 给出了事务性提交操作的类似细分。与之前一样，“fv”配置受到必须验证读取集的困扰。两种配置的其他主要开销是必须获取写入集的元数据（这涉及一系列加载链接/存储条件操作）以及对于对元数据获取、数据写入和元数据释放进行排序是必要的同步操作。再次，数据写入本身仅占总时间的一小部分。

Software Transactional Memory: Percentage of Time Spent in STM End Sub-Operations.

开销优化。 关于通过编译器或运行时技术降低 STM 开销，已经有很多提议，其中大多数是对 STM 硬件加速的补充。

冗余屏障消除。 一种技术是通过逃逸分析消除线程本地对象的屏障。这种分析通常非常有效地识别靠近对象分配站点的线程本地访问。它可以消除读取屏障和写入屏障，但通常对写入屏障更有效。例如，我们观察到过程内逃逸分析可以消除 vacation、genome 和 b+树 中 40–50% 的写入屏障。然而，它对性能的影响更为有限：从可忽略不计到 12%。为了针对冗余读取屏障，一种称为“事务中未访问”分析²⁷ 的全程序分析消除了事务中只读对象的一些屏障；
屏障强度降低。 这些优化不会消除屏障，但会在运行时识别仅需要轻量级屏障处理的特殊位置，例如线程本地对象的动态跟踪^11,27 以及堆栈引用和重复引用的运行时过滤¹¹；
代码生成优化。 一种常见的技术是内联屏障的快速路径。它具有减少函数调用开销、增加 ILP 以及暴露公共子屏障操作重用的潜在好处。在我们的实验中，编译器内联在我们的基准测试套件中实现了不到 2% 的总体改进；
提交序列优化。 消除不必要的全局版本号更新³⁷ 将几个微基准测试的总体性能提高了高达 14%。

这些优化对 STM 性能产生了积极影响。然而，此处呈现的结果表明，要使 STM 的性能对用户普遍具有吸引力，还需要多少进一步的创新。

结论

根据我们的结果，我们认为 STM 的未来之路充满挑战。将 STM 的开销降低到普遍具有吸引力的程度是一项艰巨的任务，并且必须展示明显更好的结果。如果我们能强调进一步研究的单一方向，那就是消除动态不必要的读取和写入屏障——这可能是进一步降低 STM 开销的最有力的杠杆。然而，鉴于研究界探索的类似问题的难度，例如别名分析、逃逸分析等等，这可能是一场艰难的战斗。并且由于 TM 的论点取决于其简单性和生产力优势，我们对任何需要程序员额外工作才能解决性能问题的提议都深感怀疑。

我们观察到，TM 编程模型本身，无论是在硬件还是软件中实现，都引入了复杂性，这些复杂性限制了预期的生产力提升，从而降低了当前迁移到事务编程的动力，以及目前 оправдание 任何超过少量硬件支持的 оправдание。

致谢

我们要感谢 Pratap Pattnaik 的持续支持、Christoph von Praun 的多次讨论、在基准测试和运行时方面的工作，以及 Rajesh Bordawekar 的 B+树代码实现。

参考文献

1. Baugh, L., Neelakantarn, N., 和 Zilles, C. 使用硬件内存保护构建高性能、强原子混合事务内存。载于第 35 届国际计算机体系结构研讨会论文集。 IEEE 计算机学会，华盛顿特区，2008 年，115–126 页。

2. Blundell, C., Devietti, J., Lewis, E.L., Martin, M.M.K. 在无界事务内存中使快速情况常见，使不常见情况简单。载于第 34 届年度国际计算机体系结构研讨会论文集。 ，纽约，2007 年。

3. Blundell, C., Lewis, C., 和 Martin, M.M.K. 事务内存原子性语义的微妙之处。IEEE TCCA 计算机体系结构快报 5, 2 (2006 年 11 月)。

4. Bobba, J., Goyal, N., Hill, M.D., Swift, M.M., 和 Wood, D.A. TokenTM：使用硬件事务内存高效执行大型事务。载于第 35 届国际计算机体系结构研讨会论文集。 IEEE 计算机学会，华盛顿特区，2008 年，127–138 页。

5. Ceze, L., Tuck, J., Cascaval, C., Torrellas, J. 多处理器中推测线程的批量消除歧义。载于第 34 届年度国际计算机体系结构研讨会论文集。 ，纽约，2006 年，237–238 页。

6. Damron, P., Federava, A., Lev, Y., Luchangco, V., Moir, M., 和 Nussbaum, D. 混合事务内存。载于第 12 届编程语言和操作系统体系结构支持国际会议论文集，2006 年 10 月。

7. Dice, D., Shalev, O., 和 Shavit, N. 事务锁定 II。DISC，2006 年 9 月，194–208 页。

8. Felber, P., Fetzer, C., Mueller, U., Riegel, T., Suesskraut, M., 和 Sturzrehm, H. 使用开放编译器框架事务化应用程序。载于 SIGPLAN 事务计算研讨会论文集。 2007 年 8 月。

9. Hammond, L., Wong, V., Chen, M., Carlstrom, B.D., Davis, J.D., Hertzberg, B., Prabhu, M.K., Wijaya, H., Kozyrakis, C., 和 Olukotun, K. 事务内存一致性和一致性。载于第 31 届年度国际计算机体系结构研讨会论文集。 IEEE 计算机学会，2004 年 6 月，102 页。

10. Harris, T. 和 Fraser, K. 轻量级事务的语言支持。载于面向对象编程、系统、语言和应用程序论文集。 2003 年 10 月，388–402 页。

11. Harris, T., Plesko, M., Shinnar, A., 和 Tarditi, D. 优化内存事务。载于编程语言设计与实现会议论文集。 2003 年，388–402 页。

12. Herlihy, M., Luchangco, V., Moir, M., 和 Scherer III, W.N. 用于动态大小数据结构的软件事务内存。载于第 22 届分布式计算原理研讨会论文集。 2003 年 7 月，92–101 页。

13. Herlihy, M. 和 Moss, J.E.B. 事务内存：无锁数据结构的体系结构支持。载于第 20 届年度国际计算机体系结构研讨会论文集。 1993 年 5 月。

14. Intel C++ STM 编译器，原型版 2.O.; http://softwarecommunity.intel.com/articles/eng/1460.htm/ (2008 年)。

15. Kulkarni, M., Pingali, K., Walter, B., Ramanarayanan, G., Baia, K., 和 Chew, P.L. 乐观并行性需要抽象。载于PLDI 2007 论文集。 ，纽约，2007 年，211–222 页。

16. Larus, J.R., 和 Rajwar, R. 事务内存。Morgan Claypool，2006 年。

17. Lonestar 基准测试套件；http://iss.ices.utexas.edu/lonestar/ (2008 年)。

18. Marathe, V.J., Spear, M.F., Heriot, C., Acharya, A., Eisenstat, D., Scherer III, W.N., 和 Scott, M.L. 降低软件事务内存的开销。罗切斯特大学计算机科学系技术报告 TR 893，2006 年 3 月。缩写版本已提交出版。

19. Minh, C.C., Trautmann, M., Chung, J., McDonald, A., Branson, N., Casper, J., Kozyrakis, C., 和 Olukotun, K. 具有强隔离保证的有效混合事务内存系统。载于第 34 届年度国际计算机体系结构研讨会论文集。 ，纽约，2007 年，69–80 页。

20. Moore, K.E., Bobba, J., Moravan, M.J., Hill, M.D., 和 Wood, D.A. LogTM：基于日志的事务内存。载于第 12 届年度高性能计算机体系结构国际研讨会论文集，2006 年 2 月。

21. Olszewski, M., Cutler, J., Steffan, J.G. Judostm：一种软件事务内存的动态二进制重写方法。载于第 16 届国际并行体系结构和编译技术会议论文集。 2007 年。IEEE 计算机学会，华盛顿特区，365–375 页。

22. Riegel, T., Fetzer, C., 和 Felber, P. 具有可扩展时间基的时间基事务内存。载于第 19 届并行算法和体系结构研讨会论文集，2007 年

23. Saha, B., Adl-Tabatabai, A.R., Hudson, R.L., Minh, C.C., 和 Hertzberg, B. Mcrt-stm：用于多核运行时的高性能软件事务内存系统。载于第 11 届并行编程原理与实践研讨会论文集。 2006 年 3 月，，纽约，187–197 页。

24. Saha, B., Adl-Tabatabai, A.R., 和 Jacobson, Q. 软件事务内存的架构支持。载于第39届国际微体系结构年度研讨会论文集。2006年12月，185–196页。

25. Shavit, N., 和 Touitou, D. 软件事务内存。载于分布式计算原理研讨会论文集。 ，1995年。

26. Shavit, N. 和 Touitou, D. 软件事务内存。载于第14届分布式计算原理研讨会论文集。 ，纽约，1995年。

27. Shpeisman, T., Menon, V, Adl-Tabatabai, A-R., Balensiefer, S., Grossman, D., Hudson, R., Moore, K.F., 和 Saha, B. 在STM中强制隔离和排序。载于编程语言设计与实现会议论文集。 ，2007年，78–88页。

28. Shriraman, A., Spear, M.F., Hossain, H., Marathe, V.J., Dwarkadas, S., 和 Scott, M.L. 一种灵活事务内存的软硬件集成方法。载于第34届国际计算机体系结构年度研讨会论文集。 ，纽约，2007年，104–115页。

29. Spears, M.T., Michael, M.M., 和 von Praum, C. Ringstm：使用单个原子指令的可扩展事务。载于第20届并行算法与体系结构研讨会论文集。 ，纽约，275–284页。

30. STAMP 基准测试； http://stamp.stanford.edu/ (2007年)。

31. (IBM) 用于AIX的XL C/C++事务内存； http://www.alphaworks.ibm.com/tech/xlcstm/ (2008年)。

32. Tremblay, M. 和 Chaudhry, S. 第三代65nm 16核32线程加32侦察线程CMT。载于IEEE国际固态电路会议论文集。 2008年2月。

33. Wang, C. Chein, W-Y, Wu, Y., Saha, B., 和 Adl-Tabatabai, A.R. 用于非托管语言中事务内存构造的代码生成和优化。载于国际代码生成和优化研讨会论文集。 2007年，34–48页。

34. Wu, P., Michael, M.M., von Praun, C., Nakaike, T., Bordawekar, R., Cain, H.W., Cascaval, C., Chatterjee, S., Chiras, S., Hou, R., Mergen, M., Shen, X., Spear, M.F., Wang, H.Y., 和 Wang, K. 软件事务内存优化的编译器和运行时技术。即将发表于并发与计算：实践与经验，2008年。

35. Yen, L., Bobba, J., Marty, M.M., Moore, K.E., Volos. H., Hill, M.D., Swift, M.M., 和 Wood, D.A. LogTM-SE：将硬件事务内存与缓存解耦。载于第13届国际高性能计算机体系结构研讨会论文集。 2007年2月。

36. Yoo, R.M., Ni, Y., Welc, A., Saha, B. Adl-Tabatabai, A-R. 和 Lee, H-H.S. 软件事务内存的实际问题：为何步履维艰。第20届并行算法与体系结构年度研讨会论文集，2008年。

37. Zhang, R., Budirnlić, Z. 和 Scherer III, W.N. 基于时间戳的STM中的提交阶段。载于第20届并行算法与体系结构年度研讨会论文集。 ，纽约，326–335页。

作者

Călin Cașcaval ([email protected]) 是IBM TJ Watson研究中心可扩展系统编程模型和工具的研究人员和经理，纽约州约克镇高地。

Colin Blundell 是宾夕法尼亚大学计算机与信息科学系体系结构和编译器组的成员。

Maged Michael 是IBM TJ Watson研究中心的研究人员，纽约州约克镇高地。

Trey Cain 是IBM TJ Watson研究中心的研究人员，纽约州约克镇高地。

Peng Wu 是IBM TJ Watson研究中心的研究人员，纽约州约克镇高地。

Stefanie Chiras 是IBM系统与技术部门的经理。

Siddhartha Chatterjee 是IBM研究院奥斯汀研究实验室主任，德克萨斯州奥斯汀。

DOI: http://doi.acm.org/10.1145/1400214.1400228

最初发表于Communications of the 第51卷，第11期—
在数字图书馆中查看此项

最初发表于Queue 第6卷，第5期—
在数字图书馆中评论这篇文章

更多相关文章

Adam Morrison - 多核程序中可扩展的同步
为现代多核处理器设计软件提出了一个难题。传统的软件设计，其中线程操作共享数据，由于对共享数据更新的同步会串行化线程并限制并行性，因此可扩展性有限。替代的分布式软件设计，其中线程不共享可变数据，消除了同步并提供了更好的可扩展性。但是，分布式设计使得实现共享数据结构自然提供的功能（例如动态负载平衡和强一致性保证）具有挑战性，并且并非适用于每个程序。然而，通常，共享可变数据结构的性能受到当今使用的同步方法（无论是基于锁还是无锁）的限制。

Fabien Gaud, Baptiste Lepers, Justin Funston, Mohammad Dashti, Alexandra Fedorova, Vivien Quéma, Renaud Lachaize, Mark Roth - 现代NUMA系统上内存管理的挑战
现代服务器级系统通常构建为在单个系统中组合在一起的多个多核芯片。每个芯片都有一个本地DRAM（动态随机存取存储器）模块；它们一起被称为一个节点。节点通过高速互连连接，系统是完全一致的。这意味着，对程序员透明地，核心可以向其节点的本地内存以及其他节点的内存发出请求。关键的区别在于，远程请求将花费更长的时间，因为它们会受到更长的线路延迟的影响，并且可能必须跳转多跳才能遍历互连。

Spencer Rathbun - 使用Promise进行并行处理
在当今世界，有很多理由编写并发软件。提高性能和增加吞吐量的愿望导致了许多不同的异步技术。然而，所涉及的技术通常很复杂，并且是许多微妙错误的根源，特别是如果它们需要共享可变状态。如果不需要共享状态，那么这些问题可以通过更好的抽象（称为promise）来解决。这些 promise 允许程序员将异步函数调用连接在一起，等待每个调用返回成功或失败，然后再运行链中的下一个适当的函数。

Davidlohr Bueso - 实用同步原语的可扩展性技术
在理想的世界中，应用程序有望在越来越大的系统上执行时自动扩展。然而，在实践中，不仅这种扩展不会发生，而且常见的是在那些更大的系统上看到性能实际上会恶化。

软件事务内存：为何它只是一种研究玩具？

STM 的前景可能因其开销和工作负载适用性而受损。

Călin Cașcaval、Colin Blundell、Maged Michael、Harold W. Cain、彭武、Stefanie Chiras 和 Siddhartha Chatterjee

软件事务内存

评估

相关工作

结论

致谢

参考文献

作者