记忆存储 - @JessFraz

  下载本文的 PDF 版本 PDF

记忆存储

剖析摩尔定律

现代 CPU 只是相互连接的芯粒。

Jessie Frazelle

 

CPU 由数十亿个微小的晶体管组成。晶体管是电子门,可以单独打开和关闭。由于每个晶体管可以处于两种不同的状态(开或关),它可以存储两个不同的数字:零和一。凭借数十亿个晶体管,一个芯片可以存储数十亿个零和一,以及几乎同样多的普通数字和字符。晶体管越小,芯片运行所需的功率就越小。

您可能听说过 AMD 的 7 纳米芯片或英特尔的 10 纳米芯片。纳米 (nm) 是衡量 CPU 性能的有用指标,因为它表示晶体管尺寸(或线宽)的度量。

更小的晶体管可以在不 overheating 的情况下进行更多计算,这使其更加节能。它还允许更小的芯片尺寸,从而降低成本并可以提高密度,从而允许每个芯片更多的内核。制造芯片的硅晶圆的纯度各不相同,而且没有一个是完美的,这意味着每个芯片都有可能存在缺陷,其影响各不相同。制造商可以通过使用芯粒来限制缺陷的影响。

 

芯粒

传统上,芯片制造商在 MCM(多芯片模块)中将两个单片 CPU 连接在一起。MCM 是一个带有引脚的封装,其中集成了多个 IC(集成电路或芯片)、半导体管芯和/或其他组件。这通常在统一的基板上完成,因此当 MCM 在使用中时,它可以被视为一个大型芯片。MCM 有时被称为混合 IC

芯粒是构成 MCM 的各个 IC。它们提供了一种最大限度地减少使用尖端晶体管技术构建的挑战的方法。芯粒的想法源于 DARPA,自 1980 年代就已存在。2

最小的晶体管也是设计和制造最昂贵和最困难的。在由芯粒制成的处理器中,最尖端的技术可以保留用于设计中投资回报率最高的部分。然后,可以使用更可靠和经济的技术制造的其他芯粒与最新技术的芯粒组合到同一个封装中。英特尔通过其 Foveros 项目实现了这一点,该项目通过堆叠的方式,将 10 纳米芯粒用于节能活动,并将 14 纳米芯粒用于更高功率的功能。13本文后面关于 7 纳米芯片的部分将提供更多示例,尽管您无疑可以预料到 7 纳米芯粒与更大晶体管的芯粒组合在一个封装中。

较小的硅片也天生不易产生制造缺陷,并降低了在半导体制造过程中被灰尘颗粒破坏的风险。与单片模具架构相比,使用芯粒可保证封装上的任何单个内核都不会充当 MCM 的单点故障,因为存在多个单独的内核。制造商还可以使用称为binning的工艺来选择最佳内核以相互配对。

AMD 和英特尔都在将单片处理器分解为芯粒,这些芯粒连接在多芯片模块上。AMD 是大众市场 CPU 行业中第一个转向芯粒的公司,当时它宣布了其第三代 Ryzen CPU。7这提高了性能并降低了成本,因为将大型单片 IC 分割成更小的芯粒允许在多个芯粒上分割更多晶体管,每个硅晶圆更多的 IC,以及更高的良率,因为更小的模具缺陷或制造错误的风险更小。

戈登·摩尔在他 1965 年的论文中写道:“用更小的功能构建大型系统可能更经济,这些功能被单独封装和互连。”10这对于芯粒来说非常正确。AMD 在 2017 年的国际电子器件会议上14谈到了如何将其 32 核 EPYC 服务器级芯片分割成四个 8 核芯粒。19这样做导致四个芯粒的额外 I/O 开销增加了 10%。然而,由于它可以在晶圆上安装比大型模具多 9% 的小型模具,因此由于模具良率的提高,它能够降低总体成本。

 

芯粒互连

制造商正在使用几种不同的方式互连芯粒以形成 MCM,其中大多数是每个供应商的专有技术。将 die-to-die 互连(或芯粒互连)视为连接各种芯粒的接口。芯粒不仅仅是一块硬件;它还是一个控制器和一个 PHY(软件的物理层)。die-to-die 互连是芯粒的控制器和 PHY。在设计 die-to-die 互连时,功率是主要的约束。低功耗是基本要求,因为任何额外的功率都被视为开销。

AMD 称其 die-to-die 互连为 Infinity Fabric 或 IF (https://en.wikichip.org/wiki/amd/infinity_fabric)。IF 不仅仅是 die-to-die 互连,还是处理器到处理器的互连。它由两部分组成:Infinity SDF(可扩展数据结构)和 SCF(可扩展控制结构)。SDF 是数据在整个系统中流动的主要方式。这可以连接内存控制器、PCIe 设备、USB 集线器和其他外围设备。此接口是 PHY 级别。另一方面,SCF 处理电源管理、热控制、安全和测试等控制的通信。

由于大多数 die-to-die 互连都是专有的,因此像乐高积木一样使用芯粒进行构建的好处尚未完全实现。添加 FPGA(现场可编程门阵列)或来自第三方的加速器等功能需要采用专有的 die-to-die 互连。

为了响应和解决这个问题,英特尔开源了其 AIB(高级接口总线),这是一个 die-to-die 互连标准,它支持以模块化方式进行系统设计,其中包含包含芯粒 IP(知识产权)模块的库。8(该规范在 GitHub 上。1)它像 AMD 的 SCF 一样是 PHY 级别,但这需要比英特尔更多的工作才能为更广泛的行业解决这个问题。这项工作正在进行中,是开放计算项目子组 ODSA(开放领域特定架构)的一部分。11

 

7 纳米芯片

摩尔定律观察到芯片上的晶体管数量每年翻一番,而成本减半。虽然这个理论已经存在很长时间了,但最近已经放缓。在 1990 年代末和 2000 年代初,晶体管尺寸每两年缩小一半,从而定期带来巨大的改进。然而,使晶体管越来越小变得更加复杂,自 2014 年英特尔承诺 10 纳米以来,3,18晶体管尺寸一直没有缩小;7 纳米是可能的,但英特尔尚未做到。半导体器件中晶体管尺寸的放缓导致了多芯片模块和其他创新的发展,因为半导体设计师一直在寻找提供更高计算能力的新方法。

台积电(台湾积体电路制造公司)于 2017 年开始使用 7 纳米工艺生产 256-Mbit SRAM(静态随机存取存储器)芯片。16 稍后在 2018 年,三星和台积电开始批量生产 7 纳米器件。15 Apple A12 Bionic 是一款 7 纳米芯片,已成为主流,在 Apple 2018 年 9 月的活动中发布。6 从技术上讲,华为在 2018 年 8 月 31 日12在 A12 Bionic 之前宣布了自己的 7 纳米处理器麒麟 980,但 A12 是第一个上市的,并且在麒麟 980 之前发布给消费者。麒麟 980 和 Apple A12 Bionic 均由台积电制造。

AMD 发布了用于服务器和数据中心的 Rome 系列处理器,该处理器基于台积电的 7 纳米节点 ,具有高达 64 个内核和 128 个线程。AMD 还发布了其 Matisse 系列消费级桌面处理器,具有 16 个内核和 32 个线程。从技术上讲,英特尔确实有一个通过收购 Barefoot Networks 获得的 7 纳米部件:Tofino 2 芯片,一个基于台积电 7 纳米节点的以太网交换机 ASIC。

缩小晶体管尺寸不仅仅关乎性能;它对移动设备、数据中心和笔记本电脑芯片具有巨大的影响。与 14 纳米相比,7 纳米可以在相同功率下实现 25% 的性能提升,或者以一半的功率实现相同的性能。这意味着笔记本电脑和手机的电池续航时间更长,以及性能相同的数据中心更节能。对于较小的设备,由于两倍的性能可以有效地适应有限的功率目标,这转化为更强大的芯片。Apple 在其 A12 Bionic 芯片中做到了这一点。

您可能已经注意到一个趋势,即所有这些 7 纳米芯片都依赖台积电进行制造。使用这些芯片的公司正在将 7 纳米技术专注于小型专用芯片,以提高良率和效率,因为它的需求量很大。例如,AMD 的第二代 EPYC 构建为九个芯片封装,带有八个 7 纳米 CCD(复杂核心芯片)芯粒,每个芯粒最多有八个内核,围绕一个 14 纳米 I/O 芯片。

问题是,如果 7 纳米部件的需求量如此之大,为什么只有台积电一家代工厂在制造它们?

 

半导体代工厂

台积电是世界上最大的半导体代工厂。其大部分生产都在台湾,在中国上海只有一家工厂。(值得注意的是每个代工厂的设施所在地,因为在撰写本文时,CoVID -19 冠状病毒和美中关税是相关的,有些人可能对它们对半导体行业的影响感到好奇。)除了台积电之外,其他常见的代工厂包括 Globalfoundries 和 UMC(联华电子)。Globalfoundries 在新加坡、德国和美国设有工厂,曾计划制造 7 纳米芯片,但由于成本而停止了。9 在 Globalfoundries 公开声明将不制造 7 纳米芯片之后,UMC 也紧随其后,表示由于成本原因,它不会制造任何 14 纳米以下的芯片。17 UMC 在台湾、新加坡以及中国苏州和厦门两个城市设有工厂。

是什么让 7 纳米制造如此资本密集?代工厂需要增加资本支出以应对减小晶体管尺寸的技术难题,其中光刻仍然是最大的障碍。光刻,也称为光刻,是在微制造中用于将晶体管电路图案化到硅上的工艺。将光照射到硅的某些区域可以创建特定的图案。光刻设备非常昂贵,这阻止了代工厂进一步投资于研发以缩小晶体管尺寸。

光刻技术一直在随着浸没式光刻和多重图案化而改进,但掩模和工艺的数量显着增加。当需要额外的曝光来在硅上创建复杂的图案时,掩模的成本会急剧增加。根据 eBeam Initiative 的调查,5对于 7???10 纳米工艺节点,每个掩模组的平均掩模数量已达到 76 个,制造商的数量达到 100 多个。由于掩模成本的增加,7 纳米制造工艺已超出大多数中小型设计公司的经济范围。

虽然手机、服务器、图形和数据中心都受益于增强的计算性能和功效,但制造尖端芯片的成本却在显着增加。因此,并非所有代工厂都能应对 7 纳米芯片制造的经济性。已使用 7 纳米芯片构建产品的公司包括 AMD、Apple、三星、华为、NVIDIA 和 Barefoot Networks。所有这些公司的共同点是,为了保持或成为市场领导者,他们都有动力站在技术的最前沿。他们都受益于大规模生产带来的规模经济,因此他们可以分摊掩模、设计和制造成本。没有来自大众市场如此高需求的代工厂无法负担投资先进技术的费用,因为风险可能大于回报。

 

未来

这对未来意味着什么?半导体设计师很可能会继续创新,而无需缩小晶体管尺寸,就像多芯片模块一样。希望对 7 纳米芯片需求的增加将为其他代工厂进入市场提供经济激励,从而使行业不会仅限于台积电一家。当然,说起来容易做起来难。我还希望在阅读完本文后,您已经了解到现代 CPU 实际上只是一些相互连接到一个封装中的芯粒。构建芯粒封装的能力为人们提供了类似乐高的构建能力,可以设计自己的 MCM 并更快地进行创新。

 

参考文献

1. 高级接口总线 (AIB) die-to-die 硬件开源; https://github.com/chipsalliance/aib-phy-hardware

2. Coldewey, D. 2017。DARPA 项目旨在用芯粒制造模块化计算机。Techcrunchhttps://techcrunch.com/2017/08/26/darpa-project-aims-to-make-modular-computers-out-of-chiplets/

3. Cuttress, I. 2019。英特尔的 10 纳米 Cannon Lake 和 Core i3-8121U 深度评测。Anandtechhttps://www.anandtech.com/show/13405/intel-10nm-cannon-lake-and-core-i3-8121u-deep-dive-review

4. eBeam Initiative。2019。掩模制造商调查; https://www.ebeam.org/docs/2019-mask-maker-survey_en.pdf

5. eBeam Initiative。2020。调查:2019 eBeam Initiative 掩模制造商调查结果。Semiconductor Engineeringhttps://semiengineering.com/survey-2019-ebeam-initiative-mask-makers-survey-results/

6. Frumusanu, A. 2018。iPhone XS 和 XS Max 评测:揭秘硅秘密。Anandtechhttps://www.anandtech.com/show/13392/the-iphone-xs-xs-max-review-unveiling-the-silicon-secrets/2

7. Hruska, J. 2019。芯粒既是解决方案,也是更大问题的症状。Extremetechhttps://www.extremetech.com/computing/290450-chiplets-are-both-solution-and-symptom-to-a-larger-problem

8. Leibson, S. 2019。英特尔发布免版税高性能 AIB 互连标准,以促进行业对芯粒的采用并发展生态系统。英特尔可编程逻辑; https://blogs.intel.com/psg/intel-releases-royalty-free-high-performance-aib-interconnect-standard-to-spur-industrys-chiplet-adoption-and-grow-the-ecosystem/

9. McGregor, J. 2019。Globalfoundries 的战略转变取得了回报。福布斯https://www.forbes.com/sites/tiriasresearch/2019/09/17/globalfoundries-change-in-strategy-pays-off/#40990f3c1d37

10. Moore, G. 1965。在集成电路上塞进更多组件。电子学 38(8); https://newsroom.intel.com/wp-content/uploads/sites/11/2018/05/moores-law-electronics.pdf

11. 开放计算项目。2020。开放领域特定架构子组; https://www.opencompute.org/wiki/Server/ODSA

12. Savov, V. 2018。华为承诺其 7 纳米麒麟 980 处理器将击败骁龙 845。The Vergehttps://www.theverge.com/2018/8/31/17803682/huawei-kirin-980-processor-soc-qualcomm-snapdragon-845-ifa-2018

13. Savov, V. 2018。英特尔发布 Foveros 3D 芯片堆叠和新的 10 纳米“芯粒”。The Vergehttps://www.theverge.com/2018/12/12/18137401/intel-foveros-3d-chip-stacking-10nm-roadmap-future

14. Schor, D. 2017。IEDM 2017:AMD 对 HPC 未来的宏伟愿景。WikiChip Fusehttps://fuse.wikichip.org/news/523/iedm-2017-amds-grand-vision-for-the-future-of-hpc/

15. Tallis, B., Shilov, A. 2018。三星开始使用其 7 纳米 EUV 工艺技术批量生产芯片。Anandtechhttps://www.anandtech.com/show/13496/samsung-starts-mass-production-of-chips-using-its-7nm-euv-process-tech

16. 台积电。7 纳米技术; https://www.tsmc.com/english/dedicatedFoundry/technology/7nm.htm

17. Wang, L. 2018。UMC 不会重新加入 7 纳米技术开发竞赛。台北时报http://www.taipeitimes.com/News/biz/archives/2018/09/04/2003699736

18. Williams, C. 2015。英特尔 TOCK BLOCK:10 纳米 Cannonlake 推迟到 2017 年,奖励 14 纳米 Kaby Lake 到 '16 年。The Registerhttps://www.theregister.co.uk/2015/07/16/intel_10nm_14nm_plans/

19. Yeric, G. 2018。3DIC 中的三个维度,第 1 部分。Arm Researchhttps://community.arm.com/developer/research/b/articles/posts/three-dimensions-in-3dic-part-1

 

相关文章

获得千兆级芯片
延续摩尔定律的挑战与机遇
Shekhar Borkar
https://queue.org.cn/detail.cfm?id=957757

CPU 数据库:记录微处理器历史
借助这个开放数据库,您可以挖掘过去 40 年的微处理器趋势。
Andrew Danowitz 等。
https://queue.org.cn/detail.cfm?id=2181798

可重构的未来
生产更便宜、更紧凑的芯片是一把双刃剑。
Mark Horowitz
https://queue.org.cn/detail.cfm?id=1388771

 

Jessie Frazelle 是 Oxide Computer Company 的联合创始人兼首席产品官。在此之前,她曾在 Linux 的各个部分工作,包括容器以及 Go 编程语言。

 

版权 © 2020 由所有者/作者持有。出版权已授权给 。

acmqueue

最初发表于 Queue vol. 18, no. 1
数字图书馆中评论本文





更多相关文章

Michael Mattioli - 客户端计算硬件中的 FPGA
FPGA(现场可编程门阵列)非常通用。它们广泛用于各种应用和行业,在这些应用和行业中使用 ASIC(专用集成电路)在经济上不太可行。尽管设计师在将 FPGA 集成到设备中时面临面积、成本和功率挑战,但它们提供了显着的安全性和性能优势。许多这些优势可以在客户端计算硬件(如笔记本电脑、平板电脑和智能手机)中实现。


Christoph Lameter - NUMA(非统一内存访问):概述
NUMA(非统一内存访问)是一种现象,即处理器地址空间中各个点的内存具有不同的性能特征。在当前的处理器速度下,从处理器到内存的信号路径长度起着重要作用。信号路径长度的增加不仅增加了内存的延迟,而且如果信号路径由多个处理器共享,则很快就会成为吞吐量瓶颈。内存的性能差异首先在大型系统中变得明显,在这些系统中,数据路径跨越主板或机箱。这些系统需要修改后的操作系统内核,其中 NUMA 支持显式理解系统的内存拓扑属性(例如内存区域所在的机箱),以避免过长的信号路径长度。


Bill Hsu, Marc Sosnick-Pérez - 实时 GPU 音频
今天的 CPU 能够为许多流行的应用程序支持实时音频,但一些计算密集型音频应用程序需要硬件加速。本文着眼于一些实时声音合成应用程序,并分享了作者在 GPU(图形处理单元)上实现它们的经验。


David Bacon, Rodric Rabbah, Sunil Shukla - 面向大众的 FPGA 编程
在研究硬件如何影响计算性能时,我们在一端有 GPP(通用处理器),另一端有 ASIC(专用集成电路)。处理器具有高度可编程性,但在功率和性能方面通常效率低下。ASIC 实现专用和固定功能,并提供最佳的功率和性能特性,但任何功能更改都需要完全(且极其昂贵)地重新设计电路。





© 保留所有权利。

© . All rights reserved.