Commit to Memory - @JessFraz

2021年11月15日
第19卷，第5期

Commit to Memory

芯片测量竞赛

专用芯片的优势

Jessie Frazelle

艾伦·凯 (Alan Kay) 曾说过：“真正认真对待软件的人应该自己制造硬件。” 我们现在看到产品公司真正地践行这一价值观。2021年8月19日，特斯拉展示了 Dojo，这是一款用于训练神经网络的新芯片。你可能会想象一篇关于此事的文章的开头会是这样：“一家不做芯片业务的公司，竟然为自己的特定用例制造了自己的芯片，真是令人震惊！” 公告的这一部分并不那么令人震惊，因为之前特斯拉及其 FSD（全自动驾驶）计算机、思科及其网络 ASIC，以及最近的苹果 M1 芯片都已出现过类似情况。实际上，特斯拉公告中令人震惊的部分不是他们的芯片，而是他们的人形机器人，但这我们将在另一篇文章中讨论。

像特斯拉和苹果这样的公司对其软件（和硬件）非常重视，以至于它们不断深入堆栈底层，解决更具挑战性的问题，以便为客户提供更好的产品。此外，随着摩尔定律的放缓，芯片制造商被迫在方法上变得越来越有创意，从而导致芯片的多样化。当被称为芯片供应商的行业巨头，在其赖以生存的技术领域，被其之前的客户超越时，这是一个激动人心的时代。

重要的是要注意，芯片供应商很难偏离通用芯片，因为这是他们获得最多客户并维持成功业务的方式。话虽如此，让我们深入探讨一下这些专用芯片的一些有趣之处：为构建这些芯片的公司带来的经济、用户体验和性能优势。

AI 芯片

GPU 最初是为图形设计的，因此得名图形处理单元。GPU 实际上不是为神经网络制造的；然而，它们往往仅用于此，仅仅是因为它们优于 CPU，因为它们有许多内核可以并行运行计算。2016 年，谷歌推出了 TPU（张量处理单元），这是一种专为神经网络设计的 ASIC（应用特定集成电路）。专为神经网络设计的 ASIC 往往非常擅长矩阵乘法和浮点运算，因为这在很大程度上是训练神经网络的全部内容。这就是为什么你经常看到这些类型的芯片通过比较 FLOPS（每秒浮点运算次数）来宣传。传统的 GPU 专注于像素放置的计算；它们也能够进行矩阵乘法和浮点运算，但规模不如专门为神经网络制造的芯片。

如果你正在进行任何与神经网络相关的复杂工作，你只有少数几个好的计算选项。传统上，这个领域的冠军一直是英伟达 (Nvidia) 的 A100。像特斯拉这样直接与谷歌的自动驾驶汽车实验竞争的公司，可能不希望其数据存储在谷歌的云端。因此，A100 是其唯一的选择。A100 的价格很高，而英伟达似乎也在利用其在该领域的统治地位。由于英伟达的高利润率，特斯拉可以通过制造自己的芯片来获得更好的单位经济效益和性能。然而，由于芯片的设计、软件的构建、制造和维护成本，特斯拉的策略可能更多是垂直整合的结果，以及针对其特定用例的设计带来的性能优势，而不仅仅是经济效益。

Cerebras、Groq 和 Graphcore 等初创公司也已进入该领域。该领域的主流公众舆论似乎是：“是否有人可以与英伟达竞争？” [youtube.com] 芯片往往是专门为训练或推理，或两者兼而有之而制造的（此处表示为通用）。

训练是基于示例开发神经网络的过程。训练神经网络是内存密集型的，因为反向传播需要存储所有中间层的激活值；因此，为训练制造的芯片往往具有更大的内存。

推理就像生产一样，将数据馈送到模型中以获得预测。模型的推理具有很强的延迟要求，因为你希望尽可能快地获得预测。对于自动驾驶汽车来说，缓慢的预测可能意味着生死攸关。特斯拉的 FSD 计算机是为推理而制造的（它在你的汽车中，在你驾驶时预测你的汽车和其他汽车应该做什么），而 Dojo D1 芯片是为训练而制造的。

对于最适合神经网络的 ASIC，有很多不同的名称。谷歌称其 ASIC 为 TPU；英伟达将其 A100 和其他芯片称为 GPU；Groq 使用术语 TSP（张量流处理器）；Graphcore 发明了术语 IPU（智能处理单元）；而苹果则使用 NPU，即神经处理单元。（如果只标准化为苹果的术语就好了，因为它使用了“神经”一词，暗示了神经网络，而不是每个人都想出自己的名字，但我又能知道什么呢？）

表 1 比较了所有这些芯片的最新一代。请注意，表中的所有数字均来自营销材料，而非实际基准测试。

特斯拉的 Dojo 训练 tile 封装利用了台积电 (TSMC) 的新型 InFO_SoW（晶圆上扇出集成系统）技术 [ieee.org]。电气性能，以及成本和良率，都从这种封装中显著受益。InFO_SoW 提供了晶圆级优势，包括低延迟的芯片到芯片通信、高带宽密度和低 PDN（配电网络）阻抗，从而在没有任何缺点的情况下实现更高的计算性能和电源效率。那些熟悉芯片制造的人可能会对像 Cerebras 这样的晶圆级芯片的良率感到担忧。对于其 WSE（晶圆级引擎）和 WSE-2 处理器，Cerebras 会禁用包含损坏 tile 的整行和整列，这意味着良率没有问题。

Dojo 训练 tile 由 25 个 D1 芯片组成，这使得它更容易与 Cerebras WSE-2 进行比较。WSE-2 和 Dojo 训练 tile 之间的主要区别在于 WSE-2 是单个晶圆。组成训练 tile 的 25 个 D1 芯片可以选择确保所有芯片都制造正确且没有缺陷。单个晶圆存在更多缺陷或制造错误的风险，但 Cerebras 声称这不是问题 [cerebras.net]。如表 1 所示，Cerebras 在带宽方面明显超越其他芯片，因为它是晶圆级的。

这些芯片中的大多数都通过单行代码集成到 TensorFlow 和 PyTorch 等机器学习框架中。这使得开发人员可以轻松更改底层硬件。来自初创公司（Graphcore、Groq 等）的一些较新的芯片在这方面有点落后，但有实现目标的路线图。在主要框架之外，这些专用芯片的软件集成有点受限，这使得传统 GPU 对于此范围之外的工作负载更具吸引力。

名称	Cerebras WSE-2¹	Dojo 训练 Tile²	Dojo D1²	NVIDIA A100 80GB SXM^>3	Google Cloud TPU v4i^>4	Groq TSP⁵	Graphcore Colossus™ MK2 GC200 IPU⁶	Tenstorrent Grayskull e300 PCIe⁷
尺寸	46,225 mm²	< 92,903 mm²	645 mm²	826 mm²	< 400 mm²		823 mm²
核心	850,000	35,400	1,416⁸	6,912 CUDA + 432 Tensor	1	1	1,472
BF16/CFP8⁹		9 PFLOPS	362 TFLOPS	312 TFLOPS¹⁰	138 TFLOPS¹¹
FP64				9.7 TFLOPS¹²
FP32		565 TFLOPS	22.6 TFLOPS	19.5 TFLOPS			64 TFLOPS
FP16				312 TFLOPS		250 TFLOPS	250 TFLOPS
INT8				624 TOPS	138 TOPS	1 POPS		600 TOPS
片上内存 (SRAM)	40 GB	11 GB	442.5 MB¹³	40 MB¹⁴	151 MB¹⁵	220 MB	900 MB
DRAM				80 GB¹⁶ HBM	8 GiB HBM			16 GB¹⁶
内存带宽¹⁷	20 PB/秒	10 TB/秒	10 TB/秒	2.039 TB/秒	614 GB/秒	80 TB/秒	47.5 TB/秒	200 GB/秒
互连带宽	27.5 PB/秒¹⁸	36 TB/秒	4 TB/秒	600 GB/秒¹⁹	100 GB/秒	500 GB/秒²⁰	320 GB/秒
最大热设计功耗 (TDP)	20kW / 15kW	15kW	400W	400W	175W			300W
制程工艺	7nm	7nm	7nm	7nm	7 nm	14 nm	7nm
晶体管数量	2.6 万亿	1.250 万亿	500 亿	540 亿	160 亿	268 亿	594 亿
适用场景	通用	训练	训练	通用	通用	推理	通用	通用
价格	200-300万美元以上²¹			$20,000+				$2,000

表 1 芯片对比

1 https://cerebras.net/chip/
2 https://www.youtube.com/watch?v=j0z4FweCy4M
3 https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf
4 https://ieeexplore.ieee.org/document/9499913
5 https://groq.com/technology/
6 https://www.graphcore.ai/products/ipu
7 https://tenstorrent.com/grayskull/
8 每芯片 354 个单元 * 每个单元 4 个核心。
9 可配置浮点 8 (CFP8) 仅适用于特斯拉的 Dojo。
10 624 TFLOPS (稀疏性)。这意味着对于包含许多零或对计算影响不大的值的矩阵，你可以获得两倍于密集数学的最大吞吐量。稀疏性往往仅对推理有用。
11 https://www.hpcwire.com/2021/05/20/google-launches-tpu-v4-ai-chips/ 谷歌声称每个 pod 有 4096 个芯片，1 个 pod 具有超过 1 exaflops 的浮点性能。
12 A100 是唯一宣传此数字的芯片，有些芯片可能不支持，有些可能不宣传支持。
13 每芯片 354 个单元 * 每个功能单元 1.25 MB。
14 https://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf
15 谷歌宣传这是 MiB，但我们转换为 MB 以便于与其他数字进行比较。
16 他们的网站上说是 GB (千兆字节)，但很可能实际上是 GiB (吉比字节)。
17 对于具有高带宽内存 (HBM) / DRAM 的芯片，这指的是到该内存的带宽。而对于没有 DRAM/HBM 的芯片，这指的是 SRAM 带宽。对于两者兼有的芯片，仅列出了 HBM/DRAM 带宽，而未列出 SRAM 带宽，但你可以假设典型的 SRAM 带宽。
18 Cerebras 营销材料显示为 220 petabits，但转换为 27.5 PB 以与其他数字进行比较。
19 使用英伟达 NVLink。这是半双工的，意味着它支持 600 GB/秒的芯片输出或输入，但不能同时支持两者。
20 这是半双工。
21 此数字基于 CS-2 系统。

基准测试

表 2 显示了在云端几种不同加速器上运行 Andrej Karpathy 的 minGPT [github.com] 和谷歌的 AutoML EfficientDet [github.com] 的结果。（谷歌的 TPU 需要一个补丁，因为 minGPT 仅适用于 CPU 或英伟达的 CUDA [github.com] [github.com]。）minGPT 结果包括训练模型和运行单个预测的时间。这些是 minGPT 存储库中的 notebook：play_math, play_image 和 play_char。EfficientDet 数字仅为推理，因为模型是预训练的。端到端延迟测量从输入图像到最终渲染的新图像，包括图像预处理、网络、后处理和 NMS（非极大值抑制）。

如果你正在考虑购买像特斯拉这样的芯片，架构上最接近的是 Cerebras。特斯拉不是唯一一家涉足为自身用例构建自己的芯片的公司。让我们来看看苹果的 M1。

云服务提供商	AWS	Azure	GCP	GCP	GCP	GCP	GCP
类型	p4d.24xlarge¹	Standard_ND96asr_v4²	v3-8³	v3-32⁴	v3-64⁴	a2-highgpu-8g⁵	a2-highgpu-16g⁵
加速器	8 个 NVIDIA A100 (40GB HBM2)	8 个 NVIDIA A100 (40GB HBM2)	4 个 TPU v3 (8 核)	16 个 TPU v3 (32 核)	32 个 TPU v3 (64 核)	8 个 NVIDIA A100 (40GB HBM2)	16 个 NVIDIA A100 (40GB HBM2)
CPU	96 个 3.0 GHz 第二代英特尔至强可扩展处理器 (Cascade Lake)	96 个第二代 AMD Epyc	96 个 2.0 GHz 英特尔至强	64 个 2.0 GHz 英特尔至强	128 个 2.0 GHz 英特尔至强	96 个 2.0 GHz 英特尔至强	96 个 2.0 GHz 英特尔至强
加速器内存	320 GB HBM + 320 MB SRAM	320 GB HBM + 320 MB SRAM	137⁶ GB	550⁷ GB	1.10⁸ TB	320 GB HBM + 320 MB SRAM	640 GB HBM + 640 MB SRAM
主机内存	1237⁹ GB	966¹⁰ GB	256¹¹ GB	256¹¹ GB	256¹¹ GB	680 GB	680 GB
每小时成本	$32.77	$28	$8 + VM 成本 ($1.35) = $9.35	$32	$64	$23.47¹²	$46.94¹³
play_math 时间	无法获得实例配额	1 分 47.854 秒	时间太长，不值得关注	9 分 19.873 秒	无法获得配额尝试	1 分 54.273 秒	3 分 55.344 秒¹⁴
play_image 时间	无法获得实例配额	46 分 0.339 秒	时间太长，不值得关注	始终破坏集群	无法获得配额尝试	48 分 43.917 秒	67 分 54.672 秒
play_char 时间	无法获得实例配额	9 分 45.164 秒	时间太长，不值得关注	始终破坏集群	无法获得配额尝试	10 分 21.712 秒	21 分 25.199 秒
EfficentDet 网络延迟时间	无法获得实例配额	-¹⁵	0.07424558710000043		无法获得配额尝试	0.1467520845999985	0.13379498250000096
EfficentDet 网络延迟帧率 (FPS)	无法获得实例配额	-	13.468813959988125		无法获得配额尝试	6.81421325445356	7.474121834127769
EfficentDet 端到端延迟时间	无法获得实例配额	-	0.08260749860000374		无法获得配额尝试	0.08342655909999622	0.08533461209999586
EfficentDet 端到端延迟帧率 (FPS)	无法获得实例配额	-	12.105438573344657		无法获得配额尝试	11.986590490941696	11.718574390754727

表 2 基准测试

1 https://aws.amazon.com/ec2/instance-types/
2 https://docs.microsoft.com/en-us/azure/virtual-machines/nda100-v4-series
3 https://cloud.google.com/tpu/docs/types-zones
4 https://cloud.google.com/tpu/pricing#pod-pricing
5 https://cloud.google.com/compute/docs/gpus
6 128 GiB 转换为 GB
7 512 GiB 转换为 GB
8 1 TiB 转换为 TB
9 1152 GiB 转换为 GB
10 900 GiB 转换为 GB
11 https://cloud.google.com/compute/docs/general-purpose-machines 64 GB * 4
12 https://cloud.google.com/compute/gpus-pricing 每个 GPU $2.933908 * 8
13 https://cloud.google.com/compute/gpus-pricing 每个 GPU $2.933908 * 16
14 我认为这些速度较慢，因为我们在不同的硬件部件之间进行了更多的内存传输，并且我们没有足够的训练数据来使新线程值得内存传输的成本。
15 没有测试，但可以认为类似于 GCP 的 8 个 A100。

苹果 M1

苹果不仅创造了 CPU，还创造了 GPU 和许多其他加速器，共同构成了被称为 M1 的 SoC（片上系统）。除了 CPU 和 GPU 之外，M1 SoC 还包括一个图像处理单元，用于加速图像处理应用程序完成的常见任务；数字信号处理器，其处理的数学密集型功能比 CPU 更多（例如，解压缩音乐文件）；神经处理单元，用于高端智能手机中加速 AI（人工智能）任务（例如，语音识别和相机处理）；视频编码器和解码器，用于处理视频文件和格式的节能转换；安全 enclave，用于加密、身份验证和安全；以及统一内存系统。这些组件中的每一个都专为大多数 Mac 用户执行的工作负载而设计。通过制造自己的芯片，苹果不再需要依赖之前从英特尔购买的通用芯片，并且可以将其硬件完全集成到其软件中，从而创造完整的体验。

事实上，苹果现在已经超越了英特尔的制造工厂（fabs）的 capabilities。M1 使用台积电的 7nm 工艺，而英特尔尚未赶上（fabs 将在本文后面深入介绍）。正如我在之前的文章“蚕食摩尔定律” [acm.org] 中所述，晶体管越小，芯片运行所需的功率就越小。对于苹果来说，这意味着其设备的电池续航时间更长，台式机的功耗更低。

统一内存系统

M1 性能优于通用芯片的一大优势来自于统一内存系统。这使得 SoC 中的 CPU、GPU 和其他处理单元可以共享内存中的相同数据。通用芯片往往不这样做，因为它们都使用某种不同的互连形式，不允许这样做。使用统一内存，当 CPU 需要将数据提供给 GPU 时，GPU 可以从相同的内存位中获取数据；无需先复制到 GPU 的内存中 [eclecticlight.co]。

由于 RAM 直接嵌入在 SoC 中，因此无法升级到更多内存（尽管对于苹果电脑来说，这在相当长一段时间内都是不可能的，因为以前 RAM 是焊接到主板上的）。

RISC

M1 是基于 ARM 的，这意味着它是 RISC（精简指令集计算机）架构。苹果之前使用的英特尔芯片是 x86，一种 CISC（复杂指令集计算机）架构。这种转换值得注意，原因有几个。苹果必须回答的一个问题是，通过切换架构，是否会做出改变，从而破坏其用户群运行的程序。为此，苹果推出了一款名为 Rosetta 的模拟器，该模拟器使配备 M1 芯片的 Mac 能够使用为配备英特尔处理器的 Mac 构建的应用程序。

从 x86 切换到 ARM 并不是苹果第一次切换指令集架构。从 1984 年到 1994 年，苹果主要使用摩托罗拉的 68x CISC 系列处理器。1994 年，它切换到 PowerPC RISC 系列处理器。2006 年，它转向英特尔的 x86 处理器，随后在 2020 年切换到自己的 ARM RISC 处理器 [chipsetc.com]。虽然苹果可能拥有勇气 [theverge.com] 在没有经验的情况下进行切换，但它也拥有支持它的经验。

RISC 架构的指令较少，但更像乐高积木：它们拥有 CISC 架构提供的复杂指令的所有构建块，同时还具有构建用户想要的任何东西的灵活性。在基于 RISC 的系统中，由于指令较少，因此需要更多指令来完成复杂的任务；然而，处理它们可能更有效率。对于基于 CISC 的架构，由于指令的数量及其复杂性，很难达到如此高的效率。（英特尔通过添加解码阶段将 CISC 指令转换为 RISC 指令，开始将其处理器作为 RISC 进行营销 [medium.com]。RISC 的优势仍然存在，因为指令长度是固定的；CISC 仍然需要弄清楚指令的长度。）使用 RISC 架构可以带来更好的电源效率和性能。

M1 处理器的一个设计细节需要指出的是大量的编码器和解码器。只有使用基于 RISC 的架构才能实现这一点，因为指令长度是固定的。基于 CISC 的架构具有可变长度的指令和许多复杂的指令。一句流行的说法是，没有人知道 x86 中所有可用的指令 [twitter.com]，但有一些方法可以发现隐藏的指令 [github.com]。指令长度固定意味着基于 RISC 的架构需要更简单的解码，从而减少电路、热量和功耗。

M1 利用 OoOE（乱序执行）作为一种并行执行更多指令的方式，而无需将该功能作为多个线程公开。你可能会想，[哈欠] “英特尔和 AMD 也这样做”，但 M1 芯片存在核心差异。为了让 OoOE 充分发挥其优势，需要一个大型微操作缓冲区；然后硬件可以更容易地找到并行运行的指令。解码器将机器代码指令转换为微操作，以传递到指令缓冲区。英特尔和 AMD 处理器通常有四个解码器。M1 有八个解码器，指令缓冲区是行业标准的 3 倍大。这意味着 M1 处理器可以更容易地找到并行运行的指令。

现在你可能会想，为什么 AMD 和英特尔不添加更多解码器？由于基于 CISC 的架构具有可变长度的指令，因此解码器很难将字节流拆分为指令，因为它们不知道下一条指令从哪里开始。CISC 解码器必须分析每条指令才能了解其长度。AMD 和英特尔通过蛮力来解决这个问题。他们尝试在每个可能的起始点解码指令，使解码器步骤过于复杂而无法添加更多解码器。

就用户体验、经济性和性能而言，苹果构建自己的处理器似乎是理所当然的。它不仅制造了高效的 CPU，而且 SoC 中包含的所有其他专用芯片都基于 Mac 用户的工作负载。苹果可以将所有专用芯片集成到其软件中，并为其客户创造良好的用户体验。在为其用户制造更好的芯片方面，它绝对超越了英特尔，并且摆脱了向英特尔支付利润分成的义务。

代工厂

如果你是一家像苹果、特斯拉或其他“无晶圆厂”公司（没有自己的制造工厂的公司），并且已经设计了自己的芯片，你会去哪里制造？当然是台积电 (TSMC)。台积电是值得信赖的代工厂，拥有 3nm/5nm/7nm 等先进工艺来制造这些芯片。即使英特尔也使用台积电而不是自己的工厂来制造其一些最先进的芯片。苹果、特斯拉、英特尔和 AMD 必须在台积电争夺产能。三星拥有 5nm 和 7nm 工艺，但台积电在良率、成本和密度方面似乎优于三星 [semiwiki.com]，这使得台积电成为大牌客户中值得信赖的代工厂。特斯拉确实为其 FSD 芯片使用了三星，为 Dojo 使用了台积电。

英特尔计划制造更先进的芯片，甚至将其代工厂的产能出售给苹果等客户，但历史对它不利 [theverge.com]。英特尔仍在努力启动 7nm 工艺，而台积电正在研发 3nm 工艺。像苹果这样的客户对英特尔的 12nm 或 14nm 工艺不感兴趣；他们正在寻找 3nm 或更小的工艺。英特尔能否赶上？

重要的是要理解，工艺的名称（5nm、7nm 等）已经变得更像是一个营销术语，而不是晶体管尺寸的描述。传统上，命名来自 L_eff（晶体管沟道的最小有效长度）。在比较工艺时，最好比较晶体管的密度。例如，英特尔声称其未经证实的 7nm 工艺在密度上与台积电的 5nm 工艺相当 [hardwaretimes.com]，前提是英特尔能够启动该工艺。这可能有助于它赶上的机会。

有趣的是，英特尔 CEO 帕特·基辛格 (Pat Gelsinger) 在 2021 年 3 月 23 日的投资者简报会 [intc.com] 上表示，该公司预见到苹果将成为其代工厂的未来客户，同时推出了一系列反苹果的广告 [youtube.com]。具有讽刺意味的是，这些广告嘲讽了 PC 相对于苹果电脑的功能，而这些功能与底层处理器无关，从而引发了一些有趣的 YouTube 评论。公众对这些广告的总体评价对英特尔不利，并且实际上可能给了 AMD 一定的营销助力。

然而，假设全球处理器和工厂产能短缺持续存在，并且英特尔设法赶上台积电。在这种情况下，许多客户无疑会感到欣慰，因为有不止一家代工厂可以信赖来制造先进芯片。然而，英特尔要赶上还有很长的路要走，而台积电正在投资 1000 亿美元用于自身扩张 [bloomberg.com]。

极紫外光刻

EUV（极紫外）光刻技术用于用光将最微小的纳米级特征蚀刻到硅晶圆中。EUV 光刻技术早期的限制之一是光罩保护膜尚未准备就绪。光罩保护膜是一种薄而透明的薄膜，可在芯片生产流程中保护昂贵的光掩模免受颗粒物落到其上。如果颗粒物落到光掩模上，扫描仪可能会在晶圆上打印重复的缺陷。这将对良率产生灾难性影响，更不用说 EUV 光掩模的价格约为 30 万美元 [semiengineering.com]。（ASML 制造了价值 1.5 亿美元的 EUV 机器，为芯片的领先制造提供动力。英特尔、三星和台积电都已对该公司进行了投资。）

由于这些限制，英特尔决定放弃 EUV，并尝试朝不同的方向发展。台积电和三星尽管缺少光罩保护膜，但仍继续推进 EUV，并提出了他们自己解决该问题的方法。台积电还具有优势，因为苹果、高通和 AMD 的 7 纳米设计具有相对较小的芯片尺寸。光掩模尺寸可能是最终 EUV 芯片的 20 倍左右；然而，这些客户的 IC（集成电路）的掩模仍然相对较小。不幸的是，英特尔仍然采用大型单片芯片，因此尝试使用任何无光罩保护膜的 EUV 解决方案都可能导致极低的良率。英特尔要么必须改变其芯片尺寸，这需要大规模的架构更改，要么等待光罩保护膜。

这就是为什么英特尔在先进工艺和 EUV 方面落后于台积电和三星的原因。三星是第一个将 EUV 应用于其 7 纳米工艺生产的公司 [semiwiki.com]，台积电紧随其后。三星似乎遇到了良率问题 [semiwiki.com]，这可能是由于尝试在没有光罩保护膜的情况下进行 EUV 造成的。2020 年 7 月，台积电已使用 EUV 制造了 10 亿颗 7 纳米芯片 [tsmc.com]。直到 2021 年 3 月，光罩保护膜才准备就绪，最终使英特尔能够考虑使用 EUV [semiengineering.com]。

未来

不仅通用芯片变得越来越好，而且许多以前不从事芯片制造业务的公司现在也开始制造自己的芯片。这样做似乎在用户体验、经济性和性能方面带来了回报。看看接下来谁会加入这个俱乐部将会很有趣。向那些对软件如此认真以至于自己制造硬件的工程师致敬。技术因此变得更好。

致谢

非常感谢 James Bradbury、Ben Stoltz、Todd Gamblin、Nils Graef、Ed West 和 Thomas Steininger 对本文的反馈。

Jessie Frazelle 是 Oxide Computer 公司的联合创始人兼首席产品官。在此之前，她曾在 Linux 的各个部分工作，包括容器以及 Go 编程语言。

最初发表于 Queue 杂志第 19 卷，第 5 期—
在数字图书馆中评论本文

更多相关文章

David Chisnall - 如何设计 ISA
在过去的十年中，我参与了多个项目，这些项目设计了用于各种处理器的 ISA（指令集架构）扩展或全新 ISA（您甚至可以在 RISC-V 规范的致谢中找到我的名字，一直追溯到第一个公开版本）。当我开始时，我对是什么构成好的 ISA 知之甚少，而且，据我所知，这在任何地方都没有正式教授。

Gabriel Falcao, João Dinis Ferreira - PiM 或非 PiM
随着人工智能成为数十亿边缘物联网 (IoT) 设备普遍使用的工具，数据移动瓶颈对这些系统的性能和自主性施加了严格的限制。PiM（内存内处理）正在兴起，成为一种缓解数据移动瓶颈的方法，同时满足依赖 CNN（卷积神经网络）的边缘成像应用对性能、能源效率和准确性的严格要求。

Mohamed Zahran - 异构计算：势不可挡
近年来，对“异构计算”这个流行语的提及一直在增加，并且在未来几年内将继续被听到，因为异构计算已成为必然趋势。什么是异构计算？为什么它会成为常态？我们如何从软件和硬件方面来应对它？本文回答了其中一些问题，并提出了对其他问题的不同观点。

David Chisnall - 不存在通用处理器
在计算机体系结构中，将处理器和加速器归类为“通用”的趋势日益增长。在今年国际计算机体系结构研讨会 (ISCA 2014) 上发表的论文中，45 篇中有 9 篇明确提到了通用处理器；一篇还提到了通用 FPGA（现场可编程门阵列），另一篇提到了通用 MIMD（多指令多数据）超级计算机，将定义扩展到了极限。本文提出了一个论点，即不存在真正的通用处理器，并且相信这种设备是有害的。