可重构系统的必然性 -

2003年12月5日
第1卷，第7期

可重构系统的必然性
NICK TREDENNICK，GILDER TECHNOLOGY REPORT
BRION SHIMAMOTO，独立顾问

从基于指令的电路到可重构电路的转变并非易事，但时机已到吗？

1971年微处理器的引入标志着电子系统设计方法停滞了30年。行业正在通过从程序化系统转向可重构系统来摆脱停滞。在程序化系统中，配置位的线性序列（组织成称为指令的块）配置固定的硬件以模拟定制硬件。在可重构系统中，逻辑元件之间的物理连接随时间变化以模拟定制硬件。向可重构系统的转变将是剧烈的，但随着设计重点从成本性能转向每瓦特成本性能，这是不可避免的。这就是故事。

从零开始构建电路

在20世纪40年代之前，解决问题意味着构建硬件。工程师选择算法和硬件组件，并将算法嵌入到硬件中以适应一个应用：固定的硬件资源和固定的算法。硬件解决方案适用的应用范围取决于硬件组件的成本和性能。

计算机

计算机大约在1940年出现。这是解决问题的一个突破，它将算法与硬件分离。算法作为计算机指令驻留在内存中。这些指令配置计算机的硬件以模拟原本是定制硬件的功能。计算机的硬件可以在一系列应用中共享：固定的硬件资源和可变的算法。计算机的效率远低于定制电路，它并没有将电子应用范围扩展到更高的性能。但是，通过将算法放置在廉价的内存中并节省昂贵的逻辑，计算机大大扩展了可负担的应用范围。问题解决者的范围从逻辑设计工程师扩大到程序员。扩大的范围加速了电子系统开发。

集成电路和摩尔定律

集成电路（芯片）在1959年问世。在1965年的一期《电子学》杂志上，戈登·摩尔观察到芯片上的晶体管数量可能每年翻一番。这一观察成为摩尔定律。它被称为定律，因为它是行业为自己设定的改进速度。在过去的30年中，摩尔定律的速度使芯片上的晶体管数量大约每18个月翻一番。（在最初几年，每个芯片的晶体管数量每年翻一番，但速度放缓了。）

半导体制造商设定这个速度不是为了进步；他们设定它是为了赚钱。处理晶圆的成本是相同的，而与芯片和晶体管的尺寸无关（就像印刷不取决于字体大小一样）。对于现有设计，缩小晶体管会缩小芯片，因此，更多的芯片可以安装在晶圆上（参见图1）。这增加了制造商的利润。对于给定尺寸的芯片，更多更小的晶体管可以安装在芯片上，因此芯片可以应用于更高价值的应用并以更高的价格出售（参见图1）。

集成电路通过提高设计工程师的生产力加速了半导体市场的增长。在集成电路出现之前，工程师使用分立元件进行设计：晶体管、二极管、电感器、电容器和电阻器。必须为特定电路选择每个组件。借助集成电路“系列”的即插即用“逻辑宏”，工程师不再需要调整单个晶体管和其他分立元件的尺寸。集成电路系列激增，逻辑宏以摩尔定律的速度变得更加复杂。

微处理器

最终，一个芯片上可以容纳足够的晶体管来构成一台计算机。微处理器是计算机的芯片化版本，它将计算机的编程模型引入到硬件设计中。微处理器停止了逻辑宏的扩散，并将制造重点放在微处理器、存储器和外围芯片上。微处理器适用于主要考虑低成本和足够性能的广泛应用。广泛的应用意味着大批量生产，从而降低了微处理器的单位成本，进一步扩展了其应用。微处理器的出货量从1971年的几乎为零增长到每年数十亿个。在过去的八年中，制造商每年出货的微处理器数量超过了地球上的人口数量。用于嵌入式（非计算机）应用的平均微处理器的成本低于6美元，许多微处理器的售价低于1美元。

与计算机的开发方式直接平行，微处理器还有另外两个后果。微处理器、存储器和外围芯片是解决问题所需的大部分硬件。工程师们第一次只需要选择程序（程序）；他们不必选择资源和设计控制结构（就像他们在使用逻辑宏进行设计时所做的那样）。解决问题变成了编程。微处理器还将嵌入式系统设计师的范围从逻辑设计师扩展到逻辑设计师和程序员。

由于基于指令的硬件为了工程生产力而牺牲了效率（速度和能耗），因此它适用于性能足够的应用。基于电路的硬件适用于以性能为导向的应用。摩尔定律在微处理器芯片方面的进步使其更便宜，或者这些进步使其更快、更强大，从而扩展了其应用。

个人电脑

在微处理器问世十年后，IBM PC上市了，英特尔微处理器在其中扮演中央处理器的角色。个人电脑将微处理器市场划分为以性能为导向的设计（用于计算机系统中的中央处理角色）和以成本为导向的嵌入式设计。

个人电脑发展壮大，在半导体行业中占据主导地位，消耗了约40%的半导体。个人电脑在组件销售中占据主导地位，其微处理器在收入和新闻报道中都占据主导地位。与嵌入式微处理器相比，用于个人电脑的微处理器单位销量微不足道。个人电脑制造商每年的销量不到1.5亿台。然而，用于个人电脑的微处理器价格很高，平均接近100美元（而嵌入式微处理器的价格不到6美元）。尽管单位销量很小，但这些高价格意味着用于个人电脑的微处理器几乎占所有微处理器收入的一半。难怪当人们想到微处理器时，他们会想到个人电脑的大脑。

当个人电脑问世时，其性能还不够好。随着时间的推移，其性能以接近摩尔定律的底层组件改进速度提高。领先的个人电脑以溢价提供领先的性能。普通消费者在领先的个人电脑上市后立即购买。早期采用者对个人电脑的期望持续上升，但用户群体扩大到包括性能期望较低的后期采用者。因此，对性能的需求上升并蔓延。性能的供应以摩尔定律的速度上升，最终超过了需求（参见图2）。

高性价比个人电脑

经过20年的性能供应改进和20年的需求蔓延，个人电脑现在满足了大多数用户。极客社区仍然购买领先的个人电脑，但大多数消费者对“高性价比个人电脑”感到满意。高性价比个人电脑以有吸引力的价格提供足够好的性能。明年的高性价比个人电脑将比今年的高性价比个人电脑具有更好的性能，因此其定义不是静态的。

在个人电脑主导半导体行业的同时，行业将工程资源分配给它。高性价比个人电脑导致这些资源转移到（利润更高的）非 tethered 系统的设计。这将是行业的一个重大转变——从个人电脑的成本性能导向转向非 tethered 系统的每瓦特成本性能导向。

非 tethered 系统

非 tethered 系统（如手机）与个人电脑一样需要成为低成本的消费品——并且它们与个人电脑一样需要性能——但非 tethered 系统必须节能。微处理器及其基于指令的处理方式不能作为非 tethered 系统的主力。这与设计目标有关。个人电脑微处理器是为性能而设计的；嵌入式应用的微处理器是为低成本而设计的。微处理器可以设计为平衡性能、成本和节能，但其基于指令的处理（需要不断配置以模拟硬件功能）对于非 tethered 系统来说效率不够高。

在过去的30年中，微处理器一直是嵌入式系统的主力。微处理器一直是计算机系统在20多年的主力。工程师主要通过提高微处理器的时钟频率来提高其性能。个人电脑的第一款微处理器，英特尔的8088，是当今奔腾的远古亲戚，其运行频率为4.77 MHz。今天（2003年中），顶级x86微处理器的运行频率为3 GHz——是原始速度的600多倍。时钟频率翻倍，能耗也翻倍。

如果系统像个人电脑一样插入墙壁插座，这不是问题，但对于非 tethered 系统来说，这是一个问题。为了降低能耗，工程师降低电压。将电压减半可以让微处理器以相同的能量运行速度提高三倍。这听起来像是一个解决方案，但有两个问题。

首先，电压已经随着时钟频率的提高而降低，因此低功耗微处理器的运行电压已经低于1伏。它们接近晶体管将停止运行的阈值以下。

其次，基于指令的处理消耗的能量过多。（设置微处理器以模拟所需电路所花费的所有能量都被浪费了。）数字信号处理器是微处理器的近亲，经过调整用于信号处理，它们也面临着同样的困境。它们同样即将耗尽降低其工作电压的空间。

那么，使用微处理器进行监管功能，并使用定制电路进行繁重的工作怎么样？

想想相机的镜头滤镜。它可以实时转换整个图像。滤镜转换图像几乎不花费时间或能量。为了为数字图像构建等效的转换，工程师用高级语言编写滤镜功能的程序。编译器将程序转换为微处理器指令。微处理器对数百万像素中的每个像素运行数万条指令，以应用滤镜功能。效率在过程的每个步骤中都会损失。定制电路直接构建滤镜转换的方程式。

定制电路可能足够高效，对于某些非 tethered 应用来说，它可能是答案。但对于最有趣的 emerging 非 tethered 应用来说，它仍然无法胜任。最有效的定制电路是专用集成电路 (ASIC)，它构建完全完成单个芯片上应用的电路。

当需求仍在发展时，ASIC 缺乏所需的灵活性。这包括当今大多数无线消费应用，如蜂窝网络和无线局域网。 ASIC 的开发和构建成本也可能过高。

如果微处理器不行，ASIC 也不行，那么什么可以呢？目前的答案是：没有。但故事还没有结束。

PLD 的前景

让我们看看另一个不符合非 tethered 系统的每瓦特成本性能要求的候选者：可编程逻辑器件 (PLD)。与其他候选者不同，PLD 充满希望。将 PLD 视为两层：一层是逻辑块和导线；另一层是个性化存储器（参见图3）。存储器中的位指定块和导线之间的连接以构建电路。

PLD 的一种变体使用静态随机存取存储器 (SRAM) 作为个性化存储器。 Altera 和 Xilinx 在基于 SRAM 的 PLD 市场中占据主导地位。 SRAM 个性化存储器可以实现可重构芯片，但到目前为止，客户并不希望将其用于此目的，因此制造商不会构建易于重构的芯片。 PLD 批评者指出导线和个性化存储器中的巨大开销（每个逻辑晶体管可能需要 20 个开销晶体管）以及性能比 ASIC 慢 10 或 20 倍。贸易新闻文章和技术会议将 PLD 倡导者与 ASIC 倡导者对立起来。辩论的焦点集中在芯片尺寸和电路速度上。

这让我想起了汇编语言编程和高级语言编程之间长期存在的争论，这也集中在尺寸和速度上。汇编语言编程倡导者通过证明更好的性能和更好的尺寸赢得了战斗。但他们输掉了战争，因为他们错过了向高级语言转变的重要性。关键的不足是编程人才。因此，真正的战斗是关于程序员的生产力和什么才足够好。高级语言牺牲了效率，换取了程序员生产力的极大提高。虽然辩论突出了需要领先性能的应用，但高级语言对于大多数应用来说已经足够了。

时间站在高级语言编程一边。摩尔定律的每一次转动都意味着更快的微处理器运行程序和更便宜的内存来存储它们。每一代半导体都使天平进一步向高级语言倾斜。

PLD 倡导者和 ASIC 倡导者之间关于芯片尺寸和电路速度的辩论错过了向 PLD 转变的重要性。这不再是关于绝对尺寸和速度；而是关于什么才足够好。我们可以应用与用于个人电脑相同的供需模型（参见图2）。 ASIC 和 PLD 的芯片尺寸和电路速度的供应随着摩尔定律而提高，但 ASIC 的供应曲线远高于 PLD。对芯片尺寸和电路速度的需求以某种（难以衡量的）速度增长，该速度小于摩尔定律，并且需求随着时间而扩展。随着时间的推移，满足 PLD 提供的芯片尺寸和电路速度的应用数量越来越多，而需要 ASIC 的应用数量则减少。

适用于 PLD 的应用范围不断扩大，但这并不意味着它们适用于非 tethered 应用。 PLD 仍然太慢且消耗太多能量，但它们会改进。今天通用 PLD 将让位于更快、更高效的面向应用的 PLD。这些不需要将任何逻辑元件连接到任何逻辑元件的能力（通用互连），也不需要连接到广泛的芯片。此外，它们可能具有面向应用的逻辑元件，而不是通用逻辑元件。然而，SRAM 个性化存储器是一个问题；它功耗大，并且只有在通电时才能保留其内容。

新的内存机会

用于非 tethered 应用的高效 PLD 需要终极内存：非易失性（如闪存）、与动态随机存取存储器 (DRAM) 一样密集且与 SRAM 一样快。这种圣杯的候选者实际上存在。它们包括磁阻随机存取存储器 (MRAM)、铁电随机存取存储器 (FRAM) 和双向统一存储器 (OUM)。

MRAM 在一个方向上对齐微小的磁畴以存储 1，并在相反方向上对齐以存储 0。 FRAM 在一个方向上对齐晶体的电极性以存储 1，在相反方向上对齐以存储 0。 OUM 依赖于聚合物的非晶态和晶态之间电阻的差异，类似于位存储在 DVD 或 CD 上的方式。

这些候选者中的每一个都有令人印象深刻的支持者：日立、IBM、英飞凌、摩托罗拉和 NEC 支持 MRAM；海力士、OKI 和德州仪器支持 FRAM；英特尔、三星和意法半导体支持 OUM。

这些候选者中的一些已经存在了 15 年，但未能对现有产品（闪存、DRAM 和 SRAM）取得进展。那么是什么让我认为情况会改变呢？

个人电脑最初只有 DRAM 和只读存储器 (ROM)。 DRAM 是工作内存，ROM 保存初始化系统板上芯片的程序。闪存取代了 ROM，因为闪存可以重写，这使得可以更新现场的初始化程序。当个人电脑推出时，其微处理器和 DRAM 的速度大致相同。随着时间的推移，微处理器开发人员提高了速度，DRAM 开发人员提高了容量。结果是微处理器的速度与 DRAM 的速度之间的差距越来越大。今天的微处理器比为第一台个人电脑供电的微处理器快 600 多倍。今天的 DRAM 的容量是原始个人电脑 DRAM 的 4,000 倍；然而，它们目前仅比原始个人电脑 DRAM 快五到七倍。在今天的个人电脑中，SRAM 试图弥合微处理器和 DRAM 之间的速度差距。

但个人电脑正处于改进产生系统性能回报递减的阶段。

闪存、DRAM 和 SRAM 在个人电脑中占据着不可动摇的地位。个人电脑利用了每种内存类型的优势，并且不受每种内存类型的弱点的影响。个人电脑市场的大量销量降低了内存组件的成本。这种利用优势和低成本的结合使得新型内存不可能侵入。

巨变

高性价比个人电脑的出现改变了一切。工程资源正在转移到非 tethered 系统。闪存、DRAM 和 SRAM 都存在使其不适用于非 tethered 系统的缺点。 DRAM 和 SRAM 在断电时不会保留其数据。 DRAM 速度慢且会泄漏，需要定期读取和恢复。 SRAM 消耗太多能量。闪存甚至更慢，并且会磨损。并且适用于个人电脑的内存层次结构对于非 tethered 系统来说消耗的能量过多。

到目前为止，还没有一种新型内存芯片值得加冕为赢家。重要的是，现有内存不适用于非 tethered 系统。新的非 tethered 系统中等待的内存插槽为开发新内存提供了投资激励。它可能是 MRAM、FRAM 或 OUM；它可能是基于碳纳米管；或者它可能是全新的东西。

Axon Technologies 的一种名为可编程金属化单元存储器 (PMCm) 的有趣内存候选者采用固体电解质。电解质传输电子和离子（带电原子），并且是大多数电池的工作内容。 Axon 将固体电解质夹在两个金属板之间。其中一个金属板是银，其电离势为 0.3 伏。在板之间施加超过 0.3 伏的电压会使银原子电离，然后银原子通过固体电解质迁移离开正极板。当银离子到达负极板时，它会捕获一个电子。离子从正极板到负极板的迁移在电解质中构建了银原子的物理桥，大大降低了板之间的电阻。该过程大约需要 10 纳秒，并且是完全可逆的（反转电压会通过将银离子返回到银板来拆除桥）。

我不知道众多圣杯内存候选者中的哪一个将率先实现量产，但是，凭借投资激励和非 tethered 系统中等待的插槽，这应该不会超过两三年。

如前所述，即使经过面向应用的精简，基于 SRAM 的 PLD 也不适用于非 tethered 应用。新的非易失性存储器将使面向应用的 PLD 足够高效，以用于非 tethered 系统。用新的非易失性存储器替换 PLD 的 SRAM 个性化存储器将提高芯片尺寸、速度和安全性。这些面向应用的非易失性 PLD 将实现高效的可重构系统：通用芯片上的可变硬件资源和可变算法。

可重构系统

从基于指令的电路到可重构电路的转变并非易事。行业在基于指令的电路（带有微处理器和数字信号处理器的嵌入式系统）和编程作为解决问题的方法方面拥有 30 年的经验。大量的开发系统支持基于指令的实现。整个从业工程师群体都精通并熟悉基于指令的解决方案。大学教授基于指令的实现。销售微处理器和数字信号处理器的数十亿美元业务的公司鼓励基于指令的实现。

新的设计过程本身就是从基于指令的系统到基于可重构电路的系统转变的障碍。基于指令的系统通过编程解决问题。从电路到指令的最初转变扩大了设计师的范围，包括没有逻辑设计专业知识的程序员。从基于指令的系统到可重构系统的转变，将设计师的范围缩小到那些具有逻辑设计专业知识的人，将会失败。必须伴随这种转变的是向更高层次的抽象转变，这将保留设计人员池中的程序员。 Accel、Celoxica、MathWorks 等公司的产品通过系统行为的类程序规范构建基于可重构电路的实现。为了保留设计师群体，程序将从（算法）过程演变为电路规范——也就是说，程序的作用将从指令演变为转化为面向应用的 PLD 上的电路配置的规范。

向可重构系统的转变是不可避免的。高性价比个人电脑标志着随着工程开发跟随市场走向非 tethered 系统而发生的转变。然而，设计目标从成本性能变为每瓦特成本性能。微处理器和数字信号处理器在提高性能和降低工作电压方面已发挥其市场极限。尽管它们仍然适用于以成本性能为导向的系统，但它们缺乏满足非 tethered 系统的每瓦特成本性能目标的能源效率。微处理器不会消失；它的角色将从主力变为主管。数字信号处理器可能就没有那么幸运了。虽然信号处理需求将继续增长，但基于指令的系统效率不够高，将被可重构系统所取代。

专用集成电路可能满足非 tethered 系统的每瓦特成本性能目标（尽管这仍有争议），但 ASIC 失败的原因是它们不灵活且成本过高。它们还会冻结实现并且无法适应，因此它们无法满足不断发展的需求。半导体设备、开发和掩模（用于制造芯片层的图案）的成本不断攀升，这不利于 ASIC，而有利于 PLD。 PLD 在制造方面是通用的，在现场是定制的，它满足大批量生产要求（这意味着低成本芯片）和非 tethered 系统的能源效率要求。

向非 tethered 系统的转变打破了现有内存组件对市场的锁定，提供了新的插槽，而现有内存组件不适用于这些插槽。填补这些新插槽的激励正在推动投资，这将导致新的非易失性存储器。这种新的非易失性存储器将使一代面向应用的非易失性 PLD 适用于可重构系统。

长期运行的模式鼓励我们认为它们可以永远持续下去。这是工程师对缩小晶体管、个人电脑性能、微处理器速度和基于指令的解决方案的看法。回顾过去，我们总有一天会将这些时期视为工程阶段，而不是今天我们面前的制度化设计方法。未来的工程师将记住基于指令的电路是适合成本性能系统的阶段，而可重构电路是适合每瓦特成本性能系统的阶段。

NICK TREDENNICK 是 Gilder Technology Report 的编辑。他是众多首次公开募股前初创公司的顾问和投资者，并且是众多公司的技术咨询委员会成员。他是包括 IEEE Spectrum 和 Microprocessor Report 在内的技术出版物的编辑顾问委员会成员。 Tredennick 博士因对微处理器设计的贡献而被评为 IEEE 院士。他在计算机和微处理器设计方面拥有经验，拥有九项专利，并发表了许多技术出版物。他曾是摩托罗拉的高级设计工程师、IBM 沃森研究中心的研究人员以及 Altera 的首席科学家。 Tredennick 曾在美国空军、空军后备队和空中国民警卫队担任飞行员。他还曾担任海军后备队员和陆军科学委员会成员。

BRION SHIMAMOTO 在计算机方面拥有 30 多年的经验，其中一半是技术管理经验。他曾为美国间谍卫星编写实时导弹跟踪软件，并在 IBM 编写通信软件。他曾担任 IBM 系统工程师，并且是纽约州约克镇高地的 IBM 沃森研究中心的研究人员。在那里，他从事光纤 I/O 协议的研究，后来管理了第一个单芯片 System/370 微处理器的逻辑设计。他说服 IBM 资助了一家娱乐初创公司 Digital Domain。 Shimamoto 曾担任视觉效果公司 Digital Domain 的技术副总裁。他曾担任 NCR 平台技术中心主管、AT&T（IP 网络服务）部门经理和独立顾问。他与人共同编辑 Gilder Technology Report 的期刊。

可重构的未来
MARK HOROWITZ，斯坦福大学

预测未来是出了名的困难。有时我觉得唯一真正的保证是未来会发生，并且会有人指出它与预测的不同。然而，我们似乎决心弄清楚会发生什么，更糟糕的是，记录这些观点，以便以后可以用来对付我们。所以我开始了...

规模一直在推动整个电子行业，使其能够以更低的成本生产出晶体管更多的芯片。但这种趋势是一把双刃剑：我们不仅需要弄清楚人们想要的更复杂的设备，而且还必须确定很多人想要的复杂设备，因为我们必须销售很多很多芯片才能摊销巨大的设计成本。

这种寻找具有大型应用类别的复杂设备的推动力是早期微处理器创建背后的驱动力。请记住，在 20 世纪 70 年代早期，英特尔创建了 4004，这样它就不必为每个想要计算器芯片的公司创建新的计算器芯片。通过对 4004 进行编程，每家公司都可以为其自身应用配置芯片。在过去的 30 年中，可编程处理器模型一直是半导体行业中最成功的抽象概念之一。请记住，销售的大多数处理器（超过一个数量级）都没有用于个人电脑或其他我们认为是计算机的东西；而是用于在其他电子设备中创建一些所需的功能。处理器确实是一种可重构设备；配置是通过执行一系列指令来完成的。

随着我们技术的不断扩展，这些处理器变得越来越复杂，消耗了可用的晶体管来生产更快的机器。这种扩展导致了现在著名的摩尔定律推论：处理器性能每 18 个月翻一番。这种性能增长的 remarkable 之处在于，基本机器抽象（顺序执行指令）保持不变。这种稳定的编程抽象使得可以在这些更快的机器上运行旧代码，并增量修改代码以创建所需的更复杂系统。

正如 Nick Tredennick 和 Brion Shimamoto 在随附文章“可重构系统的必然性”中正确指出的那样，通用处理器的这种主导地位目前正受到来自许多方面的压力，并且似乎需要构建其他解决方案。（然而，这并不意味着对简单处理器的需求会消失。毕竟，运行微波炉需要多少计算量？）

正如作者所指出的，一个驱动因素是功耗。我们不仅正在转向非 tethered 系统，而且之前的性能扩展不幸地增加了功耗和性能。如果您在当今的技术中构建您能想到的最高性能解决方案，您可能会消耗超出您承受能力的功耗。即使在高端台式机中，芯片现在也受到功耗限制，而不是晶体管限制。当您查看通用处理器时，与其他方法相比，它们似乎特别耗电。

因此，我们现在面临着一个真正的困境：未来最好的计算平台是什么？ Tredennick 和 Shimamoto 声称它将是可重构系统。在某种意义上，他们是对的。显然，拥有足够大的市场需要可以为许多不同应用编程的系统。用户将必须能够重构其硬件。作者还正确地指出，生成的硬件将是显式并行的。不会有一个处理器运行一段代码。

众所周知，如果应用程序中存在显式并行性，则以并行方式执行该计算对于给定的性能水平比顺序执行计算消耗更少的功率。虽然我们知道未来的计算基板将是并行和可重构的，但不太清楚的是基本可重构块将是什么。当前的现场可编程门阵列 (FPGA) 为其客户提供了一个逻辑门阵列，可以配置和重构为复杂的逻辑。然而，使用这些逻辑门并非最佳选择，原因有几个。首先，用于实现可重编程互连的内存会在功耗、面积和延迟方面造成巨大的开销。其次，FPGA 的程序员通常使用寄存器传输级 (RTL) 语言（如 Verilog 或 VHSIC（超高速集成电路）硬件描述语言 (VHDL)），而不是编程语言（如 C），后者对于大多数程序员来说会更熟悉。为了使可重构系统取得成功，它们需要开发一种语言编译器可以使用的计算模型。

遵循这种论点通常会导致人们得出结论，即更大的功能块应该是处理器，特别是考虑到整个系统将如何配置/编程。虽然我们知道如何通过编写硬件描述语言（如 Verilog 或 VHDL）在门级进行编程，可以将其综合为逻辑门，但我们不想强迫软件程序员在整个应用程序中都在这个级别工作。显然，程序员将需要在更高的抽象级别工作。一旦程序员使用这些更高级别的抽象，他们就需要一个编译器，可以将这些抽象转换为可配置的硬件。 FPGA 开始通过使用更大的组件库和 Simulink 风格的框图编辑器来看到更高级别的抽象。但尚不清楚门级 FPGA 是否是这种类型编程的最佳目标。

许多人声称正确的重构块是处理器，因为它与编译器理解的计算模型相匹配。然而，程序员有责任决定如何将所有处理器一起使用，以解决此模型中的大型问题——历史表明，如果没有足够的工具，通用并行编程并不容易。

毫无疑问，我们可以构建可重构硬件基板，无论这些块是处理器还是门。真正的问题是如何对它们进行编程。关键是要考虑计算模型或编程抽象，这些模型或编程抽象适合大型应用类别，然后找到一个由晶体管构建的计算基板，它们可以很好地映射到该基板。当今最常用的编程抽象是同步数据流模型（有时称为流计算模型）。这是 Tredennick 和 Shimamoto 的文章中提到的许多工具使用的模型；它也是 Simulink 风格的框图编辑器中使用的模型。同步数据流模型非常适用于具有大量数据并行性的应用程序，这对于许多需要更高性能计算的应用程序（如信号处理）来说是典型的。鉴于这种计算模型，现在的问题是：流编译器的最佳计算基板是什么？我认为这看起来不像我们今天认为的可重构系统；它也不像处理器。

许多人正在研究这类机器，我的同事比尔·达利就是这个领域的领导者之一。他的方案提出了许多分布式简单处理器，其配置看起来更像是将多条指令合并在一起形成超长指令字（VLIW）程序，而不是FPGA位 [1]。这是否最终会成为流机器的“正确”架构仍然是一个开放的研究问题，但这清楚地表明，解决方案很可能更像处理器而不是FPGA。

存储设备会发生什么甚至更难预测，但理解这一点同样重要。虽然许多令人兴奋的新技术即将出现，但取代现有标准总是很困难的。问题在于存储设备的标准非常高。我们期望动态RAM（DRAM）和可擦除可编程ROM（EPROM）在每个设备上具有近10亿个工作存储位，活动时功耗低于1瓦，并且成本仅为几美元。让任何新技术达到这一点都需要大量资金。

更糟糕的是，设计人员已经变得聪明起来，使用几个设备来使系统看起来像具有性能更好的设备。例如，快速静态RAM（SRAM）缓存主要隐藏了DRAM速度慢的事实。事实上，它们隐藏得非常好，以至于大多数人不会花费额外的金钱/功率来获得更快的DRAM。同样，您可以使用SRAM和EPROM来获得一个看起来像具有非易失性SRAM的系统。因此，请密切关注新的存储技术，但不要指望这种新技术能够解决您所有的问题。

显然，在未来，我们将拥有可以配置为执行许多不同功能的芯片。但像许多项目一样，构建硬件是问题中较容易的部分。我们知道如何构建这些芯片，并在门级（FPGA）、指令级（芯片级多处理器）以及两者之间的任何级别执行重新配置。不幸的是，编程任何这些芯片以产生高效的解决方案仍然没有解决，而解决这个“软件”问题最终将决定未来的芯片组织形式。

注意

1. VLIW指令是编译器能够静态调度许多并行执行单元在每个周期并发运行的结果。这种方法比当今CPU的超标量、乱序处理器架构简单得多，后者试图在硬件中动态地提取并行调度。

马克·霍洛维茨是斯坦福大学计算机系统实验室主任，以及雅虎创始人电气工程和计算机科学教授。
他于1978年在麻省理工学院获得电气工程学士和硕士学位，并于1984年在斯坦福大学获得博士学位。自1984年以来，他一直在斯坦福大学担任教授，从事数字集成电路设计领域的研究。在斯坦福大学期间，他领导了多项处理器设计，包括MIPS-X，这是首批包含片上指令缓存的处理器之一；Torch，一种静态调度的超标量处理器；以及Flash，一种灵活的DSM机器。他还从事过许多其他芯片设计领域的工作，包括高速存储器设计、高带宽接口和快速浮点运算。1990年，他离开斯坦福大学，帮助创办了Rambus公司，该公司设计高带宽存储器接口技术。

最初发表于Queue vol. 1, no. 7—
在数字图书馆中评论这篇文章

更多相关文章

安迪·伍兹 - 数据中心冷却
发电约占美国和英国一次能源供应的40%至45%，其中很大一部分用于建筑物供暖、制冷和通风。该领域一个新的且日益增长的挑战涉及计算机数据中心和其他用于冷却计算机数据系统的设备。2006年，美国数据中心使用的电力约为60亿千瓦时，约占该国电力消耗的1.5%。

大卫·J·布朗，查尔斯·里姆斯 - 迈向节能计算
到目前为止，大多数人都意识到最高层面的能源问题：我们的主要能源正在耗尽，而商业和家庭环境对能源的需求都在增加，能源使用的副作用具有重要的全球环境影响。温室气体（如二氧化碳）的排放，现在被大多数气候学家认为与全球变暖有关，这只是其中一个问题。

埃里克·萨克斯 - 节能软件
电源管理功能的演进速度简直令人惊叹。如今，几乎所有尺寸和级别的计算机系统，从最小的传感器和手持设备到数据中心中的“大型机”服务器，都提供了无数的功能来减少、计量和限制功耗。如果没有这些功能，风扇噪音将主导办公室氛围，而无线笔记本电脑将只能使用几个小时（前提是能够承受热量），而数据中心的电力和冷却成本及容量将变得难以管理。

亚历山德拉·费多罗娃，胡安·卡洛斯·萨埃兹，丹尼尔·谢列波夫，曼努埃尔·普列托 - 使用非对称多核系统最大化功率效率
在计算系统中，CPU通常是最大的能源消耗者之一。因此，降低CPU功耗已成为过去几年学术界和工业界的热门话题。为了创造更节能的CPU，一些研究人员提出了非对称多核架构，该架构有望在提供与传统对称多核处理器相似性能的同时节省大量功率。