超级计算机让人联想到“大型机”和速度;它是计算领域的F1赛车。然而,随着我们迈入新的千年,我认为效率、可靠性和可用性将在本十年末成为主导问题,不仅对于超级计算,而且对于一般的计算也是如此。
在过去的几十年里,超级计算行业一直并将继续专注于速度和马力方面的性能,年度超级计算大会(SC)的戈登·贝尔奖就是证明。这种观点类似于主要根据最高速度和马力来决定购买汽车。虽然这种狭隘的观点在实现“不惜一切代价追求性能”的背景下很有用,但这不一定是购买车辆时应该使用的观点。节俭的消费者可能会考虑燃油效率、可靠性和购置成本。翻译:买一辆本田思域,而不是F1赛车。户外探险家可能会考虑越野能力(或越野效率)。翻译:买一辆福特探险者运动型多用途车,而不是F1赛车。相应地,我认为超级计算(或更广泛地说,计算)界应该有替代指标来评估超级计算机——特别是与效率、可靠性和可用性相关的指标,例如总拥有成本(TCO)、性能/功耗比、性能/空间比、故障率和正常运行时间。
1991年,一台Cray C90矢量超级计算机占地约600平方英尺(sf),需要500千瓦(kW)的电力。洛斯阿拉莫斯国家实验室的ASCI Q超级计算机最终将占地超过21,000平方英尺,需要3,000千瓦的电力。尽管这两个系统之间的性能提高了近2000倍,但每瓦特的性能仅提高了300倍,每平方英尺的性能仅提高了微不足道的65倍。后一个数字意味着超级计算机对其占用的空间利用效率较低,这通常会导致新机房的设计和建造,如图1所示,在某些情况下,还需要建造全新的建筑物。空间利用效率降低的主要原因是计算节点的功耗呈指数级增长,我将这种现象称为“功耗的摩尔定律”(见图2)——即计算节点的功耗每18个月翻一番。这是摩尔定律的推论,摩尔定律指出,处理器上每平方英寸的晶体管数量每18个月翻一番[1]。当节点消耗和散发更多功率时,它们必须间隔开并进行积极冷却。
如果没有图1中所示的特殊外壳设施,传统的(低效)超级计算机将非常不可靠(由于过热),以至于它们永远无法供应用科学家使用。事实上,来自两家领先供应商的未公开经验数据证实,根据应用于微电子学的阿伦尼乌斯方程,计算节点的故障率随着温度每升高10摄氏度(18华氏度)而翻一番;温度与功耗成正比。
然后,我们可以将此论点扩展到更广泛的计算领域。例如,对于像Amazon.com这样使用多个计算系统来处理在线订单的电子商务企业,计算机系统不可靠和不可用造成的停机成本可能是天文数字,如表1所示——经纪业务和信用卡公司每小时数百万美元,在线零售商和服务商每小时数十万美元。停机成本包括两部分:收入损失(例如,最终用户“点击”到竞争对手的网站)和花费在修复计算机系统上的额外工时。
表1. 商业服务服务器停机一小时的估计成本 |
|
服务 | 停机一小时的成本 |
经纪业务 | $6,450,000 |
信用卡授权 | $2,600,000 |
eBay |
$225,000 |
Amazon.com | $180,000 |
包裹运输服务 | $150,000 |
家庭购物频道 | $113,000 |
目录销售中心 | $90,000 |
来源:应急计划研究。 |
显然,停机时间应该是计算机系统总拥有成本(TCO)的一个组成部分,无论该系统是Web服务器场还是超级计算机。但是,还有哪些组成部分构成了TCO?更一般地说,甚至比停机时间更广泛,TCO由两部分组成:(1)购置成本和(2)运营成本。前者是一次性成本,可以定义为购置计算机系统所产生的所有成本——例如,采购、谈判和购买——因此,相对容易量化[2]。然而,后者是经常性成本,由多个组成部分组成,包括与系统集成和管理、电力和冷却、停机时间和空间相关的成本。虽然与电力和冷却以及空间相关的成本很容易量化,但其他运营成本——即系统集成和管理以及停机时间——往往高度特定于机构,并且充满了隐藏成本[3]。因此,我认为TCO不容易量化。我转而专注于量化与TCO相关的指标,例如效率、可靠性和可用性。具体而言,我们提出以下指标:性能/功耗比、性能/空间比(或计算密度)、故障率和正常运行时间。
如图3所示,Green Destiny是我们拥有240个处理器的超级计算机的名称,它装在一个电话亭里,满负荷运行时功耗低于5.2千瓦(kW)(无盘且计算空闲时仅为3.2千瓦)。它为我们的应用科学家提供经济实惠的通用计算,同时位于海拔7,400英尺、温度为85-90华氏度的尘土飞扬的仓库中。更重要的是,它提供可靠的计算周期,无需任何特殊设施——即,无需空调、无需加湿控制、无需空气过滤和无需通风——并且没有停机时间。(相比之下,更传统的、高端的240处理器超级计算机,例如Beowulf集群[4],通常需要专门冷却的机房才能可靠运行,因为这样的超级计算机很容易消耗高达36.0千瓦的电力和冷却,大约是Green Destiny的七倍。)
Green Destiny采用了一种新颖且革命性的超级计算方法,最终重新定义了性能,使其涵盖与最终用户更相关的指标:效率、可靠性和可用性。因此,Green Destiny可以说是世界上最高效的超级计算机,因为它提供了一个完全集成的解决方案,在效率、可靠性、可用性、多功能性、管理、自我监控和测量以及易用性方面,比任何其他解决方案都优越几个数量级[5,6]。
为了实现如此高的效率、可靠性和可用性,我们设计了一个架构,围绕该架构,我们可以适当地将Green Destiny的修改后的构建块拼接在一起。这些构建块包括Transmeta驱动的RLX ServerBlade作为计算节点,以及World Wide Packets的Lightning Edge网络交换机,这些交换机配置在一个单层树拓扑中,以实现高效通信,如图4所示。
通过选择Transmeta处理器作为计算引擎,Green Destiny采用了一种主要基于硬件的功耗感知超级计算方法。Transmeta处理器消除了传统RISC架构中约75%的晶体管,并在其代码变形软件(CMS)中实现了丢失的(但效率低下的)硬件功能,CMS是一个直接位于Transmeta硬件上的软件层。这种方法产生了一个比其他处理器运行温度更低的处理器,如图5所示,该图显示了传统低功耗移动处理器和Transmeta处理器的热图像。当运行基于软件的DVD播放器时,处理器的运行温度相差57.3摄氏度(或135.1华氏度)。这意味着,根据已证实的阿伦尼乌斯方程,传统的低功耗移动处理器(没有任何主动冷却)的故障可能性是Transmeta处理器(没有任何主动冷却)的32倍。
尽管Transmeta处理器比传统的移动处理器可靠得多,但其阿喀琉斯之踵是其浮点性能。因此,我们修改了CMS,创建了一个“高性能CMS”,将浮点性能提高了近50%,并最终在逐个时钟周期的基础上与传统移动处理器的性能相匹配。
在网络方面,Green Destiny运行Lightning Edge交换机的软件配置,其中自动协商等功能被简单地关闭,因为所有链路速度都是已知的。这可以将功耗降低到每个端口几瓦。
最初,我们转向理论天体物理学界,寻求在Green Destiny上运行的科学应用:一个包含数十万个星系的n体模拟[4],如图6所示。随后是三维超新星核心坍缩的平滑粒子流体动力学模拟[5]。此后,我们还在大规模分子动力学和生物信息学领域运行了应用程序。对于后者,我们开发了自己的并行BLAST代码,用于序列匹配,称为mpiBLAST [7],该代码演示了超线性加速。
图6显示了一个星系形成的引力n体模拟的中间阶段,其中包含1000万个粒子。包含超过1015次浮点运算的1,000个时间步长的整体模拟在Green Destiny上不到一天的时间内完成。图6中显示的区域横跨约1.5亿光年。
此应用程序中最耗时的部分是计算粒子加速度的分量[8],特别是评估r-3/2,其中r是粒子之间的距离。由于此计算对于通用n体代码的重要性,我们使用倒数平方根函数的两种不同实现——(1)来自数学库的sqrt函数和(2)Karp的平方根实现[8]——作为引力微内核基准测试的一部分,评估商用处理器的单处理器性能。为了在n体模拟的背景下模拟计算(并且,巧合地,提高我们浮点评估的置信区间),我们的引力微内核基准测试在倒数平方根计算上循环100次。
表2显示了六种商用处理器在引力微内核基准测试的两种不同实现上的Mflops评级,其中Mflops代表每秒百万(106)次浮点运算。考虑到Transmeta处理器是软硬件混合体,而其他处理器都是全硬件设计,使用我们高性能CMS的Transmeta处理器运行得非常出色。
表2. 引力微内核基准测试的Mflops评级 |
||
处理器 | Math sqrt (libm) | Karp sqrt |
500-MHz Intel Pentium III | 87.6 | 137.5 |
533-MHz Compaq Alpha EV56 | 76.2 | 178.5 |
667-MHz Transmeta TM5600 | 128.7 | 297.5 |
933-MHz Transmeta TM5800 | 189.5 | 373.2 |
375-MHz IBM Power3 | 298.5 | 379.1 |
1,200-MHz AMD Athlon MP | 350.7 | 452.5 |
注:Mflops评级越高越好。 |
表3显示了每种处理器相对于功耗的计算效率,以下简称处理器的功耗效率。鉴于Transmeta的单处理器性能与传统的耗电处理器相当,表3为计算行业扩展视野以至少从两个角度解决性能问题提供了动力:速度和功耗效率。
表3. 引力微内核基准测试的功耗效率(性能/功耗比越高越好) |
||
处理器 |
性能/功耗比
|
|
Math sqrt (libm) | Karp sqrt | |
500-MHz Intel Pentium III | 5.1 | 8.0 |
533-MHz Compaq Alpha EV56 | 0.85 | 2.0 |
667-MHz Transmeta TM5600 | 17.6 | 40.8 |
933-MHz Transmeta TM5800 | 31.6 | 62.2 |
375-MHz IBM Power3 | 37.3 | 47.4 |
1,200-MHz AMD Athlon MP | 6.2 | 8.0 |
注:用于这些处理器的功耗基于制造商的数据表。 |
表4提供了运行标准n体模拟的超级计算集群的历史性能记录,从代表宇宙学n体模拟初始演化的球形粒子分布开始[6]。令人惊讶的是,我们发现Green Destiny(基于667-MHz Transmeta TM5600)和Green Destiny+(基于933-MHz/1-GHz Transmeta TM5800)在此并行n体代码上的每个处理器的性能明显优于SGI Origin 2000超级计算机,并且与ASCI White(目前在Top 500超级计算机列表中排名前10的超级计算机)的每个处理器的性能相差不到10%。 (注:对于Green Destiny和Green Destiny+,我们都使用了我们的高性能CMS,这使得每个节点的性能比标准CMS提高了50%。)
表4. 集群和超级计算机上n体树代码的历史性能 |
|||||
地点 | 机器 | 处理器 (Proc) | # Proc | Gflops | Mflops/Proc |
LLNL | ASCI White | IBM Power3 | 8,192 | 2,500 | 305 |
LANL | Green Destiny+ | Transmeta TM5800 | 212 | 58 | 274 |
LANL |
SGI Origin 2000 | MIPS R10000 | 64 | 13 | 203 |
LANL | Green Destiny Transmeta | TM5600 | 212 | 39 | 184 |
SC’01 | MetaBlade2 | Transmeta TM5800 | 24 | 3 | 125 |
LANL | Avalon | DEC Alpha 21164A | 128 | 16 | 125 |
LANL | MetaBlade | Transmeta TM5600 | 24 | 2 | 83 |
NAS | IBM SP-2(66/W) | IBM SP-2 | 128 | 10 | 78 |
SNL | ASCI Red | Intel Pentium Pro | 6,800 | 465 | 68 |
LANL | Loki | Intel Pentium Pro | 16 | 1 | 63 |
SC’96 |
Loki+Hyglac | Intel Pentium Pro | 32 | 2 | 63 |
Caltech |
Naegling | Intel Pentium Pro | 96 | 6 | 63 |
NRL | TMC CM-5E | Sun SuperSPARC | 256 | 12 | 47 |
SNL | ASCI Red | Intel Pentium Pro | 4,096 | 164 | 40 |
JPL | Cray T3D | Cray | 256 | 8 | 31 |
LANL | TMC CM-5 | Sun SPARC2 | 512 | 14 | 27 |
Caltech | Intel Paragon | Intel iPSC/860 | 512 | 14 | 27 |
Caltech | Intel Delta | Intel i860 | 512 | 10 | 20 |
注:Gflop = 十亿 (109) 次浮点运算每秒。 Gflop评级四舍五入到最接近的整数Gflop。 |
表5. 集群和超级计算机的性能和效率数字 |
|||||
机器 |
Avalon | ASCI Red | ASCI White | ASCI Q | Green Destiny+ |
(1996) | (1996) | (2000) | (2002) | (2002)12 | |
性能 (Gflops) | 18 | 600 | 2,500 | 8,000 | 58 |
内存 (GB) | 36 | 585 | 6,200 | 12,000 | 150 |
磁盘 (TB) | 0.4 | 2 | 160 | 600 | 5 |
面积 (sf) | 120 | 1,600 | 9,920 | 21,000 | 6 |
功耗 (kW) |
18 | 1,200 | 2,000 | 3,000 | 5 |
内存密度 (MB/sf) | 307 | 374 | 640 | 585 | 25,600 |
磁盘密度 (GB/sf) | 3 | 1 | 17 | 29 | 853 |
计算密度 (Mflops/sf) | 150 | 375 | 252 | 381 | 9,667 |
功耗效率 (Mflops/watt) | 1.0 | 0.5 | 1.2 | 2.7 | 11.6 |
注:上面的性能数字基于n体树代码的实际运行。 |
尽管表4提供了有趣的性能数字以供比较,但将这些性能数字与其他已知(或测量)量(如功耗和占地面积大小)相结合,会产生大量更具启发性的关于效率的数据点:内存密度、磁盘密度、计算密度(或空间效率)和功耗效率,如表5所示[9]。 Green Destiny的内存密度比其最接近的竞争超级计算机高出40多倍;其磁盘密度高出30倍;其计算密度(即性能/空间比)高出25倍;其功耗效率(即性能/功耗比)大约比所有其他超级计算平台高出5到10倍。
但是请注意,表5中的比较有点像苹果、橘子和柑橘的比较。“苹果”是Green Destiny,其目的是以牺牲一些性能为代价,提供超高效且高度可靠的超级计算——即计算领域的丰田凯美瑞[10]。根据表5中的数据,Green Destiny显然最有效地利用了空间和功耗(参见表5中Green Destiny的彩色数字)。 “橘子”是ASCI机器,其唯一目的是不惜一切代价实现性能——即计算领域的F1赛车。鉴于ASCI Q机器在每个此类类别中都处于领先地位(参见表5中ASCI Q的彩色数字),它显然实现了该目的。“柑橘”是Avalon,它是最早使用Linux操作系统的Beowulf集群之一[4, 11]。其目的是提供最佳的性价比,其中价格定义为购置成本。在所有超级计算机中,Avalon确实实现了最佳的性价比,略微超过Green Destiny。
为了探索另一个有趣的(但仍然是苹果和橘子)比较,我们在表6中查看了Green Destiny+和日本地球模拟器[13]的LINPACK运行结果。 Green Destiny+的性能是从具有相同架构的机器较小版本上的实测性能推断出来的。这种推断是现实的,因为101-Gflop评级基于Green Destiny的每个较小版本上实现的峰值性能百分比——即LINPACK实现的峰值性能的70%。
表6. Green Destiny+和日本地球模拟器的性能和效率数字 |
||
机器 |
美国 Green | 日本 |
Destiny+ [14] | 地球模拟器 | |
性能 (Gflops) | 101 | 35,860 |
内存 (GB) |
150 | 10,000 |
磁盘 (TB) |
5 | 不适用 |
面积 (sf) | 6 | 70,290 [15] |
功耗 (kW) | 5 | 7,000 |
内存密度 (MB/sf) | 25,600 | 146 |
磁盘密度 (GB/sf) | 853 | 不适用 |
计算密度 (Mflops/sf) | 16,833 | 510 |
功耗效率 (Mflops/watt) | 20 | 5 |
Green Destiny代表了一种主要由硬件驱动(或“架构驱动”)的功耗感知超级计算方法。这种方法的目标是采用新的制造技术或硬件重新设计,使其具有相同的功能但能源成本更低。值得进一步研究的两种替代方法是
目前,架构驱动方法是这三种方法中最成熟的方法。嵌入式计算领域的硬件设计师多年来(如果不是几十年)一直隐含地在这个领域工作,以满足材料商品的电气和热规格(或范围)。然而,它在超级计算和高性能计算方面仍处于起步阶段。这种方法的主要局限性包括其对新技术进步的缺乏灵活性以及在设计硬件时来自软件的未知需求。
软件驱动方法必须解决两个控制问题:(1)何时指示硬件在两种不同的功耗级别之间切换——即电压和/或频率;(2)如何重新排列应用程序软件代码,从而改变系统负载并允许进行进一步的低功耗优化。这两个问题都可能非常昂贵,尤其是在不了解底层硬件架构的情况下。例如,切换电压或频率级别的决定可能取决于执行切换所涉及的硬件开销。
我们认为,硬件-软件协同设计方法最有希望,但这需要硬件和软件之间进行密切合作。硬件和软件之间的功耗感知接口将使操作系统(OS)程序员能够将功耗感知引入传统的OS服务中。然后必须向应用程序程序员公开这些功耗感知OS接口,以便可以将特定于应用程序的信息传输到OS,从而实现更有效的功耗管理。
Green Destiny提供了一个完全集成的解决方案,在效率、可靠性和可用性方面,比任何其他解决方案都优越几个数量级。具体而言,如表5所示,其内存密度比传统超级计算机高出40到80倍;其磁盘密度高出30到850倍;其计算密度或空间效率(即性能/空间比)高出25到60倍;其功耗效率(即性能/功耗比)大约高出5到10倍。(也许,Green Destiny的另一个名称可以是Green Density)。
此外,由于其低功耗设计,Green Destiny在其生命周期内从未发生故障,其正常运行时间实际上是每天24小时,每周7天,每年365天。这意味着没有时间、精力和金钱浪费在人员诊断和修复故障或一组故障上;没有金钱浪费在更换硬件部件上;Green Destiny始终可供使用。这与我们之前的超级计算机形成了鲜明对比,那是一台传统的128处理器集群,每周都会发生故障,需要花费半天到一天的时间来诊断和修复。更令人惊奇的是,Green Destiny在海拔7,400英尺、温度为85-90华氏度的尘土飞扬的仓库中运行,同时实现了所有这些优点。尽管本文未明确讨论总拥有成本,但应该清楚的是,Green Destiny的TCO将大大优于任何其他超级计算平台。
正如戈登·贝尔最近指出的那样——他是超级计算大会戈登·贝尔高性能计算奖的赞助商,数字设备公司(DEC)VAX系列小型计算机的发明者,以及微软湾区研究中心的高级研究员——Green Destiny“通过重新定义大众超级计算的可访问性和经济性[16]”震惊了计算行业。 Celera Genomics创始人J. Craig Venter也进一步支持Green Destiny,他表示,在人类基因组测序竞赛中,他花费在Alpha超级计算机上的资金(600万美元)与建造容纳超级计算机的基础设施的资金(600万美元)一样多。正如他在2002年10月16日接受GenomeWeb采访时指出的[17],如果这就是生物信息学革命的代价,那么这将是一场不会走得很远的革命。这是他对我们在洛斯阿拉莫斯国家实验室开发的“绿色机器”感兴趣的主要原因。
Green Destiny仅仅是功耗感知超级计算的第一步(并且希望不是最后一步)。它的成功——尤其是在专门冷却的机房基础设施很少见的应用社区中——直接源于摒弃了关于功耗的摩尔定律。我们没有使用每平方厘米功耗高达100瓦的处理器(如图2中功耗摩尔定律“规定”的那样),而是基于低功耗构建块构建了Green Destiny——例如,负载时每平方厘米功耗仅为6瓦的Transmeta处理器和每个端口功耗仅为几瓦的World Wide Packet交换机。处理器消耗的功率越小,其运行温度就越低。处理器运行温度越低,整个系统发生故障(或降频)的可能性就越小。通过积极追求“低温”超级计算机,我们在恶劣的环境中——即海拔7,400英尺、温度为85-90华氏度的尘土飞扬的仓库中,没有任何冷却、加湿控制或空气过滤设施——无故障地运行了Green Destiny。相比之下,传统的超级计算机现在变得如此庞大,并且消耗如此多的电力,以至于机构经常建造新的机房(有时甚至是新的建筑物)来容纳它们。
尽管我相信摩尔定律在技术上在2010年之前是可行的,并且很可能超出此范围,但其目前的轨迹预计到2010年将达到每平方厘米一千瓦,据称这与太阳表面的每平方厘米功率一样多!从社会经济学的角度来看,我认为我们必须避免摩尔定律,并将超级计算系统的性能评估重定向到性能和性价比之外的其他指标。在本文中,我提出了一些这样的指标:总拥有成本、性能/空间比、性能/功耗比、可靠性和正常运行时间。一个更具争议性的指标将是“总性价比比”(ToPPeR),其中总价格由TCO定义。有关此指标的详细信息,请参见我与Michael Warren和Eric Weigle合着的文章“刀片式Beowulf:传统Beowulf的一种经济高效的替代方案”[5]。
通过将这些论点应用于更传统的数据中心,例如搜索引擎服务器场(例如,Google)、Web服务器场(例如,Yahoo)和计算服务器场(例如,IBM的On-Demand和惠普的Demand More),可以获得更大的经济和效率效益。从效率的角度来看,Green Destiny的计算密度、内存密度、磁盘密度和功耗效率至少比现有服务器场解决方案高一个数量级。从经济角度来看,除了引入可靠性问题外,具有大功耗范围的系统从简单的电力成本角度来看也可能非常昂贵。例如,假设您运营一个拥有100个Green Destiny机架(类似于Google或Yahoo)的数据中心,其中每个Green Destiny机架由240个处理器组成。在负载且带有磁盘的情况下,每个机架消耗5.2千瓦。因此,每年5.2千瓦/机架 * 100个机架 * 24小时 * 365天 = 4,555,200千瓦时。基于传统处理器的相同数量的机架可能消耗31.2千瓦/机架 * 100个机架 * 24小时 * 365天 = 27,331,200千瓦时。在加利福尼亚州,每千瓦时(kWh)0.15美元的价格下,仅能源成本每年就相差340万美元。
然而,这还不是完整的故事。由于高散热,具有传统处理器的系统必须使用大致相同的功率进行专门冷却,总功耗为54,662,400千瓦时,导致每年总共相差750万美元!加利福尼亚不仅可以通过采用功耗感知(超级)计算来节省大量资金,而且或许甚至可以避免2000年和2001年夏季的加利福尼亚轮流停电。
1. Moore, G. 将更多组件塞进集成电路,Electronics 38, 8 (1965年4月)。
2. 在计算性价比时,价格是有时与性能指标结合使用的另一个指标,价格被定义为仅购置成本,而不包括运营成本。
3. Bell, G. 和 Gray, J. 高性能计算的下一步是什么? Communications of the , 45, 2 (2002年2月)。
4. Sterling, T., Becker, D. Savarese, D., Dorband, J. Ranawake, U., 和 Packer, C. Beowulf:用于科学计算的并行工作站,国际并行处理会议论文集(1995年8月)。
5. Feng, W., Warren, M., 和 Weigle, E. 刀片式Beowulf:传统Beowulf的一种经济高效的替代方案,IEEE Cluster 2002会议论文集(2002年9月)。
6. Warren, M., Weigle, E., 和 Feng, W. 高密度计算:一立方米内的240处理器Beowulf,Supercomputing 2002会议论文集(2002年11月)。
7. Darling, A., Carey, L., Feng, W. mpiBLAST的设计、实现和评估,最佳论文:应用轨道,ClusterWorld Conference & Expo会议论文集(2003年6月)。
8. Karp, A. 在缺少硬件平方根的机器上加速n体计算,Scientific Programming, 1, 2 (1992)。
9. ASCI Q的性能是从具有相同架构的机器较小版本上的实测性能推断出来的。这种推断是乐观的;实际性能可能会略微降低。 Avalon和Green Destiny的功耗和空间数字是实际测量值,而ASCI机器的功耗和空间数字基于与系统管理员的个人沟通和来自万维网的引用数字。
10. LANL研究人员为生物信息学任务装备了超级计算领域的“丰田凯美瑞”,BioInform/GenomeWeb (2003年2月3日)。
11. Warren, M., Germann, T., Lomdahl, P., Beazley, D., 和 Salmon, J. Avalon:Alpha/Linux集群以15万美元实现10 Gflops,Supercomputing 1998 (SC’98) 会议论文集 (1998年11月)。
12. 如果Green Destiny+在完整配置中指定——即每个节点1.125 GB内存和每个节点160 GB磁盘——内存密度和磁盘密度将增加一个数量级,分别达到每平方英尺187,500 MB和每平方英尺6,400 GB。这些数字将对Web服务器场和搜索引擎服务器场(如Yahoo和Google)产生巨大的影响。
13. LINPACK 基准测试被用于在 Top 500 超级计算机榜单 (http://www.top500.org) 中对超级计算机进行排名,之所以选择它,是因为它是我们拥有的唯一通用基准测试结果,该结果已在两台不同的机器(Green Destiny 和 Japanese Earth Simulator)上运行过。
14. 我们再次注意到,如果在完整配置中指定 Green Destiny+——每个节点 1.125 GB 内存和每个节点 160 GB 磁盘——则内存密度和磁盘密度将增加一个数量级,分别达到每平方英尺 187,500 MB 和每平方英尺 6,400 GB。
15. 实际上,Japanese Earth Simulator 占据了两层楼,每层楼的尺寸为 50 米 x 60 米(或 35,145 平方英尺)。因此,它的占地面积实际上是 2 * 35,145 = 70,290 平方英尺。
16. Bell, Gordon. 致洛斯阿拉莫斯国家实验室的信件, 2003
17. Lakhman, K. Craig Venter 为其新的测序中心购买生物信息学技术, GenomeWeb, 2002 年 10 月 16 日; http://www.genomeweb.com/articles/view-article.asp?Article=2002101693617。
WU-CHUN FENG 是洛斯阿拉莫斯国家实验室 (LANL) 计算机和计算科学部高级网络技术 (RADIANT) 研究与开发部门的技术人员和团队负责人。他还是洛斯阿拉莫斯计算机科学研究所的院士,以及新兴网络技术高级暑期课程 (ASCENT) 的创始人和主任。Feng 于 1998 年加入 LANL,在那里他一直在进行高性能网络和计算方面的研究。此后,他在 50 多篇期刊和会议出版物中建立了受人尊敬的记录,并发表了 20 多次特邀演讲和学术报告。他在洛斯阿拉莫斯的团队与加州理工学院、CERN 和 SLAC 合作,最近还以单个 TCP/IP 流打破了 Internet2 陆地速度记录。
Feng 分别于 1988 年和 1990 年在宾夕法尼亚州立大学获得电气和计算机工程与音乐(荣誉)理学学士学位以及计算机工程理学硕士学位。他于 1996 年在伊利诺伊大学厄巴纳-香槟分校获得计算机科学博士学位。
最初发表于 Queue vol. 1, no. 7—
在 数字图书馆 中评论这篇文章
Andy Woods - 数据中心的冷却
在美国和英国,发电量约占一次能源供应的 40% 到 45%,其中很大一部分用于建筑物供暖、制冷和通风。该行业中一个新的且日益增长的挑战涉及计算机数据中心和其他用于冷却计算机数据系统的设备。2006 年美国数据中心使用的电力约为 60 亿千瓦时,约占该国电力消耗的 1.5%。
David J. Brown, Charles Reams - 迈向节能计算
到现在,大多数人都意识到最高层面的能源问题:我们的主要能源正在耗尽,而商业和家庭环境中的能源需求都在增加,并且能源使用的副作用具有重要的全球环境影响。现在大多数气候学家认为与全球变暖有关的温室气体(如二氧化碳)的排放只是其中一个问题。
Eric Saxe - 节能软件
电源管理功能的演进速度简直令人惊叹。如今,几乎每种尺寸和级别的计算机系统,从最小的传感器和手持设备到数据中心中的“大型”服务器,都提供了无数功能来减少、计量和限制功耗。如果没有这些功能,风扇噪音将主导办公室环境,无绳笔记本电脑将只能使用几个小时(而且前提是能够承受热量),而数据中心的电力和冷却成本以及容量将变得难以管理。
Alexandra Fedorova, Juan Carlos Saez, Daniel Shelepov, Manuel Prieto - 利用非对称多核系统最大化电源效率
在计算系统中,CPU 通常是最大的能源消耗者之一。因此,在过去几年中,降低 CPU 功耗一直是学术界和工业界的热门话题。在创建更节能 CPU 的过程中,一些研究人员提出了非对称多核架构,该架构有望在提供与传统对称多核处理器相似性能的同时节省大量电力。