铭记于心 - @JessFraz

  下载本文的PDF版本 PDF

铭记于心

能源属于人民

减少数据中心的碳足迹

Jessie Frazelle

当您将照片上传到 Instagram,将手机备份到云端,通过 Gmail 发送电子邮件,或将文档保存在 Dropbox 或 Google Drive 等存储应用程序中时,您的数据都保存在数据中心。这些数据中心是飞机库大小的仓库,里面堆满了服务器机架和冷却机制。根据您使用的应用程序,您很可能正在访问 Facebook、Google、Amazon 或 Microsoft 运营的数据中心之一。除了我称之为超大规模企业的这些主要参与者之外,许多其他公司也运营自己的数据中心,或从托管中心租用空间来放置其服务器机架。

 

碳足迹

大多数超大规模企业在实现其数据中心的碳中和足迹方面取得了巨大进展。 Google、Amazon 和 Microsoft 都已承诺完全脱碳;然而,还没有一家公司成功实现这一目标。

如果一家公司声称实现碳中和,这通常意味着它正在使用REC(可再生能源证书)来抵消其化石燃料的使用。一个 REC 代表一兆瓦时 (MWh) 的电力,这些电力来自太阳能或风能等可再生能源,并被生成并输送到电网。通过购买 REC,碳中和公司本质上是在回馈清洁能源,以防止其他人排放碳。大多数公司通过投资于主要避免排放的抵消来实现碳中和,例如支付费用给人们不砍伐树木或购买 REC。这些抵消实际上并没有消除公司正在排放的碳。

一家净零排放公司实际上必须去除与其排放量相同的碳量。尽管该公司仍在产生碳排放,但这些排放量等于该公司去除的碳量。

如果一家公司称自己为碳负排放,那么它每年去除的碳量将超过其排放量。这应该是公司运营的黄金标准。如今,FAANG(Facebook、Apple、Amazon、Netflix 和 Google)公司中没有一家声称自己是碳负排放,但 微软发布新闻稿称将在 2030 年实现碳负排放

 

电源使用效率

PUE,即电源使用效率,定义为数据中心总能耗(包括照明和冷却)除以服务器使用的能源。完美的 PUE 将为 1.0,因为 100% 的电力消耗将用于计算。传统数据中心的 PUE 约为 2.0,而超大规模企业已将其降至约 1.2。根据 Uptime Institute 2019 年对 1,600 个数据中心进行的调查,平均 PUE 为 1.67

PUE 作为一种测量方法存在争议。 PUE 没有考虑位置因素,这意味着位于可以从外部空气自由冷却的世界区域的数据中心将比位于非常炎热气候中的数据中心具有更低的 PUE。 PUE 应按年度平均值进行测量,因为季节变化会影响数据中心一年中的冷却需求。根据利兹大学的一项研究,“除非已知数据中心是否以满负荷运行,否则比较数据中心的 PUE 值在某种程度上毫无意义。”

Google 声称其所有数据中心的年平均 PUE 为 1.1,而个别数据中心的 PUE 低至 1.08。 Google 为降低 PUE 而采取的措施之一是使用机器学习根据当地天气和其他因素来冷却数据中心——例如,如果外部天气足够凉爽,数据中心可以直接使用而无需修改,作为免费的冷空气。它还可以提前 36 小时预测风力发电场的输出。 Google 从其设施中的传感器收集了所有数据,这些传感器监控温度、电力、压力和其他资源,以创建神经网络来预测其数据中心未来的 PUE、温度和压力。 这样,Google 可以自动化并推荐操作,以便从预测中保持其数据中心高效运行。 Google 还将其数据中心的温度设置为 80°F,而不是通常的 68-70°F,从而节省了大量冷却电力。 数据中心所在地的天气是一个重要因素。 例如,Google 的新加坡数据中心拥有最高的 PUE,并且是其站点中效率最低的,因为新加坡全年炎热潮湿。

Wired 进行了一项分析,比较了 Google、Microsoft 和 Amazon 在数据中心碳足迹方面的表现。Google 声称其碳排放量为净零,并每年发布PUE 透明度报告。 虽然 Microsoft 声称将在 2030 年实现碳负排放,但它今天仍然是碳中和的。 它还声称到 2025 年将实现 100% 可再生能源。

另一方面,Amazon 在大型科技公司中碳足迹最差。 如前所述,数据中心的位置很重要,因此由于这些地区的天气条件或更容易获得太阳能或风能,一些 Amazon 区域可能比其他区域更环保。 Amazon 创始人兼首席执行官 Jeff Bezos 已承诺到2040 年实现净零排放绿色和平组织似乎不这样认为,并在 2019 年的一份报告中声称,Amazon 并未致力于该承诺,因为其弗吉尼亚州的数据中心仅使用了 12% 的可再生能源。

2018 年,Apple 声称其 100% 的能源来自可再生资源Facebook 声称到 2020 年底将实现 100% 可再生能源。 虽然美国公司纷纷效仿,承诺降低碳足迹,但百度、腾讯和阿里巴巴等中国互联网巨头尚未如此。

 

数据中心中哪些设备正在耗电?

根据Procedia Environmental Sciences 的一项研究,数据中心 48% 的电力用于服务器和机架等设备,33% 用于 HVAC(供暖、通风和空调),8% 用于 UPS(不间断电源)损耗,3% 用于照明,10% 用于其他所有设备。

HVAC 需要一个精细的过程,以确保服务器排出的热空气不会与冷空气混合并升高整个数据中心的温度。 这就是为什么大多数数据中心都有冷热通道。 目标是让冷空气流入机架的一侧,而热空气从另一侧排出。 优化整个机架和服务器的气流对于提高 HVAC 效率至关重要。

电力以交流电的形式从电网输送过来。 这可以是单相电(有两根线,一根电源线和一根零线);也可以是三相电(有三根线,每根线彼此之间相位差 120 电角度)。 两者之间的主要区别在于,三相电可以处理比单相电更高的负载。 电网的电力频率可以是 50 或 60Hz。电压可以是以下任何一种:208、240、277、400、415、480 或 600V。

由于数据中心的大多数设备都使用直流电,因此需要转换交流电。 这会导致电力损失和能源浪费,总计约为 21-27%。 为了分解这一点,当公用事业中压(定义为大于 1000V 且小于 100 kV)转换为 480VAC 时,会损失 2%; 由于从 AC 到 DC 以及 DC 再到 AC 的转换,集中式 UPS 内会损失 6-12%; 由于从 480VAC 转换为 208VAC,PDU(配电单元)级别会损失 3% 的电力。 服务器的标准电源将 208VAC 转换为所需的 DC 电压,导致 10% 的损耗,假设电源效率为 90%。 这一切都表明,在传统的电力转换和转换过程中,电力被浪费了。

为了减少转换造成的电力浪费,有些人依赖高压直流配电。劳伦斯伯克利国家实验室在 2008 年进行了一项研究,其中将设施使用 380VDC 配电与传统 480VAC 配电系统进行了比较。 结果表明,使用直流电的设施消除了多个转换阶段,与典型的交流配电设施相比,能耗降低了 7%。 然而,这在超大规模中很少完成。 超大规模企业倾向于将三相交流电输送到机架,然后在机架或服务器级别转换为直流电。

 

更节能的计算

除了 REC 和使用 100% 可再生能源外,超大规模企业还通过其他方式提高了数据中心的电源效率。 2011 年,开放计算项目在 Facebook 位于帕洛阿尔托总部的地下室实验室中启动。 其使命是从零开始设计最有效、最经济的方式来大规模运行计算。 这导致使用480VAC配电系统以减少能量损失,移除服务器中任何不利于效率的部件,在冬季重复使用热通道空气来加热办公室和流入数据中心的外部空气,并消除对中央电源的需求。 Facebook 团队在 Prineville 数据中心安装了新设计的服务器,与现有数据中心相比,完成相同的工作能耗减少了 38%。 成本也降低了 24%。

让我们深入了解开放计算设计中实现电源效率的一些细节。开放式机架设计包括一个电源母线,可将 12VDC 或 48VDC 的分布式电源输送到节点。 母线沿机架背面垂直运行。 它将电源从机架级 PSU(电源单元)传输到机架中的服务器。 母线允许服务器直接插入机架以获取电源,因此在维修开放式机架时,您无需拔下电源线; 您只需从机架正面拉出服务器即可。 借助开放计算设计,服务器的网络连接位于机架正面,因此技术人员无需前往机架背面(即热通道)。

 

冗余

传统设计在每台服务器中都有 PSU。 开放式机架设计为机架集中式 PSU,允许 N+M 冗余,最常见的部署是 N+1。 这意味着每个服务器机架都有一个额外的 PSU。 在传统系统中,这将是 1+1,因为每台单独的服务器中都有一个额外的 PSU。 将 PSU 集中到机架可以减少电源转换组件的数量; 这提高了系统的效率。

 

大小合适的 PSU

服务器设计人员倾向于选择具有足够余量的 PSU,以便为最大配置提供电力。 服务器供应商宁愿携带少量过大的电源 SKU,也不愿携带大量大小合适的电源 SKU,因为规模经济更喜欢前者。 这导致过大系数至少是传统电源所需容量的两到三倍。 相比之下,机架级 PSU 的尺寸不会过大,因为它的大小适合用途。 超大规模企业还具有硬件规模经济的优势。 典型的符合开放式机架标准的电源的尺寸仅比所需容量大 1.2 倍,甚至更小。

 

最佳效率

每个电源都有一个负载与效率的最佳点。 80 Plus 认证计划使用以下不同等级来衡量 PSU 效率:铜牌、银牌、金牌、白金牌和钛金牌。 效率最高的等级是钛金级。 数据中心中最常用的 PSU 等级是银牌,其最大效率为 88%,这意味着它会在各个负载水平下将 12% 的电能浪费为热量。 相比之下,12V 和 48VDC PSU 的数据显示最大效率分别为95%98%。 这意味着机架级 PSU 仅浪费 5% 到 2% 的能源。

虽然机架级 PSU 的效率很重要,但您仍然需要权衡为将电力输送到每台服务器而进行的转换次数的成本。 对于每次不必要的电源转换,您都需要支付效率成本。 例如,对于 48VDC 机架级电源,服务器可能需要将机架提供的 48VDC 转换为 12VDC,然后再将 12VDC 转换为 VCORE。 VCORE 是提供给 CPU、GPU 或其他处理核心的电压。 Google 凭借其 48VDC 电源,提倡使用48V 到 PoL(负载点)来为服务器供电。 这意味着放置一个 DC-DC 或线性电源稳压器,从机架级 PSU 到服务器,这将减少将电力输送到处理核心所需的转换次数。 然而,Google 的实施方案所需的 48VDC-DC 稳压器并不常见,并且价格昂贵。 Google 公开 48VDC 机架规格的动机很可能是为了增加这些部件的销量,从而降低成本。 相比之下,12VDC-DC 稳压器非常常见且成本低廉。

 

阅读电源效率图

图 1 是电源效率图的示例。 您可以看到图表的峰值是 PSU 效率最高的地方。 将输出功率除以输入功率即可计算效率。 图表的 x 轴测量电源的负载(以瓦特为单位),而 y 轴测量效率。

如果您知道峰值负载为 120W,空闲负载为 60W(如图 1 所示),则此电源将超出需求,因为它最多可以处理 150W。 在 230VAC 的 120W 峰值负载下,此电源的最大效率约为 94%,在 230VAC 的空闲状态下,最小效率约为 92%。 现在您知道此特定电源的损耗,并可以将其与其他电源进行比较,以查看它们是否更高效。 这使您可以为负载选择合适的电源。

Power to the People - Reducing datacenter carbon footprints

 

不带母线的开放计算服务器

并非所有开放计算服务器都包含电源母线。Microsoft 的 Olympus 服务器需要交流电源Olympus 电源有三个 340W 电源模块,每个相位一个,总最大输出功率为 1,000W。 因此,这些电源假定所有部署都是三相电。PSU 的最低效率为 89-94%,具体取决于负载。 这使得 Olympus 电源的等级约为 80 Plus 白金级

与所有技术决策一样,使用每服务器交流电源与机架级直流电源之间需要权衡。 通过使用单独的电源,不同的工作负载可以单独平衡其消耗的电力,而不是在机架级别。 反过来,Microsoft 需要构建和制造多个电源,以确保它们的大小合适,以便在每种服务器配置下以最高效率运行。 维修还需要技术人员拔下电源线并前往机架背面。

在 Microsoft 决定为每台服务器使用单独的交流电源时,开放式机架设计处于 v1 版本(而不是像今天这样的 v2 版本),电源母线的铜成本更高,电阻造成的效率损失也是一个因素。 开放式机架 v1 设计在电源损耗方面存在效率问题,这是由于母线中的铜发热造成的。 如果一个机架容纳 24 kW 的设备,则 12VDC 电源母线必须输送 2 kA 的电流。 这需要非常厚的铜片,这会导致由于母线中的电阻而产生显着的功率损耗。

让我们分解一下如何衡量功率与电阻的关系。 欧姆定律声明 电流 (I) 与电压 (V) 成正比,与电阻 (R) 成反比,因此 V=IR要了解功率与电阻的关系,请将欧姆定律 (V=IR) 与 P=IV 结合起来,这表示功率 (P) 是电流 (I) 和电压 (V) 的乘积。 代入 I=V/R 得出 P=(V/R)V=V2/R。 然后,代入 V=IR 得出 P=I(IR)=I2R。 因此,P=I2R 是您可以计算母线中电阻导致的功率损耗的方式。

在做出决策时,Microsoft 在转换效率与母线的材料成本和电阻损耗之间取得了平衡。 然而,开放式机架 v2 改变了原始决策的权衡。 对于 48VDC 母线,容纳 24 kW 设备的机架仅需要 500A,而 v1 规范中的 12VDC 电源母线则需要 2kA。 这转化为更便宜的母线和更低的电阻损耗。 母线的损耗仍然高于 208VAC 电缆,但机架级电源单元的效率得到了提高,这使其具有吸引力。 然而,如前所述,您需要注意将电力输送到主板上的组件所需的转换次数。 如果您的现有设备是 12VDC,您将希望避免使用 48VDC 母线进行任何额外的转换。 将 48VDC 母线用于具有 48V 到 PoL 的新设备,以避免额外的转换。

Microsoft 的每服务器单独电源设计与 24VDC 和 48VDC 开放式机架设计之间的主要区别在于初始功率输送到服务器的方式。 Microsoft 的设计通过电源将三相电源单独分配到服务器,而 24VDC 和 48VDC 电源母线将电源分配到服务器。 一旦电力输送到服务器,它通常会通过 DC-DC 电源稳压器发送,然后由该稳压器为主板上的组件供电。 无论电源来自单根电源母线还是单独的电源,此步骤都是相同的。

另一个有趣的方面是 UPS。 如前所述,UPS 会导致效率损失。 这对于直流母线或单独的交流 PSU 意味着什么? 当交流电进入每台单独的服务器时,您有两种选择:在交流电分配到各个服务器之前使用 UPS,或者在每台服务器的 PSU 中集成每服务器 UPS。 为每台服务器部署和维修单独的电池对于维护来说是一场噩梦。 因此,大多数使用交流电为服务器供电的设施最终都使用机架范围或建筑物范围的 UPS。 由于 UPS 中的电池是直流电,因此交流 UPS 具有 AC-DC 转换器用于为电池充电,以及 DC-AC 逆变器用于从电池提供交流电。 对于在线 UPS(意味着电池始终连接),这需要从 AC 到 DC 以及 DC 再到 AC 的两次额外转换,并且两次转换都会造成电源效率损失。

对于直流机架级设计,电池组可以直接连接到母线。 机架级 PSU 是第一个 AC-DC 转换状态,因此无需进行另一次转换,因为从那里开始的所有设备都以直流电运行。 缺点是机架级 PSU 需要调整电压水平以充当电池充电器。 这意味着服务器需要接受 48V 目标电压的相当大的容差,大约 +/-10V,因此 40-56V 是合理的。 由于 DC-DC 转换器对输入电压范围具有相当大的容差,因此这非常简单,并且不会造成任何显着的电源效率损失。 重要的是要注意,对于超大规模企业,UPS 的存在仅是为了允许发电机启动——几秒钟而不是传统数据中心的 10-15 分钟。

对于商用服务器,例如 DellSupermicro,单独电源的成本在电源效率方面要高得多,因为这些 PSU 没有那么高的 80 Plus 等级,并且确实有过多的过大尺寸。 它们也往往缺乏电源稳压器,这些稳压器可以最大限度地减少为电路板上的组件供电时的电源转换损耗。 通过从机架中的一批商用服务器转移到开放计算项目设计,这将带来大约 8-12% 的电源效率提升——更不用说母线的可维护性便利性也将使技术人员受益。

通过设计机架级架构,可以比传统服务器在电源效率方面取得巨大进步,因为 PSU 的尺寸将更小、更集成,并且相对于每台服务器而言,机架的冗余度更高。 虽然超大规模企业已从这些电源效率的提高中受益,但行业中的大多数企业仍在等待。 开放计算项目的启动是为了让其他运行数据中心的公司也能从电源效率中受益。 如果更多组织在其数据中心运行机架规模架构,则可以减少传统服务器造成的碳排放浪费。

 

致谢

非常感谢 Rick Altherr、Amir Michael、Kenneth Finnegan、Arjen Roodselaar 和 Scott Andreas 在本文的细微之处提供的帮助。

 

相关文章

数据中心冷却
可以采取哪些措施来提高数据中心冷却系统的能源效率?
Andy Woods
https://queue.org.cn/detail.cfm?id=1737963

虚拟化:福还是祸?
大规模管理虚拟化充满了隐藏的挑战。
Evangelos Kotsovinos
https://queue.org.cn/detail.cfm?id=1889916

词语的失败
反设计和其他语言陷阱
Stan Kelly-Bootle
https://queue.org.cn/detail.cfm?id=1569209

 

Jessie Frazelle 是 Oxide Computer Company 的联合创始人兼首席产品官。 在此之前,她从事 Linux 的各个部分,包括容器和 Go 编程语言。

版权所有 © 2020,所有者/作者所有。 出版权已许可给 。

acmqueue

最初发表于 Queue vol. 18, no. 2
数字图书馆中评论本文





更多相关文章

Andy Woods - 数据中心冷却
发电量约占美国和英国一次能源供应的 40% 到 45%,其中很大一部分用于建筑物供暖、制冷和通风。 该领域一个新的且日益增长的挑战涉及计算机数据中心和其他用于冷却计算机数据系统的设备。 2006 年,美国数据中心使用了大约 60 亿千瓦时的电力,约占该国电力消耗的 1.5%。


David J. Brown, Charles Reams - 迈向节能计算
到目前为止,大多数人都意识到了最高级别的能源问题:我们的主要能源正在耗尽,而商业和家庭环境对能源的需求都在增加,并且能源使用的副作用对全球环境产生了重要的影响。 温室气体的排放,例如二氧化碳,现在大多数气候学家认为这与全球变暖有关,这只是其中一个问题。


Eric Saxe - 节能软件
电源管理功能的演进速度简直令人惊叹。 如今,几乎每种尺寸和级别的计算机系统,从最小的传感器和手持设备到数据中心中的“大型”服务器,都提供了无数功能来减少、计量和限制功耗。 如果没有这些功能,风扇噪音将占据办公室的氛围,而无线笔记本电脑将只能使用几个小时(而且前提是人们可以忍受高温),而数据中心的电力和冷却成本以及容量将变得难以管理。


Alexandra Fedorova, Juan Carlos Saez, Daniel Shelepov, Manuel Prieto - 使用非对称多核系统最大化电源效率
在计算系统中,CPU 通常是最大的能源消耗者之一。 因此,降低 CPU 功耗在过去几年中一直是学术界和工业界的热门话题。 为了创建更节能的 CPU,一些研究人员提出了非对称多核架构,该架构有望在提供与传统对称多核处理器相似的性能的同时节省大量电力。





© 保留所有权利。

© . All rights reserved.