AI数据中心产能需求激增,电力消耗将快速增长
数据中心产能不足限制了人工智能的发展
预计2025年初,AI数据中心产能需求超过10GW
数据中心电力消耗将快速增长
详解AI数据中心的部署与电力成本
电力是限制AI数据中心扩建的刚性约束
AI训练和推理的电力需求
数据中心的电力花费测算
数据中心的布局和约束
AI需求与当前数据中心容量
AI训练和推理的碳和电力成本
是什么造就了真正的AI超级大国?大规模AI基础设施构建的三大条件
AI数据中心产能需求激增
电力消耗将快速增长
数据中心产能不足限制了人工智能的发展
对 AI 集群的需求激增,导致人们对数据中心容量的关注激增,对电网、发电能力和环境造成了极大的压力。
由于缺乏数据中心产能,人工智能的扩展受到严重限制,特别是在训练方面,因为 GPU 通常需要位于同一位置以实现高速芯片到芯片网络。推理的部署受到各个地区的聚合产能以及更好的模型上市的严重限制。
关于瓶颈在哪里有很多讨论——额外的电力需求有多大?GPU 部署在哪里?北美、日本、台湾、新加坡、马来西亚、韩国、中国、印度尼西亚、卡塔尔、沙特阿拉伯和科威特等地区的数据中心建设进展如何?加速器斜坡何时会受到物理基础设施的限制?是变压器、发电机、电网容量,还是我们跟踪的其他 15 个数据中心组件类别之一?需要多少资本支出?哪些超大规模企业和大型公司正在竞相确保足够的容量,哪些公司将受到严重限制,因为他们没有数据中心容量就陷入困境?未来几年,千兆瓦和更大的训练集群将建在哪里?天然气、太阳能和风能等发电类型的组合是什么?这是否可持续,或者人工智能的建设会破坏环境吗?
许多人对数据中心的建设速度持荒谬的假设。
就连埃隆·马斯克(Elon Musk)也表示赞同,但他的评估并不完全准确。
即将上线的人工智能计算似乎每六个月增加 10 倍......然后,很容易预测下一个短缺将是降压变压器。
你必须为这些东西供电。如果你有 100-300 千伏的电力来自公用事业公司,它必须一直降压到 6 伏,这是很多降压。
我不太好笑的笑话是,你需要变压器来运行变压器......然后,下一个短缺将是电力。他们将无法找到足够的电力来运行所有芯片。我想明年,你会看到他们无法找到足够的电力来运行所有芯片。
博世互联世界大会
需要明确的是,他对物理基础设施的这些局限性判断大多是正确的,但计算量并不是每六个月增长 10 倍。
预计2025年初
AI数据中心产能需求超过10GW
我们跟踪了所有主要超大规模和商业芯片公司的 CoWoS、HBM 和服务器供应链,并看到以峰值理论 FP8 衡量的总 AI 计算能力 自 23 年第一季度以来,FLOPS 一直以 50-60% 的季度环比速度增长。
即在六个月内远未接近 10 倍。CoWoS 和 HBM 的增长速度还不够快。
SemiAnalysis估计
由变压器驱动的生成式人工智能的繁荣确实需要大量的变压器、发电机和无数其他电气和冷却设备。
许多粗略的猜测或纯粹的危言耸听的叙述都是基于过时的研究。国际能源署(IEA)最近的《2024年电力》报告建议,到2026年,人工智能数据中心的电力需求将达到90太瓦时(TWh),相当于数据中心关键IT电力容量约10吉瓦(GW),相当于7.3M H100。
我们估计,从 2021 年到 2024 年底,仅英伟达一家公司就将出货量达 5M+ H100 功率需求的加速器(实际上主要是 H100 的出货量),预计到 2025 年初,AI 数据中心的产能需求将超过 10 GW。
国际能源署电力 2024
数据中心电力消耗将快速增长
上述报告低估了数据中心的电力需求,但也有很多高估——危言耸听阵营的一些人回收了在加速计算广泛采用之前写的旧论文,这些论文指出了最坏的情况,到2030年,数据中心消耗了高达7933 TWh或全球发电量的24%!
数据中心蝗虫、戴森球体、Matrioshka 大脑来了!
全球通信技术用电量:到2030年的趋势
其中许多估计是基于对全球互联网协议流量的增长估计的函数,以及对每单位流量所用功率的估计,这些数字都极难估计,而其他数字则利用了自上而下的数据中心功耗估计在前人工智能时代创建。
麦肯锡也有可笑的糟糕估计,这几乎相当于把手指放在一个随机的复合年增长率上,然后用花哨的图形重复它。
让我们纠正这里的叙述,并用经验数据量化数据中心的电力匮乏。
我们的方法通过来预测 AI 数据中心的需求和供应对北美现有托管和超大规模数据中心的 1,100 多个数据中心的分析,包括对正在开发的数据中心的建设进度预测,并且有史以来第一次对此类研究,我们将该数据库与源自我们的 AI 加速器模型的 AI 加速器电源需求相结合估算 AI 和非 AI 数据中心关键 IT 电力需求和供应。
我们还将此分析与 Structure Research 整理的北美以外地区(亚太地区、中国、欧洲、中东和非洲、拉丁美洲)的区域总体估计相结合结构研究 ,以提供数据中心趋势的整体全球视图。
我们通过跟踪单个集群来补充区域估计,并利用卫星图像和建设进度进行建设,例如马来西亚柔佛州新山(主要由中国公司)的高达 1,000 兆瓦的开发管道 - 位于新加坡以北几英里处。
这种跟踪是由超大规模企业完成的,很明显,从中期来看,人工智能领域的一些最大参与者在可部署的人工智能计算方面将落后于其他公司。
人工智能的繁荣确实会迅速加速数据中心的电力消耗增长,但全球数据中心的电力使用量在短期内仍将远低于占总发电量 24% 的世界末日情景。
我们相信,到 2030 年,人工智能将推动数据中心使用全球 4.5% 的能源生产。
SemiAnalysis估计
详解AI数据中心的部署与电力成本
电力是限制AI数据中心扩建的刚性约束
未来几年,数据中心电源容量的增长将从 12-15% 的复合年增长率加速到 25% 的复合年增长率。
全球数据中心关键 IT 电力需求将从 2023 年的 49 吉瓦 (GW) 激增至 2026 年的 96 吉瓦,其中 AI 将消耗 ~40 吉瓦。
实际上,扩建并不那么顺利,真正的电力危机即将到来。
SemiAnalysis估计
对充足、廉价电力的需求,以及快速增加电网容量,同时仍能满足超大规模企业的碳排放承诺,再加上芯片出口限制,将限制能够满足人工智能数据中心需求激增的地区和国家。
美国等一些国家和地区将能够灵活应对低电网碳强度、低成本燃料来源和供应稳定,而欧洲等其他国家和地区将受到地缘政治现实和电力结构性监管限制的有效束缚。
其他国家和地区将简单地增加产能,而不考虑对环境的影响。
AI训练和推理的电力需求
AI 训练工作负载具有独特的要求,这些要求与现有数据中心中部署的典型硬件的要求非常不同。
首先,模型需要训练数周或数月,相对而言,网络连接要求仅限于训练数据入口。
训练对延迟不敏感,不需要靠近任何主要人口中心。人工智能训练集群基本上可以部署在世界上任何具有经济意义的地方,但须遵守数据驻留和合规法规。
要记住的第二个主要区别也很明显——AI 训练工作负载非常耗电,并且与传统的非加速超大规模或企业工作负载相比,它往往以更接近其热设计功率 (TDP) 的功率水平运行 AI 硬件。
此外,虽然 CPU 和存储服务器的消耗量约为 1kW,但每台 AI 服务器现在都超过了 10kW。
再加上对延迟的不敏感和靠近人口中心的重要性降低,这意味着大量廉价电力的可用性(以及未来对任何电网供应的访问)对AI培训工作负载比传统工作负载的相对重要性要高得多。
顺便说一句,其中一些是无用的加密采矿操作所共有的要求,没有在单一站点中>100兆瓦的扩展优势。
另一方面,推理最终是比训练更大的工作量,但它也可以相当分散。芯片不需要位于中心位置,但数量之巨将绝对惊人。
数据中心的电力花费测算
AI 加速器实现了相对较高的利用率(就功耗而言,而不是 MFU)。每台 DGX H100 服务器正常运行的预期平均功率 (EAP) 约为 10,200 W,即每个服务器的 8 个 GPU 的平均功率为 1,275 W。
这包括 H100 本身的 700W 热设计功率 (TDP),以及用于双Intel Xeon Platinum 8480C处理器和 2TB DDR5 内存、NVSwitches、NVLink、NIC、retimers、网络收发器等的约 575W(每个 GPU 分配)。
加上存储和管理服务器以及整个 SuperPOD 的各种网络交换机的电源需求,我们每个 DGX 服务器的有效功率需求为 11,112W,每个 H100 GPU 的有效功率需求为 1,389W。
与我们考虑的 HGX H100 相比,DGX H100 配置在存储和其他项目方面有些过度配置。
像 Meta 这样的公司已经发布了足够多的完整配置信息来估计系统级功耗。
NVIDIA DGX SuperPOD 数据中心设计
关键 IT 功率定义为数据中心楼层可用于服务器机架内的计算、服务器和网络设备的可用电力容量。它不包括在数据中心运行冷却、供电和其他设施相关系统所需的电力。
要计算此示例中需要构建或购买的关键 IT 电源容量,请将部署的 IT 设备的总预期功率负载相加。在下面的示例中,20,480 个 GPU,每个 GPU 的功率为 1,389W,相当于所需的 28.4 MW 关键 IT 功率。
为了获得 IT 设备预期消耗的总功率(关键 IT 功耗),我们需要应用相对于所需关键 IT 功率的可能利用率。这一因素解释了这样一个事实,即 IT 设备通常不会以其设计能力的 100% 运行,并且可能无法在 24 小时内以相同的程度使用。在示例中,此比率设置为 80%。
除了关键 IT 功耗外,运营商还必须为冷却提供电力,以弥补配电损耗、照明和其他非 IT 设施设备。该行业衡量电力使用效率 (PUE) 以衡量数据中心的能源效率。它的计算方法是将进入数据中心的总功率除以用于运行其中 IT 设备的功率。
当然,这是一个非常有缺陷的指标,因为服务器内部的冷却被认为是“IT设备”。我们通过将消耗的关键 IT 功耗乘以电源使用效率 (PUE) 来解决这个问题。较低的 PUE 表示更节能的数据中心,PUE 为 1.0 表示完全高效的数据中心,没有冷却或任何非 IT 设备的功耗。
典型的企业托管 PUE 约为 1.5-1.6,而大多数超大规模数据中心低于 1.4 PUE,一些专用构建设施(例如 Google 的)声称实现低于 1.10 的 PUE。大多数 AI 数据中心规格的目标是低于 1.3 PUE。
在过去 10 年中,全行业平均 PUE 从 2010 年的 2.20 下降到 2022 年的估计 1.55,这是节能的最大驱动因素之一,并有助于避免数据中心功耗的失控增长。
例如,在 80% 的利用率和 1.25 的 PUE 下,拥有 20,480 个 GPU 集群的理论数据中心平均将从电网中获取 28-29MW 的电力,每年总计 249,185 兆瓦时,根据美国每千瓦时 0.083 美元的平均电价,每年的电费将花费 20.7M 美元。
数据中心的布局和约束
虽然 DGX H100 服务器需要 10.2 千瓦 (kW) 的 IT 电源,但大多数托管数据中心仍然只能支持每个机架 ~12 kW 的电源容量,尽管典型的超大规模数据中心可以提供更高的功率容量。
NVIDIA DGX SuperPOD 数据中心设计
因此,服务器部署将根据可用的电源和冷却能力而有所不同,在电源/冷却受限的情况下,仅部署了 2-3 台 DGX H100 服务器,并且整排机架空间空置,以将托管数据中心的供电密度从 12 kW 提高到 24 kW 的两倍。实施此间距也是为了解决冷却超额订阅问题。
NVIDIA DGX SuperPOD 数据中心设计
随着数据中心在设计时越来越多地考虑 AI 工作负载,机架将能够通过使用专用设备来增加气流,使用空气冷却实现 30-40kW+ 的功率密度。
未来直接芯片式液体冷却的使用为更高的功率密度打开了大门,通过消除风扇功率的使用,可能将每个机架的功耗降低 10%,并通过减少或消除对环境空气冷却的需求将 PUE 降低 0.2-0.3,尽管 PUE 已经达到 1.25 左右, 这将是最后一波有意义的PUE收益。
Supermicro 液体冷却白皮书
许多运营商提出的另一个重要考虑因素是,各个 GPU 服务器节点最好彼此靠近,以实现可接受的成本和延迟。
使用的经验法则是,来自同一集群的机架距离网络核心最多应为 30 米。与昂贵的单模光收发器相比,短距离可实现成本更低的多模光收发器,后者通常可以达到数公里的覆盖范围。
Nvidia 通常用于将 GPU 连接到枝叶交换机的特定多模光收发器具有长达 50m 的短距离。使用更长的光缆和更长的距离收发器来容纳更远距离的 GPU 机架将增加成本,并且需要更昂贵的收发器。未来使用其他纵向扩展网络技术的 GPU 集群也需要非常短的电缆运行才能正常工作。
例如,在 Nvidia 尚未部署的 H100 集群 NVLink 纵向扩展网络中,该网络支持跨 32 个节点的多达 256 个 GPU 的集群,并可提供 57.6 TB/s 的全对全带宽,最大交换机到交换机电缆长度为 20 米。
NVIDIA H100 建筑白皮书
在数据中心规划方面,每个机架功率密度更高的趋势更多地受到网络、计算效率和每次计算成本考虑的驱动,因为占地面积成本和数据大厅空间效率通常是事后才想到的。大约 90% 的托管数据中心成本来自电力,10% 来自物理空间。
安装 IT 设备的数据大厅通常仅占数据中心总建筑面积的 30-40% 左右,因此设计一个大 30% 的数据大厅只需要整个数据中心增加 10% 的总建筑面积。考虑到 80% 的 GPU 拥有成本来自资本成本,其中 20% 与托管有关(这不包括托管数据中心成本),额外空间的成本仅占 AI 集群总拥有成本的 2-3%。
大多数现有的主机托管数据中心还没有准备好应对每个机架超过 20kW 的机架密度。芯片生产限制将在 2024 年得到有意义的改善,但某些超大规模企业和公司直接遇到了数据中心容量瓶颈,因为他们在人工智能方面表现平平——尤其是在托管数据中心内,以及功率密度不匹配——传统托管中 12-15kW 功率的限制将成为实现 AI 超级集群理想物理密度的障碍。
后门换热器和直接到芯片的液体冷却解决方案可以部署在新建的数据中心,以解决功率密度问题。然而,从头开始设计一个包含这些解决方案的新设施比改造现有设施要容易得多——意识到这一点,Meta 已经停止了计划中的数据中心项目的开发,以将它们重新定位于专门满足 AI 工作负载的数据中心。
就所有超大规模提供商的功率密度而言,Meta 的数据中心设计最差,但他们醒来并迅速转变。改造现有数据中心成本高昂、耗时,在某些情况下甚至可能是不可能的——可能没有物理空间来安装额外的 2-3 MW 发电机组、不间断电源 (UPS)、开关设备或额外的变压器,并且重做管道以适应直接到芯片液体冷却所需的冷却分配单元 (CDU) 并不理想。
NVIDIA DGX SuperPOD 数据中心设计
AI需求与当前数据中心容量
根据我们的 AI 加速器模型,结合我们估计的芯片规格和建模的辅助设备功率需求,我们使用加速器芯片的逐行单位出货量预测,计算未来几年 AI 数据中心关键 IT 电源的总需求。
SemiAnalysis估计
如上所述,数据中心关键 IT 电力总需求将从 2023 年的约 49 吉瓦翻一番,到 2026 年达到 96 吉瓦,其中 90% 的增长来自人工智能相关需求。这纯粹来自芯片需求,但物理数据中心讲述了一个不同的故事。
没有哪个地方比美国更能感受到这种影响,我们的卫星数据显示,大多数人工智能集群正在部署和规划中,这意味着从 2023 年到 2027 年,美国的数据中心关键 IT 容量将需要增加两倍。
SemiAnalysis估计
主要AI Clouds推出加速器芯片的积极计划突出了这一点。
OpenAI 计划计划部署数十万个 GPU在其最大的多站点训练集群中部署数十万个 GPU,这需要数百兆瓦的关键 IT 电源。
我们可以通过查看物理基础设施、发电机和蒸发塔的建设来非常准确地跟踪它们的集群大小。
Meta 讨论了到今年年底的 650,000 个 H100 当量的安装基数。
GPU 云提供商 CoreWeave 计划在德克萨斯州普莱诺的设施中投资 $1.6B,这意味着计划花费高达 50MW 的关键 IT 电源建设,并在该设施中安装 30,000-40,000 个 GPU,并有一条明确的途径通向整个公司的 250MW 数据中心足迹(相当于 180k H100s),他们计划在单个站点中建造数百兆瓦的规划。
Microsoft 拥有 AI 时代之前最大的数据中心扩建管道(请参阅下面的 2023 年 1 月数据),我们的数据显示其自那以后猛增。他们一直在吞噬任何和所有的托管空间,并积极增加他们的数据中心建设。
像亚马逊这样的人工智能落后者已经发布了关于核动力数据中心总计1000MW的新闻稿,但需要明确的是,他们在真正的近期建设方面严重滞后,因为他们是最后一个意识到人工智能的超大规模企业。
谷歌和Microsoft / OpenAI都计划开发超过千兆瓦级的训练集群。
结构研究
从供应角度来看,卖方对英伟达 2024 日历年出货量的 3M+ GPU 的共识估计将相当于超过 4,200 MW 的数据中心需求,占当前全球数据中心容量的近 10%,仅一年的 GPU 出货量就足够了。
当然,对英伟达出货量的普遍估计也是非常错误的。忽略这一点,人工智能只会在随后几年增长,而 Nvidia 的 GPU 将变得更加耗电,路线图上有 1,000W、1,200W 和 1,500W 的 GPU。
英伟达并不是唯一一家生产加速器的公司,谷歌正在迅速提高定制加速器的产量。展望未来,Meta 和亚马逊也将扩大其内部加速器。
全球顶级超大规模企业并没有忘记这一现实,他们正在迅速增加数据中心建设和托管租赁。
AWS以65000万美元的价格购买了一个1000MW的核动力数据中心园区。尽管短期内只有第一座容量为48MW的建筑可能上线,但这为AWS提供了宝贵的数据中心容量管道,而无需等待发电或电网传输容量。
我们认为,如此庞大的园区将需要很多年才能完全达到承诺的 1,000 MW 关键 IT 电力。
数据中心动态
AI训练和推理的碳和电力成本
了解训练流行模型的功耗要求有助于衡量功耗需求,并了解 AI 行业产生的碳排放量。 估算 BLOOM 的碳足迹,一个 175B 参数语言模型检查了在法国 CNRS 旗下 IDRIS 的 Jean Zay 计算机集群中训练 BLOOM 模型的功耗。
本文提供了关于人工智能芯片的TDP与集群总功耗(包括存储、网络和其他IT设备)的关系的实证观察,一直到电网的实际功耗。另一篇论文《碳排放和大型神经网络训练》(Carbon Emissions and Large Neural Network Training)报告了其他几个模型的训练时间、配置和功耗。
训练的功耗需求可能因模型和训练算法的效率(针对模型 FLOP 利用率 – MFU 进行优化)以及整体网络和服务器电源效率和使用情况而异,但下面复制的结果是一个有用的衡量标准:
估算 BLOOM 的碳足迹、176B 参数语言模型、碳排放量和大型神经网络训练
这些论文通过将总功耗(以千瓦时为单位)乘以数据中心运行的电网的碳强度来估算训练这些模型的碳排放量。
眼尖的读者会注意到,在法国训练BLOOM模型的碳强度非常低,为0.057千克二氧化碳当量/千瓦时,该模型60%的电力来自核电,远低于美国0.387千克二氧化碳当量/千瓦时的平均水平。
我们提供了一组额外的计算,假设训练作业在连接到亚利桑那州电网的数据中心上运行,亚利桑那州是目前数据中心扩建的主要州之一。
要考虑的最后一块排放难题是隐含排放,定义为制造和运输给定设备(在本例中为加速器芯片和相关 IT 设备)所涉及的总碳排放量。
关于 AI 加速器芯片隐含排放的可靠数据很少,但有人粗略估计,每个 A100 GPU 的二氧化碳当量为 150 公斤,托管 8 个 GPU 的服务器为 2,500 公斤二氧化碳当量。隐含排放量约占训练运行总排放量的 8-10%。
估算 BLOOM 的碳足迹、176B 参数语言模型、碳排放和大型神经网络训练、EPA eGrid、SemiAnalysis 估计
这些训练运行的碳排放量很大,一次 GPT-3 训练运行产生 588.9 公吨二氧化碳当量,相当于 128 辆乘用车的年排放量。抱怨 GPT-3 训练排放就像回收塑料水瓶,但每隔几个月就坐一次飞机。从字面上看无关紧要的美德信号。
另一方面,可以肯定的是,在确定最终模型之前,会进行多次迭代的训练运行。
2022 年,谷歌从其设施(包括数据中心)排放了总计 8,045,800 公吨二氧化碳当量,这还不包括可再生能源项目的任何抵消。
所有这一切都意味着 GPT-3 不会影响世界的碳排放,但随着 GPT-4 的 FLOPS 高出多个数量级,以及目前的 OpenAI 训练运行,超过一个数量级,训练的碳排放量将在几年内开始变得可观。
为了进行推理,我们在之前的文章中详细介绍了 AI 云托管的经济性GPU 云经济学和 Groq 推理代币经济学。
具有 8 个 GPU 的典型 H100 服务器每月将排放约 2,450 千克二氧化碳当量,并需要 10,200 W 的 IT 电源——假设每千瓦时 (KWh) 为 0.087 美元,则每月成本为 648 美元。
SemiAnalysis估计
是什么造就了真正的AI超级大国?
大规模AI基础设施构建的三大条件
让我们来回答这个问题,大规模构建 AI 基础设施需要什么——是什么造就了真正的 AI 超级大国?
人工智能数据中心行业将需要以下三大条件:
考虑到持续消耗的大量电力,成本低廉,特别是因为推理需求只会随着时间的推移而增加。
能源供应链的稳定性和稳健性,以应对地缘政治和天气干扰,以降低能源价格波动的可能性,以及快速提高燃料产量的能力,从而快速提供大规模发电。
整体上具有低碳强度电力结构的发电,并且适合以合理的经济性生产大量可再生能源。
能够挺身而出并实现以上所有条件的国家是真正的人工智能超级大国的竞争者。
