震撼！英伟达从全新Blackwell架构到32000块GPU的超级AI工厂组建过程！

英伟达最新推出的Blackwell架构是该公司为加速计算和生成式人工智能（AI）领域设计的核心平台。这一架构的推出旨在推动新一代计算革命，特别是在处理大规模AI工作负载方面。

先复习一下基础知识：

浮点运算次数（Floating Point Operations Per Second，简称FLOPS）是用来衡量计算设备执行浮点运算能力的指标。这个指标通常用来描述处理器（CPU）、图形处理器（GPU）或其他计算设备在一秒钟内能够执行多少次浮点运算。浮点运算是指能够处理带有小数点的数学运算，这对于科学计算、工程模拟、图形渲染等领域尤为重要。

浮点运算次数的单位按照大小顺序如下：

KFLOPS（Kilo FLOPS）：每秒千次浮点运算。

1 KFLOPS = 1,000 FLOPS

MFLOPS（Mega FLOPS）：每秒百万次浮点运算。

1 MFLOPS = 1,000,000 FLOPS
也就是每秒一百万次浮点运算。

GFLOPS（Giga FLOPS）：每秒十亿次浮点运算。

1 GFLOPS = 1,000,000,000 FLOPS
也就是每秒十亿次浮点运算。

TFLOPS（Tera FLOPS）：每秒万亿次浮点运算。

1 TFLOPS = 1,000,000,000,000 FLOPS
也就是每秒一万亿次浮点运算。

PFLOPS（Peta FLOPS）：每秒千万亿次浮点运算。

1 PFLOPS = 1,000,000,000,000,000 FLOPS
也就是每秒千万亿次浮点运算。

EFLOPS（Exa FLOPS）：每秒百亿亿次浮点运算。

1 EFLOPS = 1,000,000,000,000,000,000 FLOPS
也就是每秒百亿亿次浮点运算。

这些单位通常用于高性能计算（HPC）领域，以及在描述超级计算机的性能时。随着技术的发展，现代的超级计算机已经达到了EFLOPS级别的计算速度，例如，用于气候模拟、生物信息学、物理模拟等复杂计算任务。在评估计算设备的性能时，FLOPS是一个重要的参考指标，但它并不是唯一的衡量标准，内存带宽、存储速度、软件优化等因素也会影响实际的计算性能。

先上2024GTC大会开胃菜

开始建造超级AI工厂

Blackwell

物理上可能存在的最大芯片

1040亿个晶体管

合积电4NP工艺

10TB/S NVIDIA高宽带接口

Blackwell GPU

两个裸片集成为一个GPU

2080亿个晶体管

全缓存一致性

Blackwell Vs Hopper

尺寸是Hopper的两倍

5倍的AI性能

4倍的no-die memory

Blackwell

新工业革命的引擎

AI性能 20 petaFLOPS

192GB的HBM3e

8TB/s的内存带宽

全栈，启用CUDA

两个BlackwellGPU和一个Grace CPU

GB200超级芯片的组成部分

384GB的HBM3e

72 Arm Neoverse V2 CPU cores

900GB/s的NVlink-C2C带宽

GB200 Grace Blackwell超级芯片

万亿参数级人工智能生成处理器

40 petaFLOPS的AI性能

864GB 高速内存

Blackwell Compute node

有史以来最强大的计算节点

两个Grace CPU和四个Blackwell GPU

80 petaFLOPS的AI性能

1.7TB的 HMB3e

32TB/s的内存带宽

水冷式 MGX设计

connectx-800G infiniband supernic

业界最先进的 GPU RDMA

自适应路由和可编程拥塞控制

针对AI处理进行了优化

BLUEFIELD-3 DPU

强大的基础架构处理器

网络、存储和网络安全的线速处理

网络内计算

每秒 8oCB 的内存带宽

GB200 NVL72

为数据中心设计

一个机架上有18个计算托盘

36个Grace CPU 和 72个Blackwell GPU

NVLINK SWITCH

多BlackwellGPU 架梅

两个NVLINK交换芯片

八个端口，速度为 1.8TB/S

14.4TB/的总带宽

NVLINK交换机系统

Blackwell多GPU架构

18个NVLINK交换机芯片

72个端口，1.8TB/秒的速度

以 130TB/的总带宽进行全对全通信

GB200计算节点Invlink交换机和SPINE

用于生成式人工智能的天型GPU

72个Blackwell GPU由NMLINK完全连接

铜缆布线，成本降低6倍

盲插连接器便于安装和维护

CB200NVL72

计算万亿参数规模的生成式人工智能

1.4exaFLOPS的AI性能

30TB HBMЗe

一个巨大的 CUDA GPU

QUANTUN INFINBAND SWITCH

无与伦比的数据吞吐量和密度

每个端口800Gb/s的吞吐量

每秒230.4TB的聚合双向吞吐量

quantum-X800 infiniband

或spectrum-X800 以大网交换机

最高性能的网络

800Gbs连接

带宽容量提高5倍

14.4 teraFLOPs 的网内计算能力

GB200 NVL72 计算机架

液体冷却，实现最佳能效

八个GB200 NVL72

288个GraceCPU和576个Blackwell GPU

机架冷却功率降低2倍

配备32,000个GPU的完整数据中心

新工业革命的AI工厂

645 exaFLOPS的AI性能

13PB 快速内存

58PB后的NVLINK总带宽

16.4百万亿次网络内计算

点击查看视频版

Blackwell架构是英伟达在AI和加速计算领域的又一重要里程碑。它通过引入创新技术和显著提升性能，为未来的计算革命奠定了基础，特别是在AI模型的训练和推理方面。随着这一架构的进一步发展和应用，我们有望见证AI技术在各个领域的广泛应用和快速发展。

震撼！英伟达从全新Blackwell架构到32000块GPU的超级AI工厂组建过程！

AI工具箱怎么用

AI工具那个好用

好用的AI工具有哪些？

Turnitin 使用什么人工智能检测器？揭秘学术诚信的守护者

看门人 AI 坏了吗？

人工智能深度学习神经网络在双色球彩票中的应用研究(二)

扫描全能王app2025最新版本免费下载官方正版软件

特稿｜专访李西峙：打造中国自主人工智能计算机语言体系和软件生态 | Tatfook site

【科普】人工智能的十种重要应用

'如何启动AI写作助手：快速开启智能创作工具指南'

2025年MES软件创新功能盘点：AI应用新趋势

坚果云AI写作功能完整价格解析：订阅费用、功能特点及性价比分析

AI智能写作助手：高效创作伴侣

AI写作软件哪个好？深度测评5款AI写作软件，这款秘密武器让创作效率翻倍！

AIGT——AI手机正在取代智能手机

AI视野：Civitai上线模型训练功能；文心大模型用户规模达4500万；OpenAI开发高准确度AI检测工具；富士康与英伟达宣布合作建设“AI工厂”

北电数智：做创新型人工智能国企，与生态伙伴共建数字中国

黄仁勋的野心，不止于“AI核弹”！“AI工厂”概念剑指2500亿美元蓝海

5秒图文一起出，人设稳定不出戏，这是史上最牛的大圣AI 正观新闻

如何通过AI工具快速生成流程图

AI 代理工具

AI 开放平台

AI 模型库

AI 开源项目

AI 小工具

AI 教程

AI 资讯

跨境资讯

震撼！英伟达从全新Blackwell架构到32000块GPU的超级AI工厂组建过程！

AI工具箱怎么用

AI工具那个好用

好用的AI工具有哪些？

Turnitin 使用什么人工智能检测器？揭秘学术诚信的守护者

看门人 AI 坏了吗？

人工智能深度学习神经网络在双色球彩票中的应用研究(二)

扫描全能王app2025最新版本免费下载官方正版软件

特稿 ｜ 专访李西峙：打造中国自主人工智能计算机语言体系和软件生态 | Tatfook site

【科普】人工智能的十种重要应用

'如何启动AI写作助手：快速开启智能创作工具指南'

2025年MES软件创新功能盘点：AI应用新趋势

坚果云AI写作功能完整价格解析：订阅费用、功能特点及性价比分析

AI智能写作助手：高效创作伴侣

AI写作软件哪个好？深度测评5款AI写作软件，这款秘密武器让创作效率翻倍！

AIGT——AI手机正在取代智能手机

AI视野：Civitai上线模型训练功能；文心大模型用户规模达4500万；OpenAI开发高准确度AI检测工具；富士康与英伟达宣布合作建设“AI工厂”

北电数智：做创新型人工智能国企，与生态伙伴共建数字中国

黄仁勋的野心，不止于“AI核弹”！“AI工厂”概念剑指2500亿美元蓝海

5秒图文一起出，人设稳定不出戏，这是史上最牛的大圣AI 正观新闻

如何通过AI工具快速生成流程图

特稿｜专访李西峙：打造中国自主人工智能计算机语言体系和软件生态 | Tatfook site