The page you're viewing is for Simplified Chinese (China) region.

The page you're viewing is for Simplified Chinese (China) region.

为数据室中的 AI 和加速计算提供动力和冷却

人工智能(AI) 在这里,它在这里留下来。NVIDIA 创始人兼首席执行官黄仁勋表示:“每个行业都将成为一个技术行业。” AI 的用例几乎是无限的,从医学突破到高精度欺诈预防。人工智能已经在改变我们的生活,就像它正在改变每一个行业一样。它也开始从根本上改变数据中心基础设施。

AI 工作负载正在推动我们如何为作为高性能计算 (HPC) 一部分处理的数据提供动力和冷却的重大变化。用于运行 5-10 千瓦 (kW) 工作负载的典型 IT 机架和运行 20 千瓦 以上负载的机架被认为是高密度的,在非常具体的应用之外,这种现象很少见,而且覆盖范围很窄。IT 正在利用 GPU 加速,以支持 AI 模型的计算需求,而这些 AI 芯片在相同空间内所需的功率和制冷容量1大约是传统服务器 倍。Mark Zuckerberg 宣布,到 2024 年底,Meta 将花费数十亿美元部署 NVIDIA 的 350,000 块 H100 GPU。机架密度为每机架 40 kW ,现在处于促进 AI 部署所需的较低端,机架密度超过每机架 100 kW,在不久的将来变得司空见惯且大规模

这将需要从电网到每个机架中的芯片的整个电力系统大幅增加容量。将液体冷却技术引入数据中心的空白空间,最终是企业服务器机房,这将是大多数部署的要求,因为传统的冷却方法将无法处理运行 AI 计算的 GPU 产生的热量。升级为 AI 硬件供电和冷却所需的基础设施的投资是巨大的,应对这些新的设计挑战至关重要。

向高密度过渡

向加速计算的过渡不会在一夜之间发生。数据中心和服务器机房设计人员必须寻找使电力和冷却基础设施面向未来的方法,并考虑其工作负载的未来增长。每个机架获得足够的电源需要从电网升级到机架。具体来说,在空白处,这可能意味着高安培总线和高密度机架式PDU。为了抑制运行 AI 工作负载的硬件产生的大量热量,两种液体冷却技术正在成为主要选择:

  1. 直接芯片液体冷却: 冷板位于发热组件(通常是 CPU 和 GPU 等芯片)的顶部,以散热。泵送的单相或两相流体从冷板中吸出热量,将其从数据中心送出,与芯片交换热量,而不是流体。这可以去除机架中设备产生的约 70-75% 的热量,留下空气冷却系统必须去除的 25-30%。
  2. 后门热交换器: 无源或有源热交换器用热交换盘管代替IT机架的后门,流体通过热交换盘管吸收机架中产生的热量。这些系统通常与其他冷却系统相结合,作为保持室内中性的策略或过渡设计,开始液体冷却之旅。

虽然直接芯片式液体冷却的冷却容量比空气的冷却容量要高得多,但重要的是要注意,冷板仍无法捕获过多的热量。这种热量将被排入数据室,除非通过后门热交换器或室内空气冷却等其他方式容纳和去除。有关数据中心液冷解决方案的更多详细信息,请查看我们的白皮书。

适用于改造和新构建的 AI 入门套件

电源和冷却正在成为数据室中IT解决方案设计不可分割的一部分,模糊了IT和设施团队之间的界限。在设计、部署和运营方面,这增加了高度的复杂性。合作伙伴关系和全解决方案专业知识是向更高密度平稳过渡的首要要求。

为了简化向高密度的转变,Vertiv 推出了一系列优化设计,包括电源和冷却技术,能够在各种部署配置中支持每个机架高达 100 kW 的工作负载。

设计总结 机架 密度/机架 绿色/棕色字段 散热
从服务器 从房间

训练模型试点,大规模边缘推理

小型 HPC 最小改造 1 70 千瓦 棕色区域 水/乙二醇 空气
冷冻水系统的小型 HPC 改造 1 100 千瓦 棕色区域 水/乙二醇 水/乙二醇

企业集中培训,数据中心AI角

中型 HPC 成本优化改造 3 100 千瓦 棕色区域 水/乙二醇 制冷剂
中型 HPC,具有更高的热捕获能力 4 100 千瓦 棕色区域
绿色字段
水/乙二醇+空气 水/乙二醇
中型 HPC 实用改造,适用于风冷机房 5 40 千瓦 棕色区域
绿色字段
空气 制冷剂
中型 HPC 5 100 千瓦 棕色区域
绿色字段
水/乙二醇 水/乙二醇

大型 AI 工厂

大型 HPC 保持房间中立性 12 100 千瓦 棕色区域
绿色字段
水/乙二醇+空气 水/乙二醇
大规模 HPC 建设 14 100 千瓦 棕色区域
绿色字段
水/乙二醇 水/乙二醇

这些设计为系统集成商、托管提供商、云服务提供商或企业用户提供了多条路径,以实现未来的数据中心。每个特定设施都有细微差别,机架数量和机架密度由 IT 设备选择决定。因此,这一系列设计提供了一种直观的方式,可以明确地缩小到基础设计,并完全根据部署需求进行定制。

在改造或重新利用 AI 的现有环境时,我们优化的设计通过尽可能利用可用的冷却基础设施和散热功能,帮助最大限度地减少对现有工作负载的干扰。例如,我们可以将直接芯片式液体冷却与后门热交换器集成,以维持室内中性冷却解决方案。在这种情况下,后门热交换器防止多余的热量逸出到房间中。对于希望添加液冷设备而不对场地本身进行任何修改的空气冷却设施,我们提供液-空设计选项。同样的策略可以部署在单个机架中、连续部署或在大型 HPC 部署中大规模部署。对于多机架设计,我们还包括高电流母线槽和高密度机架式 PDU,以便为每个机架分配电源。

这些选项与一系列不同的散热选项兼容,可与液体冷却搭配使用。这就建立了一条通向高密度液体冷却的干净且经济高效的过渡路径,而不会中断数据室中的其他工作负载。查看我们的 AI 数据室解决方案,了解更多信息。

虽然许多设施不是为高密度系统设计的,但 Vertiv 在帮助客户制定部署计划以顺利过渡到高密度 AI 和 HPC 方面拥有丰富的经验。

1 管理层估计:基于制造商规格表的标准 42U 机架中 5 台 Nvidia DGX H100 服务器和 21 台 Dell PowerStore 500T 和 9200T 服务器的机架级功耗和热量输出比较

选择您的本国语言