2025上海国际热管理散热模组展览会

2025上海国际热管理散热模组展览会

举办时间:2025-12-19至2025-12-19
举办地址:上海市上海新国际博览中心
所属行业:
主办方:深圳励悦展览有限公司
协办方:博寒展览(上海)有限公司
联系人:陆先生
联系电话:18701717965
概况


范围

全球约有12,000个数据中心,并且越来越多的数据中心正在被新建或改造,以专门处理AI工作负载。高功率对于此类运营至关重要,并且与所有尺寸的计算电子设备一样,冷却散热问题显得尤为重要。

埃隆·马斯克的xAI团队在短短几个月内就将孟菲斯郊外的一座工厂改造成了一个尖端的、拥有10万GPU的数据中心,用于训练Colossus超级计算机——Grok聊天机器人的家。Colossus仅用了19天就安装了首批10万块芯片。如今,它运行着20万块GPU,并计划在2025年底前达到100万块GPU。

图1 – 埃隆·马斯克位于田纳西州孟菲斯附近、占地100万平方英尺的xAI Colossus超级计算机设施。

生成式AI (GenAI)

数据中心增长的一个关键驱动力是生成式人工智能(GenAI)——利用深度学习技术创建文本、图像、音频、视频和代码的AI。聊天机器人和大型语言模型ChatGPT是GenAI的实例,能够根据文本描述生成图像的文生图模型也是。

管理这一切依赖于新一代处理器,主要是GPU。它们都消耗更高的电力并产生更多的热量。

图2 – 先进的AI处理器,英伟达GH200 Grace Hopper超级芯片,集成CPU以提高速度和性能。

AI数据中心优先考虑高性能计算(HPC)硬件:GPU、FPGA、ASIC和超高速网络。与CPU(150-200瓦)相比,当今的AI GPU通常运行功率>1000瓦。为了实时处理海量数据集和复杂计算,它们需要强大的电力和冷却基础设施。

数据中心冷却基础知识

传统的暖通空调(HVAC)对于旧式CPU驱动的数据中心来说已经足够。当今的AI GPU在芯片层面和整个设施层面都要求远高于以往的冷却能力。这推动了对更高效热管理系统的需求,无论是微观层面(服务器板和芯片)还是宏观层面(服务器机架和整个设施)。

图3 – Colossus AI超级计算机现运行20万块GPU。其运行功率为150兆瓦,相当于8万户家庭的用电量。

在Colossus,超微(Supermicro)4U服务器容纳了英伟达Hopper GPU,并通过以下方式冷却:

冷板 (Cold plates)

冷却液分配分流器 (Coolant distribution manifolds)(每台服务器之间放置一个1U分流器)

冷却液分配单元 (CDUs),每个机架底部配备冗余泵

每台4U服务器配备八块英伟达H100 Tensor Core GPU。每个机架包含八台4U服务器,总计每机架64块GPU。

每台服务器之间有一个用于液冷的1U分流器。它们连接到位于每个机架底部的CDU(热交换冷却液分配单元),这些CDU包含冗余泵系统。冷却液的选择取决于一系列硬件和环境因素。

图4 – 每个Colossus机架包含八台4U服务器,总计每机架64块GPU。每台服务器之间是一个用于液冷的1U分流器。

图5 – 每个机架底部都有一个带冗余液冷的4U CDU泵送系统。

冷却风扇的作用

风扇对于DIMM内存条、电源、控制器和网卡(NIC)仍然至关重要。

图6 – 后门液冷热交换器。

在Colossus,服务器内的风扇从机架前部吸入较冷的空气,并在服务器后部排出热空气。随后,这些热空气被吸入后门热交换器。热交换器使热空气通过液冷、带鳍片的热交换器/散热器,在其离开机架之前降低其温度。

直接芯片冷却 (Direct-to-Chip Cooling)

英伟达的DGX H100和H200服务器系统配备八块GPU和两块CPU,必须在5°C至30°C之间运行。一个具有高机架密度的AI数据中心容纳着数千个这样的系统,在最大负载下执行HPC任务。这就需要直接的液冷解决方案。

图7 – 一个配备八块GPU的英伟达DGX H100/H200系统 。

图8 – 英伟达H100 SmartPlate连接到液冷系统,提供微对流芯片级冷却,性能比风冷高82%。

直接液冷(冷板接触GPU芯片)是最有效的方法——性能比风冷高出82%。它是H100或GH200高密度部署的首选方案。

可扩展的冷却模块 (Scalable Cooling Modules)

Colossus代表着全球最大的液冷AI集群,采用英伟达+超微技术。对于较小的AI数据中心,冷却分配模块(CDMs)提供了一个紧凑、自成一体的解决方案。

图9 – ATS公司的iCDM-X冷却分配模块包含泵、热交换器和液态冷却剂,用于管理AI GPU及其他组件的热量。

大多数AI数据中心规模较小,电力和冷却需求较低,但冷却仍然至关重要。许多散热问题可以使用独立的冷却分配模块来解决。

紧凑型iCDM-X冷却分配模块可为各种AI GPU及其他芯片提供高达1.6兆瓦的冷却能力。该模块测量并记录所有重要的液冷参数。它仅消耗3千瓦功率,且无需外部冷却剂。

这些模块包括:泵、热交换器、冷板、数字监控(温度、压力、流量)。

它们唯一的外部组件是一个或多个从AI芯片散热的冷板。ATS提供业内领先的定制和标准冷板选择,包括高性能的ICEcrystal系列。

图10 – ATS的ICEcrystal冷板系列直接在AI芯片热点处提供1.5千瓦的射流冲击液冷。

冷却边缘AI和嵌入式应用 (Cooling Edge AI and Embedded Applications)

AI不仅适用于大型数据中心——边缘AI、机器人和嵌入式系统(例如英伟达Jetson Orin、AMD Kria K26)使用的处理器功率通常在100瓦以下。这些处理器可以通过Advanced Thermal Solutions等供应商提供的散热器和风扇散热器进行有效冷却。

图11 – 用于嵌入式及边缘应用中英伟达和AMD AI处理器的高性能散热器。

英伟达还与联想合作,联想的第六代海王星(Neptune)冷却系统使其ThinkSystem SC777 V4服务器能够实现全液冷(无风扇)——目标是为配备英伟达Blackwell + GB200 GPU的企业部署提供支持。

图12 – 联想的海王星直接水冷系统从电源中移除热量,实现完全无风扇运行。

海王星系统带来的优势包括:

全系统冷却(GPU、CPU、内存、I/O、存储、稳压器)

高效支持10万亿参数模型

提升性能、能效和可靠性

随着需求激增,AI数据中心已成为主要的建设重点。历史上,冷却问题是数据中心停机的第二大原因(仅次于电力问题)。

来源:导热邦


注意事项
邦阅网所展示的服务的标题、价格、详情等信息内容由实际服务商提供。如用户对服务的标题、价格、详情等任何信息有任何疑问的,可直接同服务商沟通确认。因第三方服务商与用户因服务行为所发生的纠纷由第三方服务商与该用户自行处理或通过法律途径解决并自行承担法律后果。
微信扫一扫

· 报名此活动

· 分享此活动