L’intelligence artificielle (IA) est là, et elle est là pour rester. « Chaque secteur deviendra un secteur technologique », a déclaré Jensen Huang, fondateur et PDG de NVIDIA. Les cas d’usage de l’IA sont pratiquement illimités, des avancées médicales à la prévention de la fraude de haute précision. L’IA transforme déjà nos vies tout comme elle transforme chaque secteur. Elle commence également à transformer considérablement l'infrastructure du datacenter.
Les charges de travail d’IA entraînent des changements importants dans la façon dont nous alimentons et refroidissons les données traitées dans le cadre de l’informatique haute performance (HPC). Un rack informatique classique utilisé pour exécuter des charges de travail de 5 à 10 kilowatts (kW) et des racks exécutant des charges supérieures à 20 kW ont été considérés comme de haute densité, un phénomène rare en dehors d’applications très spécifiques à courte portée. L’informatique est accélérée par des GPUs pour répondre aux besoins informatiques des modèles d’IA, et ces puces d’IA peuvent nécessiter environ cinq fois plus de puissance et cinq fois plus de capacité de refroidissement1 dans le même espace qu ’un serveur classique. Mark Zuckerberg a annoncé que d’ici la fin de l’année 2024, Meta dépenserait des milliards pour déployer 350 000 GPU H100 de NVIDIA. Les densités de rack de 40 kW par rack sont désormais à la limite de ce qui est nécessaire pour faciliter les déploiements d’IA, les densités de rack dépassant 100 kW par rack devenant courantes et à grande échelle dans un avenir proche.
Cela nécessitera des augmentations importantes de capacité sur l’ensemble de la chaîne d’énergie, du réseau aux puces dans chaque rack. L’introduction de technologies de refroidissement liquide dans l’espace blanc du datacenter et, éventuellement, dans les salles de serveurs d’entreprise, deviendra une exigence pour la plupart des déploiements, car les méthodes de refroidissement classiques ne seront pas en mesure de supporter la chaleur générée par les GPU exécutant des calculs d’IA. Les investissements pour mettre à niveau l’infrastructure nécessaire pour alimenter et refroidir les équipements d’IA sont substantiels et il est essentiel de relever ces nouveaux défis de conception.
La transition vers la haute densité
La transition vers le calcul accéléré ne se fera pas du jour au lendemain. Les concepteurs de datacenters et de salles serveurs doivent rechercher des moyens de préparer l'infrastructure d'alimentation et de refroidissement à l'avenir, en tenant compte de la croissance future de leurs charges de travail. L’alimentation efficace de chaque rack nécessite des mises à niveau du réseau vers le rack. Dans l’espace blanc en particulier, cela signifie probablement des jeux de barre à fort ampérage et des PDU en rack à haute densité. Pour évacuer la quantité massive de chaleur générée par le matériel exécutant des charges de travail d’IA, deux technologies de refroidissement liquide émergent comme options principales :
- Refroidissement liquide direct sur puce (D2C) : Les plaques froides sont placées au-dessus des composants produisant de chaleur (généralement des puces comme les CPU et les GPU) pour évacuer la chaleur. Le fluide monophasé ou biphasé pompé extrait la chaleur de la plaque froide pour l'envoyer hors du datacenter, en échangeant de la chaleur mais pas des fluides avec la puce. Cela peut éliminer environ 70 à 75 % de la chaleur générée par l’équipement dans le rack, ce qui laisse 25 à 30 % que les systèmes de refroidissement à air doivent éliminer.
- Échangeurs thermiques de porte arrière : Les échangeurs de chaleur passifs ou actifs remplacent la porte arrière de la baie informatique par des serpentins d'échange de chaleur à travers lesquelles le fluide absorbe la chaleur produite dans le rack. Ces systèmes sont souvent associés à d’autres systèmes de refroidissement soit comme stratégie pour maintenir la neutralité de la pièce soit comme conception de transition pour démarrer le processus vers le refroidissement liquide.
Bien que le refroidissement liquide direct sur puce offre une puissance de refroidissement d’une densité nettement supérieure que l’air, il est important de noter qu’il y a toujours un excès de chaleur que les plaques froides ne peuvent pas capturer. Cette chaleur sera rejetée dans la salle de données à moins qu’elle ne soit contenue et éliminée par d’autres moyens tels que les échangeurs thermiques de porte arrière ou le refroidissement par air ambiant. Pour plus de détails sur les solutions de refroidissement liquide pour les datacenters, consultez notre livre blanc .
Kits de démarrage IA pour les rénovations et les nouvelles constructions
L’alimentation et le refroidissement font partie intégrante de la conception de la solution informatique dans la salle de données, brouillant les frontières entre les équipes informatiques et les équipes des installations. Cela ajoute un degré élevé de complexité en matière de conception, de déploiement et d’exploitation. Les partenariats et l’expertise en solutions complètes sont les principales conditions pour des transitions en douceur vers des densités plus élevées.
Pour simplifier le passage à la haute densité, Vertiv a introduit une gamme de conceptions optimisées, comprenant des technologies d’alimentation et de refroidissement capables de supporter en charge des charges de travail allant jusqu’à 100 kW par rack dans un ensemble varié de configurations de déploiement.
Résumé de la conception | Racks | Densité/rack | Champ vert/marron | Élimination de la chaleur | |
---|---|---|---|---|---|
à partir du serveur | depuis la pièce | ||||
Pilotes de modèles de formation, inférence edge à l'échelle |
|||||
Petit HPC à rénovation minimale | 1 | 70 kW | Champ marron | eau/glycol | air |
Petite rénovation HPC pour système de refroidissement à eau glacée | 1 | 100 kW | Champ marron | eau/glycol | eau/glycol |
Formation centralisée pour les entreprises, module d’IA dans le data center |
|||||
Rénovation HPC de taille moyenne optimisée pour les coûts | 3 | 100 kW | Champ marron | eau/glycol | réfrigérant |
HPC de taille moyenne avec récupération améliorée de la chaleur accrue | 4 | 100 kW | Champ marron Champ vert |
eau/glycol+air | eau/glycol |
Modernisation pragmatique HPC de taille moyenne pour les salles informatiques refroidies par air | 5 | 40 kW | Champ marron Champ vert |
air | réfrigérant |
HPC de taille moyenne | 5 | 100 kW | Champ marron Champ vert |
eau/glycol | eau/glycol |
Usine d’IA à grande échelle |
|||||
Grand HPC préservant la neutralité de la salle | 12 | 100 kW | Champ marron Champ vert |
eau/glycol+air | eau/glycol |
Grand bâtiment HPC vers l’échelle | 14 | 100 kW | Champ marron Champ vert |
eau/glycol | eau/glycol |
Ces conceptions offrent aux intégrateurs système, aux fournisseurs de colocation, aux fournisseurs de services cloud ou aux utilisateurs d'entreprise de multiples possibilités pour créer le data center du futur, dès maintenant. Chaque installation spécifique peut présenter des nuances en ce qui concerne le nombre et la densité des racks dictées par la sélection de l’équipement informatique. Ainsi, cette série de conceptions offre un moyen intuitif de se limiter définitivement à une conception de base et de l’adapter exactement aux besoins de déploiement.
Lors de l’adaptation ou de la rénovation d'environnements existants pour l’IA, nos conceptions optimisées aident à minimiser les perturbations des charges de travail existantes de en exploitant l’infrastructure de refroidissement et de dissipation de chaleur disponibles là où cela est possible. Par exemple, nous pouvons intégrer le refroidissement liquide direct sur puce avec un échangeur thermique à porte arrière pour maintenir une solution de refroidissement neutre dans la salle. Dans ce cas, l’échangeur thermique de porte arrière empêche l’excès de chaleur de se propager dans la salle. Pour une installation refroidie par air cherchant à ajouter un équipement de refroidissement liquide sans aucune modification du site lui-même, nous avons des options de conception liquide-à-air disponibles. Cette même stratégie peut être déployée dans un seul rack, dans une rangée ou à grande échelle dans un déploiement HPC important. Pour les conceptions multi-racks, nous avons également inclus des jeux de barres à forte intensité et des PDU en rack haute densité pour distribuer l’alimentation dans chaque rack.
Ces options sont compatibles avec une gamme de différentes d’options de dissipation de chaleur qui peuvent être associées au refroidissement liquide. Cela permet d’établir une voie transition propre et vers le refroidissement liquide à haute densité sans perturber les autres charges de travail dans la salle de données. Pour en savoir plus, découvrez nos solutions pour les salles de données d’IA
Alors que de nombreuses installations ne sont pas conçues pour des systèmes haute densité, Vertiv possède une vaste expérience dans l’accompagnement des clients à développer des plans de déploiement pour une transition souple vers la haute densité pour l’IA et le HPC.
1 Estimations de la direction : Comparaison de la consommation électrique et de la puissance de sortie thermique au niveau du rack pour 5 serveurs NVIDIA DGX H100 et 21 serveurs Dell PowerStore 500T et 9200T dans un rack 42U standard, selon les fiches techniques du fabricant