Künstliche Intelligenz (KI) ist da, und sie wird bleiben. "Jede Branche wird zu einer Technologiebranche", so Jensen Huang, Gründer und CEO von NVIDIA. Die Anwendungsfälle für KI sind praktisch grenzenlos, von Durchbrüchen in der Medizin bis hin zu hochpräziser Betrugsprävention. KI verändert bereits jetzt unser Leben, so wie sie jede einzelne Branche verändert. Auch die Infrastruktur von Rechenzentren beginnt sich dadurch grundlegend zu verändern.
KI-Workloads führen zu erheblichen Veränderungen bei der Stromversorgung und Kühlung der im Rahmen des High-Performance Computing (HPC) verarbeiteten Daten. In einem typischen IT-Rack wurden früher Arbeitslasten von 5-10 Kilowatt (kW) erzeugt, und Racks mit Lasten von mehr als 20 kW galten als High-Density-Racks - ein seltener Anblick jenseits sehr spezifischer Anwendungen mit geringer Reichweite. Die IT wird mit Grafikprozessoren beschleunigt, um den Rechenanforderungen von KI-Modellen gerecht zu werden, und diese KI-Chips können auf demselben Raum wie ein herkömmlicher Server etwa fünfmal so viel Strom und fünfmal so viel Kühlkapazität1 benötigen. Mark Zuckerberg kündigte an, dass Meta bis Ende 2024 Milliarden ausgeben wird, um 350.000 H100-GPUs von NVIDIA einzusetzen. Rack-Dichten von 40 kW pro Rack sind derzeit das untere Ende dessen, was für den Einsatz von KI erforderlich ist. In naher Zukunft werden Rack-Dichten von mehr als 100 kW pro Rack üblich und in großem Maßstab verfügbar sein.
Dies erfordert umfangreiche Kapazitätssteigerungen im gesamten Energieversorgungssystem, vom Netz bis zu den Chips in den einzelnen Racks. Die Einführung von Flüssigkühlungstechnologien in den "White Space" von Rechenzentren und schließlich in die Serverräume von Unternehmen wird eine Voraussetzung für die meisten Implementierungen sein, da herkömmliche Kühlmethoden nicht in der Lage sein werden, die Temperaturen zu bewältigen, welche von GPUs bei der Durchführung von KI-Berechnungen erzeugt werden. Die Investitionen zur Anpassung der Infrastruktur, die für die Stromversorgung und Kühlung von KI-Hardware erforderlich ist, sind beträchtlich, und die Bewältigung dieser neuen Planungsherausforderungen ist entscheidend.
Der Wandel zu High-Density
Der Übergang zum beschleunigten Computing wird nicht über Nacht erfolgen. Die Planer von Rechenzentren und Serverräumen müssen nach Möglichkeiten suchen, die Stromversorgungs- und Kühlungsinfrastruktur zukunftsfähig zu machen und dabei das künftige Wachstum ihrer Arbeitslasten zu berücksichtigen. Um jedes Rack mit ausreichend Strom zu versorgen, sind Upgrades vom Versorgungsnetz bis zum Rack erforderlich. Speziell für den White Space bedeutet dies wahrscheinlich Stromschienen mit hoher Stromstärke und Rack-PDUs mit hoher Dichte. Um die enormen Wärmemengen abzuleiten, die von Hardware mit KI-Workloads erzeugt werden, bieten sich vor allem zwei Technologien zur Flüssigkeitskühlung an:
- So genannte Direct-to-Chip Flüssigkühlung: Kühlplatten sitzen auf den wärmeerzeugenden Komponenten (in der Regel Chips wie CPUs und GPUs), um Wärme abzuleiten. Eine gepumpte ein- oder zweiphasige Flüssigkeit entzieht der Kühlplatte Wärme und leitet sie aus dem Rechenzentrum heraus, wobei ein Wärme-, aber kein Flüssigkeitsaustausch mit dem Chip stattfindet. Auf diese Weise können etwa 70-75 % der von den Geräten im Rack erzeugten Wärme abgeführt werden, so dass 25-30 % verbleiben, die von Luftkühlsystemen abgeführt werden müssen.
- Rücktür-Wärmetauscher: Passive oder aktive Wärmetauscher ersetzen die hintere Tür des IT-Racks durch Wärmetauscher-Spiralen, durch die Flüssigkeit die im Rack erzeugte Wärme aufnimmt. Diese Systeme werden häufig mit anderen Kühlsystemen kombiniert, entweder als Strategie zur Wahrung der Raumunabhängigkeit oder als Übergangskonzept, mit dem die Umstellung auf Flüssigkeitskühlung eingeleitet wird.
Die "Direct-to-Chip"-Flüssigkeitskühlung bietet zwar eine wesentlich höhere Kühlkapazität als die Luftkühlung, doch ist zu beachten, dass immer noch ein Wärmeüberschuss entsteht, den die Kühlelemente nicht auffangen können. Diese Wärme wird an den Rechnerraum abgegeben, es sei denn, sie wird durch andere Mittel wie Wärmetauscher an der Rückseite der Tür oder Raumluftkühlung aufgefangen und abgeführt. Weitere Einzelheiten zu Flüssigkeitskühlungslösungen für Rechenzentren finden Sie in unserem Whitepaper.
KI- Startersets für Nachrüstungen und Neubauten
Stromversorgung und Kühlung werden zu integralen Bestandteilen des IT-Lösungsdesigns im Rechenzentrum, wodurch die Grenzen zwischen IT- und Facility-Teams verschwimmen. Dies führt zu einem hohen Maß an Komplexität in Bezug auf Design, Bereitstellung und Betrieb. Partnerschaften und umfassendes Fachwissen sind die wichtigsten Voraussetzungen für einen reibungslosen Übergang zu höheren Dichten.
Um die Umstellung auf hohe Leistungsdichte zu vereinfachen, hat Vertiv eine Reihe von optimierten Designs eingeführt, einschließlich Stromversorgungs- und Kühltechnologien, die Arbeitslasten von bis zu 100 kW pro Rack in einer Vielzahl von Einsatzkonfigurationen unterstützen.
Kurzbeschreibung | Racks | Dichte/Rack | Green/Brown Field | Wärmeabfuhr | |
---|---|---|---|---|---|
aus Server | aus Raum | ||||
Pilot-Modelle anlernen, angelernte Edge-Modelle skalieren |
|||||
Kleines HPC mit einafcher Nachrüstung | 1 | 70 kW | Brown Field | Wasser/Glykol | Luft |
Kleine HPC Nachrüstung für Flüssigkühlung | 1 | 100 kW | Brown Field | Wasser/Glykol | Wasser/Glykol |
Zantralisierte Anlernprozesse auf Enterprise-Level, KI-Bereiche im Rechenzentrum |
|||||
Mittelgroße HPC mit kostenoptimierter Nachrüstung | 3 | 100 kW | Brown Field | Wasser/Glykol | Kältemittel |
Mittelgroße HPC mit erhöhter Wärmeabsorption | 4 | 100 kW | Brown Field Green Field |
Wasser/Glykol+Luft | Wasser/Glykol |
Mittelgroße HPC mit pragmatischer Nachrüstung für luftgekühlte Computerräume | 5 | 40 kW | Brown Field Green Field |
Luft | Kältemittel |
Mittelgroße HPC | 5 | 100 kW | Brown Field Green Field |
Wasser/Glykol | Wasser/Glykol |
Umfangreiche KI-Anwendungen |
|||||
Große HPC-Reservierung der Raumneutralität | 12 | 100 kW | Brown Field Green Field |
Wasser/Glykol+Luft | Wasser/Glykol |
Großes HPC-Gebäude in Richtung Waage | 14 | 100 kW | Brown Field Green Field |
Wasser/Glykol | Wasser/Glykol |
Diese Konzepte bieten Systemintegratoren, Colocation-Anbietern, Cloud-Service-Anbietern oder Unternehmensanwendern mehrere Möglichkeiten, das Rechenzentrum der Zukunft jetzt zu realisieren. Jede spezifische Einrichtung kann Nuancen bei der Rack-Anzahl und Rack-Dichte aufweisen, die von der Auswahl der IT- Komponenten abhängen. Daher bietet diese Zusammenstellung von Designs eine intuitive Möglichkeit, sich auf ein Basisdesign zu beschränken und dieses genau auf die Anforderungen der Einrichtung auszurichten.
Bei der Nachrüstung oder dem Umbau bestehender Umgebungen für KI tragen unsere optimierten Designs dazu bei, die Unterbrechung bestehender Workloads zu minimieren, indem die vorhandene Kühlungsinfrastruktur und die Wärmeabfuhr so weit wie möglich genutzt werden. So können wir beispielsweise eine Direct-to-Chip-Flüssigkeitskühlung mit einem Wärmetauscher an der Rückseite der Tür integrieren, um eine raumneutrale Kühllösung zu erhalten. In diesem Fall verhindert der Wärmetauscher an der Rückseite der Tür, dass überschüssige Wärme in den Raum entweicht. Für eine luftgekühlte Einrichtung, die eine Flüssigkeitskühlung ohne Änderungen am Standort selbst hinzufügen möchte, haben wir Optionen für eine Flüssigkeit-Luft- Ausführung verfügbar. Die gleiche Strategie kann in einem einzelnen Rack, in einer Reihe oder in einer großen HPC-Anlage eingesetzt werden. Für Multi-Rack-Designs haben wir auch Hochstrom-Busways und High-Density-Rack-PDUs für die Stromverteilung an jedem Rack vorgesehen.
Diese Optionen sind mit einer Reihe von verschiedenen Wärmeableitungsoptionen kompatibel, die mit der Flüssigkeitskühlung kombiniert werden können. Auf diese Weise wird ein sauberer und kosteneffizienter Übergang zu einer Flüssigkeitskühlung mit hoher Dichte geschaffen, ohne andere Arbeitslasten im Rechenzentrum zu beeinträchtigen. Informieren Sie sich über unsere KI-Rechenzentrumslösungen, um mehr zu erfahren.
Obwohl viele Einrichtungen nicht für Systeme mit hoher Dichte ausgelegt sind, verfügt Vertiv über umfangreiche Erfahrung in der Unterstützung von Kunden bei der Entwicklung von Bereitstellungsplänen für einen reibungslosen Übergang zu hoher Dichte für KI und HPC.
1 Schätzungen des Managements: Vergleich des Stromverbrauchs und der Wärmeleistung auf Rackebene für 5 Nvidia DGX H100-Server und 21 Dell PowerStore 500T- und 9200T-Server in einem standardmäßigen 42U-Rack basierend auf Herstellerspezifikationen