Kunstmatige intelligentie (AI) is hier en het is om te blijven. “Elke industrie wordt een technologie-industrie”, aldus Jensen Huang, oprichter en CEO van NVIDIA. De use cases voor AI zijn vrijwel onbeperkt, van doorbraken in de geneeskunde tot zeer nauwkeurige fraudepreventie. AI transformeert ons leven al net zoals het elke sector transformeert. Het begint ook de datacenterinfrastructuur fundamenteel te transformeren.
AI-workloads stimuleren aanzienlijke veranderingen in hoe we de gegevens die worden verwerkt als onderdeel van high-performance computing (HPC) van stroom voorzien en koelen. Een typisch IT-rack dat werd gebruikt om werklasten van 5-10 kilowatt (kW) uit te voeren, en racks met een belasting van meer dan 20 kW werden beschouwd als hoge dichtheid - een zeldzaam zicht buiten zeer specifieke toepassingen met een beperkt bereik. IT wordt versneld met GPU's om de computerbehoeften van AI-modellen te ondersteunen, en deze AI-chips kunnen ongeveer vijf keer zoveel vermogen en vijf keer zoveel koelcapaciteit1 in dezelfde ruimte als een traditionele server vereisen. Mark Zuckerberg kondigde aan dat tegen het einde van 2024 Meta miljarden zal uitgeven om 350.000 H100 GPU's van NVIDIA te implementeren. Rackdichtheden van 40 kW per rack bevinden zich nu aan de onderkant van wat nodig is om AI-implementaties te vergemakkelijken, waarbij rackdichtheden van meer dan 100 kW per rack in de nabije toekomst gemeengoed en op grote schaal worden.
Dit vereist uitgebreide capaciteitsverhogingen over de gehele aandrijflijn van het net tot chips in elk rack. De introductie van vloeistofkoelingstechnologieën in de witte ruimte van het datacenter en uiteindelijk in serverruimtes van ondernemingen, zal een vereiste zijn voor de meeste implementaties, omdat traditionele koelmethoden de warmte die wordt gegenereerd door GPU's die AI-berekeningen uitvoeren niet kunnen verwerken. Investeringen om de infrastructuur te upgraden die nodig is om AI-hardware aan te drijven en te koelen zijn aanzienlijk en het navigeren door deze nieuwe ontwerpuitdagingen is cruciaal.
De overgang naar hoge dichtheid
De overgang naar versneld computergebruik zal niet van de ene op de andere dag plaatsvinden. Ontwerpers van datacenters en serverruimtes moeten zoeken naar manieren om stroom- en koelinfrastructuur toekomstbestendig te maken, met overwegingen voor de toekomstige groei van hun workloads. Om voldoende stroom naar elk rack te krijgen, zijn upgrades van het raster naar het rack nodig. Specifiek in de witte ruimte betekent dit waarschijnlijk busway met hoge stroomsterkte en rack-PDU's met hoge dichtheid. Om de enorme hoeveelheid warmte die wordt gegenereerd door hardware met AI-workloads af te wijzen, zijn er twee technologieën voor vloeistofkoeling als primaire opties:
- Direct-to-chip vloeistofkoeling: Koude platen bevinden zich bovenop de warmtegenererende componenten (meestal chips zoals CPU's en GPU's) om warmte af te voeren. Gepompte eenfasige of tweefasige vloeistof trekt warmte van de koude plaat af om deze uit het datacenter te sturen, waarbij warmte wordt uitgewisseld, maar geen vloeistoffen met de chip. Dit kan ongeveer 70-75% van de warmte verwijderen die door apparatuur in het rek wordt gegenereerd, waardoor 25-30% van de luchtkoelingssystemen moet worden verwijderd.
- Warmtewisselaars achterdeur: Passieve of actieve warmtewisselaars vervangen de achterdeur van het IT-rack door warmte-uitwisselingsspoelen waardoor vloeistof de warmte absorbeert die in het rack wordt geproduceerd. Deze systemen worden vaak gecombineerd met andere koelsystemen als strategie om ruimteneutraliteit te behouden of als overgangsontwerp om de reis naar vloeistofkoeling te beginnen.
Hoewel direct-to-chip vloeistofkoeling een aanzienlijk hogere dichtheidskoelcapaciteit biedt dan lucht, is het belangrijk op te merken dat er nog steeds overtollige warmte is die de koude platen niet kunnen opvangen. Deze warmte wordt in de dataroom afgevoerd, tenzij deze op een andere manier wordt ingesloten en verwijderd, zoals op de achterdeur warmtewisselaars of de koeling van de ruimtelucht. Bekijk onze whitepaper voor meer informatie over vloeistofkoelingsoplossingen voor datacenters.
AI-starterkits voor retrofit en nieuwe builds
Stroom en koeling worden een integraal onderdeel van het ontwerp van de IT-oplossing in de dataroom, waardoor de grenzen tussen IT- en facilitaire teams vervagen. Dit voegt een hoge mate van complexiteit toe als het gaat om ontwerp, implementatie en bediening. Partnerschappen en volledige oplossingsexpertise zijn topvereisten voor soepele overgangen naar hogere dichtheden.
Om de overgang naar hoge dichtheid te vereenvoudigen, heeft Vertiv een reeks geoptimaliseerde ontwerpen geïntroduceerd, waaronder stroom- en koeltechnologie die werklasten tot 100 kW per rack kan ondersteunen in een diverse set implementatieconfiguraties.
Samenvatting ontwerp | Rekken | Dichtheid/rek | Groen/bruin veld | Warmteverwijdering | |
---|---|---|---|---|---|
van server | vanuit kamer | ||||
Trainingsmodel pilots, edge-inferentie op schaal |
|||||
Kleine HPC minimale retrofit | 1 | 70 kW | Bruin veld | water/glycol | lucht |
Kleine HPC retrofit voor gekoeldwatersysteem | 1 | 100 kW | Bruin veld | water/glycol | water/glycol |
Gecentraliseerde training voor ondernemingen, AI-hoek in datacenter |
|||||
Middelgrote HPC kostengeoptimaliseerde retrofit | 3 | 100 kW | Bruin veld | water/glycol | koelmiddel |
Middelgrote HPC met verhoogde warmteopname | 4 | 100 kW | Bruin veld Groen veld |
water/glycol+lucht | water/glycol |
Middelgrote HPC pragmatische retrofit voor luchtgekoelde computerruimtes | 5 | 40 kW | Bruin veld Groen veld |
lucht | koelmiddel |
Middelgrote HPC | 5 | 100 kW | Bruin veld Groen veld |
water/glycol | water/glycol |
Grootschalige AI-fabriek |
|||||
Grote HPC behoudt ruimteneutraliteit | 12 | 100 kW | Bruin veld Groen veld |
water/glycol+lucht | water/glycol |
Groot HPC-gebouw op schaal | 14 | 100 kW | Bruin veld Groen veld |
water/glycol | water/glycol |
Deze ontwerpen bieden meerdere paden voor systeemintegrators, colocatieproviders, cloudserviceproviders of zakelijke gebruikers om nu het datacenter van de toekomst te bereiken. Elke specifieke faciliteit kan nuances hebben met racktelling en rackdichtheid die worden bepaald door de selectie van IT-apparatuur. Als zodanig biedt deze collectie ontwerpen een intuïtieve manier om zich definitief te beperken tot een basisontwerp en het precies aan te passen aan de implementatiebehoeften.
Wanneer we bestaande omgevingen voor AI achteraf inbouwen of herinrichten, helpen onze geoptimaliseerde ontwerpen verstoring van bestaande workloads te minimaliseren door waar mogelijk gebruik te maken van beschikbare koelinfrastructuur en warmteafvoer. We kunnen bijvoorbeeld direct-to-chip vloeistofkoeling integreren met een achterdeurs warmtewisselaar om een ruimteneutrale koeloplossing te behouden. In dit geval voorkomt de achterdeurwarmtewisselaar dat overtollige warmte in de kamer ontsnapt. Voor een luchtgekoelde faciliteit die vloeistofkoelingsapparatuur wil toevoegen zonder aanpassingen aan de locatie zelf, hebben we opties voor vloeistof-naar-lucht-ontwerp beschikbaar. Dezezelfde strategie kan worden geïmplementeerd in één rack, op een rij of op schaal in een grote HPC-implementatie. Voor ontwerpen met meerdere racks hebben we ook busway met hoge stroomsterkte en rack-PDU's met hoge dichtheid opgenomen om stroom naar elk rack te distribueren.
Deze opties zijn compatibel met een reeks verschillende opties voor warmteafvoer die kunnen worden gecombineerd met vloeistofkoeling. Dit zorgt voor een schoon en kosteneffectief overgangspad naar vloeistofkoeling met hoge dichtheid zonder andere workloads in de dataroom te verstoren. Bekijk onze AI Data Room-oplossingen voor meer informatie.
Hoewel veel faciliteiten niet zijn ontworpen voor systemen met hoge dichtheid, heeft Vertiv uitgebreide ervaring met het helpen van klanten bij het ontwikkelen van implementatieplannen om soepel over te schakelen naar hoge dichtheid voor AI en HPC.
1 Schattingen van het management: Vergelijking van stroomverbruik en warmteafgifte op rackniveau voor 5 Nvidia DGX H100-servers en 21 Dell PowerStore 500T- en 9200T-servers in een standaard 42U-rack op basis van specificatiebladen van de fabrikant