L’intelligenza artificiale (IA) è qui ed è qui per rimanere. “Ogni settore diventerà un settore tecnologico”, afferma il fondatore e CEO di NVIDIA, Jensen Huang. I casi d'uso dell'IA sono praticamente illimitati, dalle innovazioni nella medicina alla prevenzione delle frodi ad alta precisione. L'IA sta già trasformando la nostra vita proprio come sta trasformando ogni singolo settore. Sta anche iniziando a trasformare fondamentalmente l'infrastruttura del data center.
I carichi di lavoro IA stanno determinando cambiamenti significativi nel modo in cui promuoviamo e raffreschiamo i dati elaborati come parte del calcolo ad alte prestazioni (HPC). Un tipico rack IT utilizzato per eseguire carichi di lavoro da 5 a 10 kilowatt (kW) e rack che eseguono carichi superiori a 20 kW sono stati considerati ad alta densità, una visione rara al di fuori di applicazioni molto specifiche con portata ristretta. L'IT viene accelerato con le GPU per supportare le esigenze di elaborazione dei modelli IA e questi chip IA possono richiedere circa cinque volte più potenza e cinque volte più capacità di raffreddamento1 nello stesso spazio di un server tradizionale. Mark Zuckerberg ha annunciato che entro la fine del 2024, Meta spenderà miliardi per distribuire 350.000 GPU H100 da NVIDIA. Le densità dei rack di 40 kW per rack si trovano ora al limite inferiore di quanto necessario per facilitare le implementazioni IA, con densità dei rack che superano i 100 kW per rack che diventano comuni e su larga scala nel prossimo futuro.
Ciò richiederà grandi aumenti di capacità nell’intera power train, dalla rete ai chip in ogni rack. L'introduzione di tecnologie di raffreddamento a liquido nello spazio bianco del data center e infine nelle sale server aziendali sarà un requisito per la maggior parte delle distribuzioni, poiché i metodi di raffreddamento tradizionali non saranno in grado di gestire il calore generato dalle GPU che eseguono calcoli IA. Gli investimenti per aggiornare l'infrastruttura necessaria per alimentare e raffreddare l'hardware IA sono sostanziali e affrontare queste nuove sfide di progettazione è fondamentale.
La transizione verso l’alta densità
La transizione al computing accelerato non avverrà durante la notte. I progettisti di data center e sale server devono cercare modi per rendere l'infrastruttura di alimentazione e raffreddamento pronta per il futuro, tenendo conto della crescita futura dei loro carichi di lavoro. Per alimentare a sufficienza ogni rack sono necessari aggiornamenti dalla griglia al rack. Nello spazio bianco, in particolare, ciò significa probabilmente un busway ad alto amperaggio e PDU rack ad alta densità. Per rifiutare l'enorme quantità di calore generato dall'hardware che esegue carichi di lavoro IA, due tecnologie di raffreddamento a liquido stanno emergendo come opzioni principali:
- Raffreddamento a liquido diretto su chip: Le piastre fredde si trovano sopra i componenti che generano calore (di solito chip come CPU e GPU) per aspirare calore. Il fluido monofase o bifase pompato assorbe il calore dalla piastra di raffreddamento per inviarlo fuori dal data center, scambiando il calore ma non i fluidi con il chip. Ciò può rimuovere circa il 70-75% del calore generato dalle apparecchiature nel rack, lasciando il 25-30% che i sistemi di raffreddamento ad aria devono rimuovere.
- Scambiatori di calore per porte posteriori: Gli scambiatori di calore passivi o attivi sostituiscono lo sportello posteriore del rack IT con bobine di scambio di calore attraverso le quali il fluido assorbe il calore prodotto nel rack. Questi sistemi sono spesso combinati con altri sistemi di raffreddamento come strategia per mantenere la neutralità della stanza o come progetto di transizione che inizia il percorso verso il raffreddamento a liquido.
Sebbene il raffreddamento a liquido diretto al chip offra una capacità di raffreddamento a densità significativamente superiore rispetto all’aria, è importante notare che c’è ancora calore in eccesso che le piastre di raffreddamento non possono catturare. Questo calore verrà respinto nella data room a meno che non sia contenuto e rimosso attraverso altri mezzi come gli scambiatori di calore della porta posteriore o il raffreddamento dell'aria ambiente. Per maggiori dettagli sulle soluzioni di raffreddamento a liquido per data center, consulta il nostro white paper .
Starter kit IA per retrofit e nuove build
L'alimentazione e il raffreddamento stanno diventando parte integrante della progettazione della soluzione IT nella data room, sfocando i confini tra i team IT e delle strutture. Ciò aggiunge un elevato grado di complessità quando si tratta di progettazione, distribuzione e funzionamento. Le partnership e le competenze a soluzione completa sono considerate i requisiti principali per transizioni fluide a densità più elevate.
Per semplificare il passaggio all’alta densità, Vertiv ha introdotto una gamma di progetti ottimizzati, tra cui la tecnologia di alimentazione e raffreddamento in grado di supportare carichi di lavoro fino a 100 kW per rack in una serie diversificata di configurazioni di distribuzione.
Riepilogo del progetto | Rack | Densità/rack | Campo verde/marrone | Rimozione del calore | |
---|---|---|---|---|---|
dal server | dalla camera | ||||
Modelli pilota di training, inferenza edge su larga scala |
|||||
Piccolo retrofit minimo HPC | 1 | 70 kW | Campo marrone | acqua/glicole | aria |
Piccolo retrofit HPC per sistema ad acqua refrigerata | 1 | 100 kW | Campo marrone | acqua/glicole | acqua/glicole |
Formazione centralizzata per le imprese, angolo IA nel data center |
|||||
Retrofit ottimizzato per i costi HPC di medie dimensioni | 3 | 100 kW | Campo marrone | acqua/glicole | refrigerante |
HPC di medie dimensioni con maggiore cattura del calore | 4 | 100 kW | Campo marrone Campo verde |
acqua/glicole+aria | acqua/glicole |
Retrofit pragmatico HPC di medie dimensioni per sale computer raffreddate ad aria | 5 | 40 kW | Campo marrone Campo verde |
aria | refrigerante |
HPC di medie dimensioni | 5 | 100 kW | Campo marrone Campo verde |
acqua/glicole | acqua/glicole |
Fabbrica di IA su larga scala |
|||||
Ampio HPC che preserva la neutralità della stanza | 12 | 100 kW | Campo marrone Campo verde |
acqua/glicole+aria | acqua/glicole |
Ampio edificio HPC verso la scala | 14 | 100 kW | Campo marrone Campo verde |
acqua/glicole | acqua/glicole |
Questi progetti offrono più percorsi per integratori di sistemi, provider di colocation, provider di servizi cloud o utenti aziendali per ottenere il data center del futuro. Ogni struttura specifica può avere sfumature con conteggio e densità dei rack dettate dalla selezione delle apparecchiature IT. Pertanto, questa collezione di design offre un modo intuitivo per restringere definitivamente un design di base e adattarlo esattamente alle esigenze di distribuzione.
Quando si aggiornano o si ripristinano gli ambienti esistenti per l'IA, i nostri progetti ottimizzati aiutano a ridurre al minimo le interruzioni dei carichi di lavoro esistenti sfruttando l'infrastruttura di raffreddamento disponibile e il rifiuto del calore, ove possibile. Ad esempio, possiamo integrare il raffreddamento a liquido diretto a chip con uno scambiatore di calore a porta posteriore per mantenere una soluzione di raffreddamento a zero ambiente. In questo caso, lo scambiatore di calore posteriore impedisce che il calore in eccesso fuoriesca nella stanza. Per una struttura raffreddata ad aria che desidera aggiungere apparecchiature di raffreddamento a liquido senza alcuna modifica al sito stesso, sono disponibili opzioni di progettazione liquido-aria. Questa stessa strategia può essere implementata in un singolo rack, in fila o su larga scala in una distribuzione HPC di grandi dimensioni. Per i design multi-rack, abbiamo anche incluso busway ad alto amperaggio e PDU rack ad alta densità per distribuire l'alimentazione a ogni rack.
Queste opzioni sono compatibili con una gamma di diverse opzioni di dissipazione del calore che possono essere abbinate al raffreddamento a liquido. Ciò stabilisce un percorso di transizione pulito ed economico al raffreddamento a liquido ad alta densità senza interrompere altri carichi di lavoro nella data room. Scopri le nostre soluzioni per data room IA per saperne di più.
Sebbene molte strutture non siano progettate per sistemi ad alta densità, Vertiv ha una vasta esperienza nell’aiutare i clienti a sviluppare piani di distribuzione per passare senza problemi all’alta densità per IA e HPC.
1 Stime di gestione: Confronto del consumo energetico e dell'uscita termica a livello di rack per 5 server Nvidia DGX H100 e 21 server Dell PowerStore 500T e 9200T in un rack 42U standard basato sulle schede tecniche del produttore