tecnologia

Il Colossus di Elon Musk: Il Supercomputer AI più Potente al Mondo

By UpGRD.it , 05/09/2024

Il Colossus di Elon Musk

X, precedentemente noto come Twitter, ha lanciato il sistema di addestramento più potente al mondo: il supercomputer Colossus. Questo straordinario sistema utilizza fino a 100.000 GPU Nvidia H100 per l'addestramento e si prevede un'espansione con ulteriori 50.000 GPU Nvidia H100 e H200 nei prossimi mesi.

Dettagli sul Colossus

Elon Musk ha annunciato su X: "Questo fine settimana, il team di xAI ha attivato il nostro cluster di addestramento Colossus 100K H100. Dall'inizio alla fine, ci sono voluti 122 giorni. Colossus è il sistema di addestramento AI più potente al mondo. Inoltre, raddoppierà in dimensioni a 200K (50K H200) tra qualche mese."

Collaborazione con Dell

Secondo Michael Dell, leader del noto gigante tecnologico, il sistema Colossus è stato sviluppato e assemblato rapidamente, evidenziando l'esperienza accumulata nella realizzazione di server AI durante il recente boom del settore.

Annunci Recenti di Musk

Negli ultimi tempi, Elon Musk e le sue aziende hanno fatto numerosi annunci riguardanti i supercomputer. A fine agosto, Tesla ha presentato il suo cluster Cortex AI, composto da 50.000 GPU Nvidia H100 e 20.000 chip AI Dojo di Tesla. Anche prima, a fine luglio, X aveva avviato l'addestramento AI sul Memphis Supercluster, che include 100.000 GPU H100 raffreddate a liquido. Questo supercomputer richiede almeno 150 MW di potenza, poiché le 100.000 GPU H100 consumano circa 70 MW.

Operatività dei Cluster

Sebbene tutti questi cluster siano formalmente operativi e stiano addestrando modelli AI, non è chiaro quanti siano effettivamente online al momento. Innanzitutto, è necessario del tempo per risolvere i problemi e ottimizzare le impostazioni di questi supercluster. Inoltre, X deve garantire un'alimentazione adeguata. Sebbene l'azienda di Musk utilizzi 14 generatori diesel per alimentare il supercomputer di Memphis, questi non sono sufficienti per supportare tutte le 100.000 GPU H100.

Addestramento di Grok

L'addestramento del modello di linguaggio di grandi dimensioni Grok versione 2 da parte di xAI ha richiesto fino a 20.000 GPU Nvidia H100. Musk prevede che le versioni future, come Grok 3, necessiteranno di risorse ancora maggiori, potenzialmente fino a 100.000 processori Nvidia H100 per l'addestramento. A tal fine, xAI ha bisogno dei suoi vasti data center per addestrare Grok 3 e successivamente eseguire inferenze su questo modello.

FAQ

Cos'è il Colossus di Elon Musk?

Il Colossus è un supercomputer lanciato da X, precedentemente noto come Twitter, ed è considerato il sistema di addestramento AI più potente al mondo, utilizzando fino a 100.000 GPU Nvidia H100.

Quante GPU utilizza il Colossus attualmente?

Attualmente, il Colossus utilizza 100.000 GPU Nvidia H100, ma si prevede un'espansione con ulteriori 50.000 GPU Nvidia H100 e H200 nei prossimi mesi.

Chi ha collaborato allo sviluppo del Colossus?

Il Colossus è stato sviluppato in collaborazione con Dell, come confermato da Michael Dell, che ha sottolineato l'esperienza accumulata nella realizzazione di server AI.

Quanto tempo è stato necessario per attivare il Colossus?

Ci sono voluti 122 giorni dall'inizio alla fine per attivare il cluster di addestramento Colossus 100K H100.

Qual è la potenza richiesta dal supercomputer di Memphis?

Il supercomputer di Memphis richiede almeno 150 MW di potenza, poiché le 100.000 GPU H100 consumano circa 70 MW.

Qual è il modello di linguaggio addestrato da xAI?

Il modello di linguaggio addestrato da xAI è Grok, e la versione attuale è Grok versione 2, che ha richiesto fino a 20.000 GPU Nvidia H100 per l'addestramento.

Cosa prevede Elon Musk per le future versioni di Grok?

Elon Musk prevede che le future versioni di Grok, come Grok 3, necessiteranno di risorse ancora maggiori, potenzialmente fino a 100.000 processori Nvidia H100 per l'addestramento.

Quali problemi devono essere risolti per l'operatività dei cluster?

Per l'operatività dei cluster, è necessario risolvere problemi e ottimizzare le impostazioni, oltre a garantire un'alimentazione adeguata.

Quanti generatori diesel utilizza X per alimentare il supercomputer di Memphis?

X utilizza 14 generatori diesel per alimentare il supercomputer di Memphis, ma questi non sono sufficienti per supportare tutte le 100.000 GPU H100.

Quali altri supercomputer sono stati annunciati da Musk recentemente?

Recentemente, Musk ha annunciato il cluster Cortex AI di Tesla, composto da 50.000 GPU Nvidia H100 e 20.000 chip AI Dojo, e il Memphis Supercluster, che include 100.000 GPU H100.