Il Colossus di Elon Musk
X, precedentemente noto come Twitter, ha lanciato il sistema di addestramento più potente al mondo: il supercomputer Colossus. Questo straordinario sistema utilizza fino a 100.000 GPU Nvidia H100 per l'addestramento e si prevede un'espansione con ulteriori 50.000 GPU Nvidia H100 e H200 nei prossimi mesi.
Dettagli sul Colossus
Elon Musk ha annunciato su X: "Questo fine settimana, il team di xAI ha attivato il nostro cluster di addestramento Colossus 100K H100. Dall'inizio alla fine, ci sono voluti 122 giorni. Colossus è il sistema di addestramento AI più potente al mondo. Inoltre, raddoppierà in dimensioni a 200K (50K H200) tra qualche mese."
Collaborazione con Dell
Secondo Michael Dell, leader del noto gigante tecnologico, il sistema Colossus è stato sviluppato e assemblato rapidamente, evidenziando l'esperienza accumulata nella realizzazione di server AI durante il recente boom del settore.
Annunci Recenti di Musk
Negli ultimi tempi, Elon Musk e le sue aziende hanno fatto numerosi annunci riguardanti i supercomputer. A fine agosto, Tesla ha presentato il suo cluster Cortex AI, composto da 50.000 GPU Nvidia H100 e 20.000 chip AI Dojo di Tesla. Anche prima, a fine luglio, X aveva avviato l'addestramento AI sul Memphis Supercluster, che include 100.000 GPU H100 raffreddate a liquido. Questo supercomputer richiede almeno 150 MW di potenza, poiché le 100.000 GPU H100 consumano circa 70 MW.
Operatività dei Cluster
Sebbene tutti questi cluster siano formalmente operativi e stiano addestrando modelli AI, non è chiaro quanti siano effettivamente online al momento. Innanzitutto, è necessario del tempo per risolvere i problemi e ottimizzare le impostazioni di questi supercluster. Inoltre, X deve garantire un'alimentazione adeguata. Sebbene l'azienda di Musk utilizzi 14 generatori diesel per alimentare il supercomputer di Memphis, questi non sono sufficienti per supportare tutte le 100.000 GPU H100.
Addestramento di Grok
L'addestramento del modello di linguaggio di grandi dimensioni Grok versione 2 da parte di xAI ha richiesto fino a 20.000 GPU Nvidia H100. Musk prevede che le versioni future, come Grok 3, necessiteranno di risorse ancora maggiori, potenzialmente fino a 100.000 processori Nvidia H100 per l'addestramento. A tal fine, xAI ha bisogno dei suoi vasti data center per addestrare Grok 3 e successivamente eseguire inferenze su questo modello.