Colossus sprengt alle Grenzen

Es gibt einen neuen Giganten in der Welt der Supercomputer – und er hört auf den Namen Colossus. Elon Musk und sein Unternehmen xAI haben sich nicht lumpen lassen und in nur vier Monaten einen Supercomputer gebaut, der die bisherigen Maßstäbe sprengt. Mit beeindruckenden 100.000 Nvidia H100-Tensor Core GPUs könnte Colossus die Welt von KI im High-Performance-Computing (HPC)auf die nächste Stufe bringen und das Wettrennen um die schnellsten Rechensysteme anführen.

Aber was macht Colossus so besonders? Und warum ist dieses Projekt in der IT-Welt gerade so heiß diskutiert?

Was steckt hinter Colossus?

Der Kern von Colossus sind die Nvidia H100-Beschleuniger, von denen das System satte 100.000 Stück beherbergt. Diese Hochleistungs-GPUs wurden entwickelt, um massive Datenmengen zu verarbeiten und rechenintensive Aufgaben wie künstliche Intelligenz und maschinelles Lernen effizient zu bewältigen.

Aber hier wird es wirklich spannend: Colossus erreicht rein rechnerisch eine Rechenleistung von 3,4 Exaflops bei doppelter Genauigkeit (FP64). Das bedeutet, dass das System unglaubliche 3,4 Trillionen Rechenoperationen pro Sekunde bewältigen kann. Zum Vergleich: Der derzeitige Spitzenreiter der Top500-Liste, Frontier, schafft „nur“ 1,7 Exaflops – Colossus könnte also doppelt so leistungsfähig sein.

Doch das ist nicht alles: Bei einfacheren KI-Operationen, die weniger Präzision erfordern (FP8 oder INT8), könnte Colossus theoretisch auf 396 Exaflops kommen. Das ist eine Rechenleistung, die das Verständnis sprengt und das Potenzial hat, zukünftige KI-Modelle mit beispielloser Geschwindigkeit zu trainieren.

4 Monate Bauzeit

Der Bau eines Supercomputers dieser Größenordnung in nur vier Monaten ist eine echte Sensation. Normalerweise ziehen sich solche Projekte über Jahre hin – allein die Fehlersuche und -korrekturen bei der Inbetriebnahme können extrem zeitaufwendig sein. Doch xAI und Elon Musk haben mit Colossus bewiesen, dass auch in dieser komplexen Domäne Schnelligkeit keine Abstriche in der Qualität bedeuten muss. Der Supercomputer ist einsatzbereit und trainiert bereits das KI-Modell hinter dem neuen Chatbot Grok.

Colossus als Exascale-König?

Was den Hype um Colossus zusätzlich befeuert, ist die Frage: Könnte dieser Supercomputer der neue König der Exascale-Ära sein? Exascale-Systeme sind in der Lage, mehr als eine Trillion (Exa-) Rechenoperationen pro Sekunde auszuführen – ein Ziel, das weltweit viele versuchen zu erreichen. Mit den aktuellen Spezifikationen könnte Colossus diesen Thron beanspruchen.

Offiziell taucht der Supercomputer wahrscheinlich nicht auf der Top500-Liste auf, da private Firmen ihre Systeme oft nicht öffentlich bewerten lassen. Doch wenn man die Zahlen betrachtet, scheint Colossus bereit, den amtierenden Spitzenreiter Frontier in den Schatten zu stellen.

Der geheime Star im Hintergrund: Dell

Wie hat xAI es geschafft, so viele der heiß begehrten Nvidia H100-Beschleuniger zu bekommen, wo doch die gesamte Tech-Welt nach ihnen ersehnt? Hier kommt Dell ins Spiel. Das Unternehmen war anscheinend maßgeblich am Bau von Colossus beteiligt. Ihre Expertise im Serverbau und die enge Zusammenarbeit mit Nvidia haben es ermöglicht, dass Colossus in Rekordzeit fertiggestellt wurde.

Mit Produkten wie dem PowerEdge XE9680-Server, der acht H100-Module kombiniert, könnte Dell maßgeschneiderte Lösungen entwickelt haben, um den Bau erheblich zu beschleunigen. Die Zusammenarbeit zwischen den beiden Tech-Giganten zeigt, wie stark die Industrie auf die nächste Generation von Supercomputern fokussiert ist.

Der Preis für die Power: Energieverbrauch in astronomischen Höhen

Leistung hat ihren Preis – und in diesem Fall ist es der Stromverbrauch. Jede H100-GPU verbraucht 700 Watt, was allein für die 100.000 Module einen Energiebedarf von 70 Megawatt bedeutet. Dazu kommen noch die CPUs, Netzwerke und die Kühlung, die für ein solches System essenziell sind. Der Gesamtverbrauch dürfte damit leicht über 100 Megawatt liegen – das ist so viel wie der Bedarf einer ganzen Kleinstadt.

Und es kommt noch mehr: Elon Musk hat bereits angekündigt, dass Colossus in den kommenden Monaten um weitere 50.000 H100- und H200-Beschleuniger erweitert werden soll. Dann könnte der Strombedarf die 200-Megawatt-Marke knacken.

 

© stock.adobe.com, Sujid