3,5 Billionen GPUs im KI-Rechenzentrum auf dem Mars – Brian Wang, NextBigFuture

Was wäre, wenn wir die gesamte Sonnenenergie auf dem Mars nutzen würden, um ein KI-Rechenzentrum zu betreiben? Wie viele 1000-Watt-GPUs könnten mit Strom versorgt werden?
Quelle: 3.5 Trillion GPUs on Mars AI Data Center | NextBigFuture.com
Anmerkung meinerseits: Wangs Beitrag ist nicht nur hinsichtlich des möglichen künftigen Leistungsspektrums von KI-Systemen interessant – auch wenn die Vision von einem KI-Zentrum auf dem Mars natürlich noch in weiter Ferne liegt. Sondern vor allem mit Blick auf die bereits bestehenden Kapazitäten. Im „xAI Colossus“-Zentrum im amerikanischen Memphis sind bereits 200.000 GPUs am Werk, die eine Billion (!) Parameter „durchspielen“ können. Damit sind hochkomplexe Simulationen, die Technokraten benötigen würden, um ihre Vision einer „effizient“ verwalteten Gesellschaft zu verwirklichen, ein Stück näher gerückt. Die frühen Technokraten hatten diese technischen Möglichkeiten noch nicht. Die heutigen schon. Das ist durchaus Anlaß zur Sorge sowie zur Frage, für welche Zwecke die ganze Leistung eingesetzt wird.
Berechnung der gesamten vom Mars eingefangenen Sonnenenergie
Der Mars erhält Sonnenenergie basierend auf dem Sonnenlicht, das auf seine Querschnittsfläche trifft. Der Radius des Mars beträgt ca. 3.390 km. 36 Billionen Quadratmeter Querschnittsfläche.
Der durchschnittliche Sonnenfluss in der Entfernung des Mars von der Sonne beträgt etwa 586 W/m². 21.200 Terawatt Leistung.
Umrechnung der Sonnenenergie mit Solarmodul-Wirkungsgrad
Sonnenkollektoren wandeln nicht das gesamte einfallende Sonnenlicht in Elektrizität um. Auf der Erde haben moderne Sonnenkollektoren Wirkungsgrade von 20–25%, aber die dünne Atmosphäre und der Staub des Mars könnten diesen Wert verringern. Für eine optimistische, aber realistische Schätzung nehmen wir einen Wirkungsgrad von 20% (0,20) an. Wir können realistisch 4.240 Terawatt Leistung von der sonnenbeschienenen Seite des Mars nutzen.
Bestimmung des Strombedarfs pro GPU
Jede GPU hat eine Nennleistung von 1.000 Watt (1 kW), aber in einem Rechenzentrum wird zusätzliche Leistung für Kühlung, Vernetzung und andere Infrastruktur benötigt. Dies wird durch die „Power Usage Effectiveness“ (PUE) quantifiziert, das Verhältnis der Gesamtleistung der Anlage zur Leistung der IT-Geräte. Ein guter PUE-Wert auf der Erde liegt bei etwa 1,2, was bedeutet, dass 20% mehr Leistung als die der GPUs selbst verbraucht wird. Auf dem Mars könnte die kalte Umgebung den Kühlbedarf verringern, aber die dünne Atmosphäre könnte die Wärmeableitung erschweren. Der Einfachheit halber nehmen wir an, dass der PUE-Wert 1,2 beträgt.
Es können also etwa 3,53 Billionen GPUs mit Strom versorgt werden (wobei 1 Billion = 10¹² ist).
Dies wären 17 Millionen Mal mehr GPUs als die 200.000 GPUs, die derzeit im KI-Rechenzentrum xAI Colossus in Memphis installiert sind.
Wenn Daten (Video, Audio, synthetische Daten) auch skaliert werden können, um die Mars-GPUs zu trainieren. Dies setzt voraus, dass Skalierungsgesetze eingehalten werden können.
Der berechnete Verlust des 3,53 Billionen-GPU-Systems beträgt etwa das 0,00344-fache des Verlusts des 200.000-GPU-Systems oder etwa 0,344% des ursprünglichen Verlusts.
Eine solch massive Reduzierung des Verlusts könnte eine nahezu perfekte Leistung bei Aufgaben wie der Sprachmodellierung sowie fortgeschrittenes Denken, Problemlösung und möglicherweise Fähigkeiten ermöglichen, die sich je nach Architektur und Training der allgemeinen Intelligenz annähern.
Schritt 2: Interpretation von „Leistung“ mit Skalierungsgesetzen
In der KI bezieht sich „Leistung“ in der Regel auf die Leistung oder Fähigkeit eines Modells, wie z. B. seine Genauigkeit, seine Fähigkeit zur Verallgemeinerung oder seine Effektivität bei Aufgaben wie Sprachmodellierung oder Schlussfolgerungen. Skalierungsgesetze bieten einen Rahmen, um vorherzusagen, wie sich die Leistung mit zunehmender Rechenleistung, Modellgröße und Daten verbessert. Da die Abfrage davon ausgeht, dass die Daten mit der Rechenleistung skalieren und Skalierungsgesetze gelten, können wir Leistungsverbesserungen auf der Grundlage empirischer Beobachtungen aus der KI-Forschung abschätzen.‘
Ein bekanntes Skalierungsgesetz stammt aus Studien wie dem Chinchilla-Papier, das darauf hindeutet, dass bei optimal konfigurierten Modellen – bei denen Modellgröße und Datengröße entsprechend mit der Rechenleistung skaliert werden – der Testverlust (ein Maß für den Fehler in Vorhersagen) mit der Rechenleistung (C) abnimmt.
Verlust Alpha C hoch minus 0,34
Dieser Exponent, ungefähr -0,34, zeigt an, dass der Verlust mit zunehmender Rechenleistung als Potenzgesetz abnimmt, wobei eine optimale Skalierung der Parameter und Daten vorausgesetzt wird.
Wenn das System mit 200.000 GPUs ein Modell mit 1 Billion Parametern trainiert (ähnlich wie bei großen aktuellen Modellen), könnte das System mit 3,53 Billionen GPUs ein Modell mit 4,2 Billiarden Parametern trainieren und so seine Kapazität zum Lernen und Darstellen komplexer Muster erheblich erweitern.
Praktische Einschränkungen – wie der Kommunikationsaufwand in verteilten Systemen, Speicherbeschränkungen oder sinkende Erträge bei Skalierungsgesetzen – könnten dieses Potenzial jedoch einschränken. Dennoch deuten die Annahmen der Abfrage (Skalierungsgesetze gelten, Datenübereinstimmungen werden berechnet) darauf hin, dass diese überwunden werden können.
Weitere Faktoren
Tag-Nacht-Zyklus: Der Tag auf dem Mars dauert etwa 24,6 Stunden, sodass die Sonnenenergie ohne Speicherung nicht konstant ist. Unter der Annahme einer ausreichenden Energiespeicherung (z. B. Batterien) entspricht die durchschnittliche Leistung im Laufe der Zeit der von der sonnenbeschienenen Seite eingefangenen Leistung, sodass unsere Berechnung gültig bleibt.
Staubstürme: Diese können den Sonnenfluss verringern, aber für ein theoretisches Maximum verwenden wir den durchschnittlichen Fluss von 586 W/m².
Orbitalvariation: Der Sonnenfluss des Mars variiert aufgrund seiner elliptischen Umlaufbahn zwischen 492 W/m² und 717 W/m², aber 586 W/m² ist ein angemessener Durchschnittswert.
Übertragungsverluste: Ein planetenweites Netz würde Verluste verursachen, aber wir gehen davon aus, dass die gewonnene Energie effizient geliefert wird, wobei die Gemeinkosten im PUE enthalten sind.
Mit Solarmodulen mit einem Wirkungsgrad von 20%, die die sonnenbeschienene Seite des Mars bedecken, können wir 4.240 Terawatt Leistung nutzbar machen. Bei einem PUE von 1,2 unterstützt dies etwa 3,53 × 10¹² (3,53 Billionen) 1000-Watt-GPUs.