Grafikkarten erreichen zwar hohe Rechenleistungen, jedoch auf ineffiziente Weise. Analogchips mit Phasenwechselspeicher weisen hingegen eine sparsamere Eigenschaft auf, während IBM Fortschritte in Richtung eines realen Produkts macht.
Aktuelle KI-Modelle wie ChatGPT verwenden Milliarden von Parametern und setzen tausende Rechengrafikkarten (GPUs) ein. Diese GPUs verbrauchen beträchtliche Mengen an Energie, daher suchen Forscher schon seit einiger Zeit nach effizienteren Alternativen. Die europäische Forschungsabteilung von IBM in Rüschlikon, Schweiz, hat nun einen Schritt in diese Richtung unternommen. In der Fachzeitschrift Nature Electronics stellen die Forscher einen Chip namens Hermes vor (Preprint bei Arxiv).
Hermes basiert auf dem Konzept des „rechnenden Speichers“ (Computational Memory). Bei digitalen GPUs müssen die Gewichtungen der Eingänge jedes Neurons aus dem Speicher geladen und dann mit den Aktivierungswerten multipliziert werden. Beim rechnenden Speicher hingegen erfolgt die Berechnung direkt im Speicher, wodurch die Kommunikation stark reduziert wird. Diese Kommunikation erfordert nicht nur viel Energie, sondern kann auch die leistungsstarken GPUs ausbremsen. Da bei dieser Methode nur wenige Berechnungen pro Wert durchgeführt werden, können große KI-Modelle die Rechenkapazität der GPUs selten vollständig nutzen.
Jedoch birgt der rechnende Speicher ein Genauigkeitsproblem: Unterschiede bei der Herstellung können zu fehlerhaften Berechnungen führen, während digitale Chips immer präzise sind. Hermes soll dieses Problem mit einer Genauigkeit von 92,81 Prozent bei der Zuordnung im Cifar-10-Datensatz überwinden. Zudem ermöglicht der Chip mit 4 Millionen Gewichtungskoeffizienten die Verwendung komplexerer Modelle, ohne dass eine Neuprogrammierung erforderlich ist. Die Effizienz wird von den Forschern mit bis zu 9,76 TOPS/W angegeben, während Nvidias H100 bei dünn besetzten Matrizen maximal 5,71 TOPS/W erreicht.
Ein vielversprechender Ansatz für den rechnenden Speicher ist der Einsatz von Phasenwechselspeichern (Phase Change Memory, PCM). Diese Speicher können auf verschiedene Widerstandswerte programmiert werden, wobei IBM pro 8-Bit-Gewichtungswert vier Speicherzellen nutzt.
Die Berechnungen erfolgen analog, indem die Aktivierungswerte als pulsweitenmodulierte Signale angelegt werden. Diese Signale werden mithilfe von Digital-Analog-Wandlern erzeugt. Jeweils 256 Eingänge führen zu einer gemeinsamen Leseleitung, die die Einzelspannungen summiert. Jede Leseleitung lädt einen Kondensator auf, dessen Spannung am Ende von einem Analog-Digital-Wandler ausgewertet und in einen digitalen Wert umgewandelt wird.
Obwohl die Idee nicht neu ist und IBM bereits seit einigen Jahren daran arbeitet, markiert Hermes einen aktuellen Fortschritt in dieser Entwicklung. Der Chip kann jedoch nicht vollständig auf digitale Berechnungen verzichten. Jeder „Compute Core“ enthält zusätzlich zu zwei Recheneinheiten zur Skalierung der individuellen Ergebnisse eine weitere Einheit zur Berechnung nichtlinearer Aktivierungsfunktionen. Außerdem sind in der Mitte des 12 x 12 mm großen Chips acht sogenannte „Global Digital Processing Units“ (GDPUs) integriert. Diese Einheiten sind erforderlich, um alle Operationen durchzuführen, die für die Umsetzung von Residual Neural Networks und Long Short-Term Memory erforderlich sind.
Bei anderen Chips wurde diese Funktionalität extern umgesetzt, was zu einer verstärkten Kommunikation mit einem externen Prozessor führte und den Datendurchsatz des KI-Chips verringerte. Die Forscher sehen ihren Chip als einen bedeutenden Schritt in der Entwicklung analoger KI-Beschleuniger und erwarten, dass diese Technologie in wenigen Jahren die Genauigkeit von Softwarelösungen erreichen wird. Dies könnte dazu führen, dass sie vermehrt in Rechenzentren zum Einsatz kommen.