Auf der Hot Chips 36-Konferenz präsentierte das Unternehmen Tenstorrent seine dritte Generation von KI-Beschleunigern, die auf eine vollständig programmierbare Architektur setzt. Was Blackhole so besonders macht? Es ist der erste KI-Beschleuniger, der durchgängig auf RISC-V-Kerne setzt – selbst für Speicher- und Netzwerkcontroller.
Architekturt
Statt einer spezialisierten Mikroarchitektur, wie sie in vielen anderen KI-Chips zu finden ist, verwendet Blackhole eine universelle RISC-V-Architektur. Im Zentrum stehen 752 „Baby-Kerne“, die speziell für KI-Berechnungen optimiert sind. Neu hinzu kommen 16 größere RISC-V-Kerne, die in der Lage sind, Linux auszuführen. Dies macht den Blackhole-Chip unabhängig von einem Host-System – eine Premiere für Tenstorrent, dessen vorherige Generationen als PCIe-Karten betrieben wurden.
Diese Baby-Kerne finden sich nicht nur in den Rechenkacheln des Chips, sondern auch in den DRAM- und Ethernet-Controllern sowie den Routern des Network-on-Chip (NoC). Dadurch wird das gesamte System-on-Chip (SoC) programmierbar, was Entwicklern eine enorme Flexibilität bietet.
Leistungsstark bei Vektor- und Matrixoperationen
Die Rechenkacheln des Blackhole-Chips, die sogenannten Tensix-Kacheln, sind auf Vektor- und Matrixoperationen spezialisiert. Diese Einheiten unterstützen eine breite Palette an Datentypen, von FP2 bis zu Tensorfloat mit 32 Bit (TF32), und eignen sich daher sowohl für das Training als auch für die Inferenz von KI-Modellen.
Interessant ist, dass die Baby-Kerne trotz ihrer Einfachheit effizient arbeiten: In jeder Tensix-Kachel führen drei RISC-V-Kerne denselben Compute-Kernel aus, um die Recheneinheiten bestmöglich auszulasten. Damit bietet Blackhole eine beeindruckende Rechenleistung von bis zu 745 T(F)lops.
Vernetzung
Ein leistungsfähiger KI-Beschleuniger steht und fällt mit seiner Fähigkeit, Daten effizient zu verarbeiten und zu bewegen. Hier setzt Tenstorrent auf ein 2D-Torus-NoC, das eine schnelle Datenübertragung zwischen den Kacheln ermöglicht. Jede Verbindung im NoC kann bis zu 83 GByte/s übertragen, was sicherstellt, dass die Recheneinheiten nicht durch langsame Datenströme ausgebremst werden.
Für die Verbindung mehrerer Blackhole-Chips setzt Tenstorrent auf Ethernet-Schnittstellen, die in einer 3D-Torus-Topologie vernetzt werden können. Diese flexible Architektur ermöglicht es, große KI-Systeme aufzubauen, die problemlos skalierbar sind.
Flexibilität und Programmierbarkeit
Was den Blackhole-Chip wirklich auszeichnet, ist seine vollständige Programmierbarkeit. Obwohl er wenig Hardware-Unterstützung bietet, stellt Tenstorrent mehrere Abstraktionsschichten zur Verfügung, die Entwicklern die Arbeit erleichtern. So können Modelle, die in Jax, Pytorch, Tensorflow oder ONNX entwickelt wurden, problemlos auf dem Blackhole-Chip ausgeführt werden.
Tenstorrent bietet zudem das „Galaxy“-Modul an, ein Rack-Einschubsystem, das 32 Blackhole-Chips in einer 4-x-8-Gitter-Topologie verbindet. Dieses System kann als KI-Supercomputer, programmierbarer Speicher oder programmierbarer Switch eingesetzt werden und ist damit extrem vielseitig.
© stock.adobe.com, William W. Potter