Sie sind auf Seite 1von 1

Aktuell  |  Supercomputer

Exenwerk
500 Watt möglich. Dazu kommt die ab-
gespeckte PCIe-Version MI210.
Die Multi-Chip-Module bestehen aus
zwei Graphics Compute Dies (GCD) und

AMDs Prozessoren und Beschleuniger


acht HBM2E-Stapelspeicherchips mit je
400 GByte/s – zusammen 3,2 TByte/s. Die
für die Exascale-Rechner beiden GCDs sind mit bidirektionalen
400 GByte/s untereinander verbunden.
Ein MI250X-Modul hat 2  110 Com-
pute Units (CUs) mit zusammen 14.080
Rechenkernchen, die bei 1,7 GHz rund
47,9 TFlops in 64-Bit-Gleitkomma-Ge-
Frontier soll als erster US-Super- chen Lieferanten der Rechenleistung von nauigkeit (FP64) schaffen und FP32-Be-
computer die Exascale-Mauer AMD. Spezielle Epyc-Serverprozessoren rechnungen paarweise packen können.
und vor allem die Rechenbeschleuniger Insgesamt dürften knapp 4000 solcher
durchbrechen. Das Rüstzeug:
Instinct MI250X liefern die enorme Per- Knoten für die angepeilten 1,5 EFlops von
mächtige MI200-Rechenbe-
formance. Frontier ausreichen.
schleuniger, spezielle Epyc-Pro- Basis der Frontier-Rechenknoten sind Zusätzlich haben die „Aldebaran“ ge-
zessoren und flexibles Infinity Epyc-CPUs der dritten Generation. Sie be- tauften Chips noch Matrix-Cores, die bei
Fabric – alles von AMD. kommen zusätzlich zu ihren 256 MByte Matrix-Matrix-Multiplikationen (GEMM)
Level-3-Cache noch einen V-Cache von mit FP64-Genauigkeit 95,7 TFlops liefern.
512 MByte, also insgesamt 768 MByte Die Matrix-Cores helfen auch beim KI-Trai-
Von Carsten Spille Last-Level-Cache. AMD nennt Perfor- ning mit gemischter Präzision (BFloat16)
mancevorteile von 50 Prozent, in Spezial- und beim KI-Inferencing mit Ganzzahlen
fällen bei 16-Core-Epycs auch bis zu 66 und reduzierter Genauigkeit (INT4/INT8),
Prozent. Wer mag, kann sich die Milan-X da sie auch dafür Register zusammenpa-

V or rund 13 Jahren startete das US-


amerikanische Department of Ener-
gy mit den nationalen Laboren in Sandia
genannten Epycs in Microsofts Azure-
Cloud mit virtuellen Maschinen der HBv3-
Serie schon heute testen. Für Strömungs-
cken können und somit bis zu 383 TFlops/
TOps erreichen. Das sind wirklich enorme
Werte und ein – im übertragenen Sinne –
und Oak Ridge die Exascale-Initiative. simulationen (CFD) gibt Microsoft gar bis Quantensprung bei den Supercomputern.
Seitdem sind die mächtigsten Supercom- zu 80 Prozent Performanceplus an. Nvidias aktueller Data-Center-Cham-
puter der Welt bereits um den Faktor 1000 Die Epyc-Spezialversionen für den pion A100 kann nur mit spezieller Pro-
schneller geworden, durchbrechen die Exascale-Supercomputer Frontier haben grammierung ansatzweise mithalten [1].
Exaflops-Mauer aber weiterhin nicht. Ein je acht externe Infinity-Fabric-Links (IFIS), Normalerweise schafft er 9,7 TFlops FP64,
Exaflops sind eine Trillion Gleitkomma- um speicherkohärent mit Rechenbeschleu- mit seinen Tensor-Kernen (vergleichbar
operationen pro Sekunde, also eine 1 mit nigern des Typs Instinct MI250X zu kom- mit den Matrix-Cores) 19,5 TFlops. Im Ten-
18 Nullen oder 1 Milliarde Milliarden. munizieren. Ein 2P-Rack-Einschub be- sor-Core-Spezialformat TF32 (eigentlich
Neue Rechner müssen also her und kommt dann insgesamt acht MI250X und ein 19-Bit-Hybrid) ist der A100 mit 312
momentan sieht es so aus, als mache die bildet einen gemeinsamen Speicherpool. TFlops nicht sehr weit hintendran, beim
Maschine des Oak Ridge National Labo- KI-Inferencing mit INT4-/INT8-Genauig-
ratory namens Frontier das Rennen – so- Instinctgetrieben keit sowie mit dünnbesetzten Matrizen
fern da nicht der Tianhe-3 aus China da- Das Rechenleistungsherzstück von Fron- („Sparsity“) auf dem Papier sogar vorn.
zwischenfunkt (siehe S. 42). Derzeit be- tier sind die MI250X-Beschleuniger. In Intels ganzer, aber stark verspäteter
findet sich Frontier im Aufbau und soll ab der Bauform OCP Accelerator Module Packaging-Stolz Ponte Vecchio mit rund
dem nächsten Jahr der Wissenschaft die- (OCP steht für Open Compute Project) 100 Milliarden Transistoren verteilt auf
nen. Ob das System rechtzeitig zur No- und mit Flüssigkühlung verheizen sie bis 47 „Tiles“ kommt nur mit deutlich mehr
vember-Ausgabe der Top500-Liste der zu 560 Watt; mit Luftkühlung sind noch Aufwand auf annähernd vergleichbare
schnellsten Supercomputer fertig wird Grundwerte: Rund 45 TFlops sollen seine
oder ob man versucht, nur mit einem Teil- Vektoreinheiten derzeit schaffen – egal, ob
aufbau den bisherigen Spitzenreiter zu mit FP32 oder FP64. Dürfen die Matrix-
entthronen, lesen Sie in der kommenden Engines rechnen, sind es bei reduzierter
Ausgabe 26/2021 der c’t. AMD-Chefin Präzision 8- (TF32) bis 16-mal (FP16/
Lisa Su verriet derweil schon etliche De- BFloat16) so viel, bei INT8 kommt noch
tails über die Komponenten. einmal Faktor 2 drauf. (csp@ct.de) 
Bild: YouTube/AMD

Spezial-Epycs mit V-Cache


Während die HPE-Sparte Cray den Super- Literatur
computer als Gesamtsystem aufbaut und
[1] Carsten Spille, Alles auf KI, Nvidias Ampere-Archi-
den schnellen Interconnect Slingshot Dra- AMD-Chefin Lisa Su zeigt den tektur fürs Rechenzentrum im Detail, c’t 13/2020,
gonfly beisteuert, stammen die wesentli- MI250X-Chip. S. 132

© Copyright by Heise Medien.

48 c’t 2021, Heft 25


Persönliches PDF für Armando Urquiola Cabrera aus 10439 Berlin

Das könnte Ihnen auch gefallen