AMD wirft die zweite Generation seiner Epyc-Server-CPUs mit bis zu 64 Kernen, 128 PCIe-4.0-Lanes und achtkanaligem DDR4-3200-Speicherinterface in die Schlacht. Dabei geht es um höhere Marktanteile im lukrativen Server-Geschäft, die man Erzkonkurrent Intel abjagen will. Viele Server-Hersteller, darunter Dell, HPE, Lenovo, Asus, Gigabyte, Supermicro und Tyan stehen Gewehr bei Fuß mit vielen neuen Systemen und Mainboards.

19 Epyc-CPUs mit einer 2 als letzter Ziffer der Typennummer stellen anfangs das vergleichsweise übersichtliche Portfolio für die Plattform SP3 dar, fünf davon mit "P"-Kürzel für Single-Socket-Server. Es gibt die Epyc-7002-Modelle ab 450 US-Dollar, sie haben 8 bis 64 Kerne mit 2-fach-SMT und allesamt je 128 PCI-Express-4.0-Lanes sowie acht DDR4-Speicherkanäle. Damit binden sie bis zu 4 TByte RAM pro CPU-Fassung an (bisher waren es 2 TByte). Details finden Sie in der Tabelle am Ende des Artikels.

AMD Epyc 7002 "Rome": Übersicht (Bild: AMD)

In einzelnen Durchsatztests auf einem "Daytona"-Referenzsystem mit zwei Epyc 7742 haben wir Steigerungen um mehr als Faktor 4 gegenüber Epyc 7601 gemessen. Auch in Blender & Co erzielt AMDs neues schnellstes Pferd im Stall Top-Werte. Tests mit der SpecCPU 2017 laufen zurzeit noch.

Einen ausführlicheren ersten Test zu AMDs Epyc-Topmodell 7742 lesen Sie in der c't 18/2019, ab Sonnabend, den 17. August im Handel.

Zens neue Kerne

AMD-Chefin Lisa Su zeigte bereits auf dem Next-Horizon Techday im November 2018 einen Epyc-2-Prototypen. (Bild: c't/Carsten Spille)

Die Epyc-7002-Prozessoren, Codename Rome, tragen die neue Zen-2-Architektur in die Serverwelt. Die Architektur hat AMD an allen Ecken und Enden aufgebohrt, wie bereits zu deren Vorstellung und beim Test der Ryzen-3000-CPUs ausführlich dargelegt.

Mit Ryzen 3000 teilt sich Epyc 7002 den grundlegenden Aufbau. Hier wie dort setzt AMD voll auf die Chiplet-Methode, um die Compute- und I/O-Dies zu trennen. Allerdings tragen die Server-Prozessoren statt zwei bis zu acht mit 7-Nanometer-Technik hergestellte Compute-Chiplets (CCD) mit jeweils acht Kernen. Von denen sagt AMD, dass sie zwar weitgehend, aber nicht vollständig denen im Ryzen 3000 entsprächen. Weitere Details dazu wollte man vorab allerdings noch nicht preisgeben.

AMD Epyc 7002 "Rome": Infinity Fabric (Bild: AMD)

Das I/O-Die ist in 14-nm-Technik hergestellt und beim Epyc mächtiger als beim Ryzen, muss es doch weit mehr CCDs (und die jeweils zwei darin enthaltenen Compute Complexes CCX) über das Infinity Fabric miteinander verbinden und zusätzlich satte acht (statt zwei) Speicherkanäle sowie mehr PCIe-Lanes bereitstellen.

Eine wesentliche Neuerung ist die drastisch erhöhte Rechenleistung. AMD hat diese nicht nur durch Verdoppelung der Kernzahl erreicht, sondern auch jeden einzelnen Kern kräftig aufgebohrt und poliert. Den Löwenanteil der Rechenleistung erbringen die AVX-fähigen Floating-Point-Einheiten, die nun auch AVX2-Instruktionen in einem Rutsch – also doppelt so schnell wie die Epyc 7001 – berechnen können. Dazu musste AMD auch verschiedene Caches und interne Datenpfade deutlich beschleunigen respektive verbreitern.

Zusätzlich hat man durch eine verbesserte Sprungvorhersage mit Tagged Geometric History Length (TAGE), doppelt so große Op-Caches, eine dritte Adress-Generation-Unit (AGU) und doppelt so schnelle L1-Caches einiges an Leistung pro Takt herausholen können.

Einfache NUMA

Der Speicherzugriff (Memory Access, MA) erfolgt wie bei Servern mit mehreren Chips oder Sockeln üblich ungleichmäßig – non-uniform, kurz NU –, da nicht jeder Speichercontroller direkt auf jeden angeschlossenen Speicherriegel zugreifen kann.

AMD Epyc 7002 "Rome": NUMA (Non-Uniform Memory Access) (Bild: AMD)

Da ein Epyc 7002 alle Speicherzugriffe über den I/O-Chip durchführt, ist die NUMA-Komplexität gegenüber der Vorgängergeneration deutlich gesunken. Epyc 7001 hatte noch zwei Speicherkontroller an jedem der vier Core/Compute Complexes, sodass die Adressierung entweder direkt, über einen Hopser zu einem Nachbar-Die auf demselben Package oder in den anderen Sockel erfolgte. Dort war dann die Zieladresse entweder direkt erreichbar oder einen weiteren Hop entfernt (8 NUMA Domains, 3 NUMA-Distances). Update: Korrekt sind 8 Domains, 3 Distances.

Mit Epyc 7002 vereinfacht sich die NUMA-Frage auf zwei NUMA-Domains: Entweder der Speicher ist am lokalen I/O-Die angebunden oder am anderen (2 NUMA-Domains/Distances). Dadurch wird die Latenz zum direkt verbundenen Speicher zwar ein wenig höher, aber die zum entfernteren Speicher deutlich kürzer und vor allem beinahe vorhersagbar. Minimale Latenzunterschiede gibt es noch, je nachdem an welchen Speichercontroller auf dem I/O-Die die Zugriffe über das Infinity Fabric weitergereicht werden müssen.

Mit acht Speicherkanälen, die bei einem DIMM pro Kanal bis zu DDR4-3200 vertragen, ist AMDs Epyc 7002 Intels Xeon Platinum 8200 in Sachen Transferrate und Speicherausbau bei herkömmlichen RAM deutlich überlegen, denn der Xeon bringt nur sechs Kanäle pro Sockel und DDR4-2933 mit. Bei den Latenzen kann Intels monolithisches Design allerdings noch seine Vorteile ausspielen.

Volle Features

Mit nur 19 Modellen deckt AMD die Spannbreite von 8 bis 64 Kernen in Ein- und Zwei-Sockel-Systemen ab. Da AMD auf weitere Differenzierung außer Kernzahl, Takt und TDP verzichtet, kommt man so mit weit weniger Modellen als Intels Xeons aus, bei denen nahezu jedes Feature einzeln vermarktet wird.

Alle Epyc 7002 haben je acht Speichercontroller für volle 4 TByte RAM pro Sockel sowie die kompletten 128 PCIe-Lanes gegenüber Intels 48 Lanes, die zudem im nur halb so schnellen PCIe-3.0-Standard arbeiten. Damit bieten sich die Epyc-Server auch für Storage-Systeme mit vielen NVMe-Drives förmlich an, zumal jeder x16-Link sich feinkörnig aufspalten lässt und etwa vier x4-NVMe-SSDs mit doppelt so hoher Transferrate wie bei PCIe 3.0 anbinden kann. Weiterhin hat ein Single-Socket-Epyc-Server ebenso viele PCIe-Lanes wie ein Dual-Socket-System, weil letztere einen Teil der PCIe-Lanes in den Infinity-Fabric-Modus zur schnellen Kopplung der beiden Prozessoren umwidmen.

AMD Epyc 7002 "Rome": Designziele (Bild: AMD)

Unter anderem deshalb und wegen der enormen Zahl an CPU-Kernen gibt es weiterhin viele Single-Socket-Epyc-Server, die viele ältere Dual-Socket-Systeme ersetzen können. Dadurch lassen sich in manchen Fällen Software-Lizenzgebühren sparen, die von der Anzahl der physischen Prozessoren im Server abhängen.

PCIe 4.0 ist wie beim Ryzen 3000 nur mit neuen Server(-Mainboards) nutzbar, nur dort ist auch DDR4-3200 möglich. In bereits vorhandenen Epyc-7001-Servern läuft der Epyc 7002 aber auch, sofern der Server-Hersteller ein BIOS-Update liefert und die TDP passt.

Fehlt was?

AMD hebt beim Epyc 7002 abermals hervor, dass die Zen-Prozessoren für deutlich weniger der bekannt gewordenen Sicherheitslücken anfällig sind. So seien Zombieload, TLBleed und Meltdown überhaupt kein Thema und andere Lücken wie Spectre v2 habe man deutlich entschärft.

Doch auch beim Epyc 7002 ist nicht alles Gold was glänzt. Gegenüber Epyc 7001 hat AMD die TDP der Spitzenmodelle erhöht und lässt sie nun bis zu 225 Watt verbrauchen; optional sind sogar 240 Watt konfigurierbare TDP möglich. Dabei schafft der Epyc 7002 jedoch für die Kernzahl beachtliche Taktfrequenzen.

AMD Epyc 7002 "Rome": Security (Bild: AMD)

AMD konzentriert sich bei den Zen-2-Rechenwerken zudem auf (sehr gute) Hausmannskost: Aktuelle Hype-Features wie spezielle Befehle zur Beschleunigung von Machine Learning fehlen und auch AVX ist noch ausbaufähig. Für solche Fälle bietet Intels Cascade-Lake-Xeon mit VNNI und AVX512F bessere Optionen, doch viele Firmen nutzen für Machine Learning dedizierte Beschleuniger wie FPGAs oder GPUs, die AMD in Form der PCIe-4.0-fähigen Radeon Instinct MI50 und MI60 ebenfalls im Programm hat. Mit dem aktuellen Xeon "Cascade Lake" ist zudem Intels proprietäres Optane DC Memory nutzbar.

AMDs Epyc-7002-Serverprozessoren Modell Kerne Threads Basistakt

Max. Boosttakt

TDP

cTDP min-max

L3-Cache

Preis

7742 64 128 2,25 GHz

3,4 GHz 225 Watt 225 – 240 Watt 256 MByte 6950 US-$ 7702 64 128 2,0 GHz 3,35 GHz 200 Watt 165 – 200 Watt 256 MByte 6450 US-$ 7702P 64 128 2,0 GHz 3,35 GHz 200 Watt 165 – 200 Watt 256 MByte 4425 US-$ 7642 48 96 2,3 GHz 3,3 GHz 225 Watt 225 – 240 Watt 256 MByte 4775 US-$ 7552 48 96 2,2 GHz 3,3 GHz 200 Watt 165 – 200 Watt 192 MByte 4025 US-$ 7542 32 64 2,9 GHz 3,4 GHz 225 Watt 225 – 240 Watt 128 MByte 3400 US-$ 7502 32 64 2,5 GHz 3,35 GHz 180 Watt 165 – 200 Watt 128 MByte 2600 US-$ 7502P 32 64 2,5 GHz 3,35 GHz 180 Watt 165 – 200 Watt 128 MByte 2300 US-$ 7452 32 64 2,35 GHz 3,35 GHz 155 Watt 155 – 180 Watt 128 MByte 2025 US-$ 7402 24 48 2,8 GHz 3,35 GHz 180 Watt 165 – 200 Watt 128 MByte 1783 US-$ 7402P 24 48 2,8 GHz 3,35 GHz 180 Watt 165 – 200 Watt 128 MByte 1250 US-$ 7352 24 48 2,3 GHz 3,2 GHz 155 Watt 155 – 180 Watt 128 MByte 1350 US-$ 7302 16 32 3,0 GHz 3,3 GHz 155 Watt 155 – 180 Watt 128 MByte 978 US-$ 7302P 16 32 3,0 GHz 3,3 GHz 155 Watt 155 – 180 Watt 128 MByte 825 US-$ 7282 16 32 2,8 GHz 3,2 GHz 120 Watt 120 – 150 Watt 64 MByte 650 US-$ 7272 12 24 2,9 GHz 3,2 GHz 120 Watt 120 – 150 Watt 64 MByte 625 US-$ 7262 8 16 3,2 GHz 3,4 GHz 155 Watt 155 – 180 Watt 128 MByte 575 US-$ 7252 8 16 3,1 GHz 3,2 GHz 120 Watt 120 – 150 Watt 64 MByte 475 US-$ 7232P 8 16 3,1 GHz 3,2 GHz 120 Watt 120 – 150 Watt 32 MByte 450 US-$

Alle Epyc-7002-CPUs verfügen zudem über 8 DDR4-3200-Speicherkanäle sowie 128 PCIe-4.0-Lanes.

AMD zahlte Reisekosten und Hotel für den Autor zur Vorabpräsentation der Epyc 7002. (csp)