1Dr. Christian Lantwin, Product Marketing ManagerNEC ESS
Die SX-Series: Eine Erfolgsstory mit Fortsetzung
2European Supercomputer SystemsEuropean Supercomputer Systems
Was bisher geschah:
Ende 1994 wird die SX-4 als erste CMOS Implementierung eines PVP Supercomputers angekündigt
Alle Welt glaubte, daß die Zukunft Architekturen mit Standardkomponenten gehören wird
3European Supercomputer SystemsEuropean Supercomputer Systems
Heute:
Die SX-4 ist mit ca. 120 Installationen mit mehr als 900 CPUs die erfolgreichste Maschine ihrer Art
PVP ist wieder auf Erfolgskurs höchste Effizienz in Anwendungen zukunftsträchtige Technologiebasis ausgewogenes, weil maßgeschneidertes
Konzept
4European Supercomputer SystemsEuropean Supercomputer Systems
Effizienz & Leistung
Die SX-4 demonstriert in Anwendungen bis zu 80 % und mehr Leistung im Parallelbetrieb
Grundlagen ausgewogene Architektur konsequente Implementierung
5European Supercomputer SystemsEuropean Supercomputer Systems
Memory PerformanceSTREAM Memory Bandwidth --- John D. McCalpin, [email protected] to Sat Jun 14 09:17:22 PDT 1997
All results are in MB/s --- 1 MB=10^6 B, *not* 2^20 B
------------------------------------------------------------------Machine ID ncpus COPY SCALE ADD TRIAD------------------------------------------------------------------NEC_SX_4 32 434784.0 432886.0 437358.0 436954.0
NEC_SX_4 16 247440.0 247343.0 250262.0 250231.0NEC_SX_4 8 126084.0 126084.0 126725.0 126724.0NEC_SX_4 4 63537.0 63536.0 63694.0 63692.0NEC_SX_4 2 31887.0 31886.0 31925.0 31925.0NEC_SX_4 1 15983.0 15984.0 15989.0 15898.0
Cray_T932_321024-3E 32 310721.0 302182.0 359841.0 359270.0Cray_T932_321024-3E 16 160263.0 154880.0 193335.0 194562.0Cray_T932_321024-3E 1 10653.0 10221.0 13014.0 13682.0
Cray_J932 32 19007.0 18944.1 19993.9 18870.4Cray_J932 16 16298.2 15851.5 15657.6 14995.9Cray_J932 1 1433.6 1408.6 1260.8 1270.0
SGI_Origin_2000_2 2 351.0 365.0 392.0 413.0
6European Supercomputer SystemsEuropean Supercomputer Systems
Streams Benchmark TRIAD
1 24
816
32
J90
T90
SX-4
15898 3192563692
126724
250231
436954
13682 26117 5071899343
194562
350270
1270 2527.6 4657.6 8941.3 14995.9 18870.4
0
50000
100000
150000
200000
250000
300000
350000
400000
450000
MB/s
# CPU
Streams Benchmark: TRIAD
J90
T90
SX-4
7European Supercomputer SystemsEuropean Supercomputer Systems
Die Skalierungsperspektive
Mit der SX-4 ist der leistungsfähigste Clusteransatz verwirklicht 5 Standorte weltweit nutzen erfolgreich
MultiNode Systeme mit bis zu 128 Vektor-CPUs
Teraflopscomputing auf Vektorbasis ist reale Option
8European Supercomputer SystemsEuropean Supercomputer Systems
Und in Zukunft...
„Vector Supercomputing has always offered the ultimate in processor performance“SGI Website, 16. Juni 1998
aber auch:„A Supercomputer is a high performance memory with a fast CPU attached“sinngemäß S. Cray
9European Supercomputer SystemsEuropean Supercomputer Systems
Per
form
ance
Leistungscharakteristik von Vektor und Skalarprozessoren
Data Size
Applications
Applications
Vector Processing
Scalar Processing
Cache Size Limitation
Warum eigentlich Vektor?Warum eigentlich Vektor?
10European Supercomputer SystemsEuropean Supercomputer Systems
The System You Have Heard About
11European Supercomputer SystemsEuropean Supercomputer Systems
Welcomes You to the Futureof High Performance Supercomputing
12European Supercomputer SystemsEuropean Supercomputer Systems
Das ProduktDie logische Fortführung der SX-4 SeriesSetzt Renaissance des PVP Markets fort
Anwender wählen PVP, weil sie JETZT funktionieren
SX Systeme machen PVP Technologie erschwinglich
Bietet eine brauchbare, flexible Architektur Single Node Shared Memory Modell Multi Node Distributed Memory Modell
13European Supercomputer SystemsEuropean Supercomputer Systems
SpezifikationenSingle Node
Bis zu 128 GFLOPSaus 16 x 8 GFLOPS Prozessoren
Bis zu 128 GBytes Shared Main Memory
Multi Node Bis zu 4 TFLOPS Bis zu 32 Nodes über SX-5 IXS Bis zu 512 Processors Bis zu 4 Tbyte Hauptspeicher
14European Supercomputer SystemsEuropean Supercomputer Systems
CMOS VLSI Technologie0.25 Micron mit 5 Layern
Commodity, High Yield Geometry Wirtschaftliche Herstellung
64 Mbit SDRAM Memory Chips kostengünstige High-end Standardkomponenten Leistungsfähigkeit durch sehr hohe Bankzahl
15European Supercomputer SystemsEuropean Supercomputer Systems
Packaging TechnologiesChip Size Package
25 mm sq 1600+ Pinouts 0.5 mm grid
Multi Chip Package 225 mm sq 11,000+ Pinouts 32 Layers
16European Supercomputer SystemsEuropean Supercomputer Systems
Single Node Processor MAX 16 CPUs
XMU
MA
IN
ST
OR
AG
E
SRCACHE
MASK
VR
MASK
MULT
ADD/SHIFT
16 units
LOAD&
STORE
DIVIDE
IOP
SCALAR
UNITEXECUTION
LOGICAL
17European Supercomputer SystemsEuropean Supercomputer Systems
Vector Einheit: ArchitekturMultiple parallele Vektor Pipelines64 SX-4 kompatible Pipelines
Add-Shift x 16 Multiply x 16 Logical x 16 Divide x 16
Jede Instruktion nutzt 16 Pipelines Automatische Hardware Parallelität
Piplines arbeiten unabhängig voneinander
18European Supercomputer SystemsEuropean Supercomputer Systems
Pro Processor8 GFLOPS Peak Vector500 MFLOPS Peak Scalar
Mehr als 2 X SX-4 Series skalaren Durchsatz
• Weniger Konflikte der Skalareinheit
• Extra Load Path
• Double Issue Rate
64 GB / sec Speicherbandbreite
19European Supercomputer SystemsEuropean Supercomputer Systems
Memory ArchitectureVoller Non-blocking CrossbarSingle Node
128 GB Kapazität 1 TB/s Bandbreite 1 CPU auf 2 MMU Einheiten
• Jede MMU Einheit hat 4 GB,1K Banks, 32 Gbytes/sec• 64 Gbytes/second verfügbar für jede CPU
Die höchste im Markt verfügbare Speicherleistung !
20European Supercomputer SystemsEuropean Supercomputer Systems
Streams Benchmark TRIAD
63592 127700254768
506896
1000924
13682 26117 50718 99343 194562
1270 2527.6 4657.6 8941.3 14995.90
200000
400000
600000
800000
1000000
1200000
MB/s
1 2 4 8 16
J90
T90
SX-5
#CPUs
Streams Triad
(SX-5 Werte extrapoliert)
21European Supercomputer SystemsEuropean Supercomputer Systems
The Single NodeSDRAM technology32,768 64-bit banks32 4-GB cards32 GB/s per card
IOPIOP
16 x 8 GFVector Processors
3.15 GB/s x 4 IOPs
1 CPU : 2 MMU(64 GB/s)
22European Supercomputer SystemsEuropean Supercomputer Systems
Multi Node SpezifikationenMaximal 512 Prozessoren
16 Prozessoren per Node Maximum 32 Node Maximum
Maximal 4 TB HauptspeicherIXS Internode Crossbar
256 GB/s Gesamzbandbreite 8 GB/s Bandbreite Node zu Node
23European Supercomputer SystemsEuropean Supercomputer Systems
.......
Max.16 CPU
....
éÂãLâØ
CPU CPU CPU
MM
••••
....
éÂãLâØ
CPU CPU CPU
MM
••••
....
éÂãLâØ
CPU CPU CPU
IXS Internode Crossbar
The Multi Node
8 GB/s x 2
IOPMM
IOP••••IOPIOP IOP IOP
MMIOP
••••IOPIOP IOP IOP
MMIOP
••••IOPIOP IOP
Node #1 Node #2 Node #32
MM
24European Supercomputer SystemsEuropean Supercomputer Systems
Japanische Konzepte haben Zukunft
*
*Aber Effizienz ist ein Muß!