höchstleistungsrechnen in deutschland in forschung, hochschule und industrie chancen und nutzen uwe...
TRANSCRIPT
Höchstleistungsrechnen in Deutschland in Forschung, Hochschule
und IndustrieChancen und Nutzen
Uwe HarmsHarms Supercomputing Consulting
Themen:
- warum Supercomputing ?- Gute alte Zeit- Rechnerarchitekturen- Top500 in Deutschland- Vergleich weltweit- Deutsche Zentren - industrieller Einsatz- Chancen - Nutzen- Zusammenfassung
Supercomputing oder Höchstleistungsrechnen
Numerische Simulation versus Versuchmathematisches Modell eines technischen/physikalischen Problemsnumerisches Verfahren zur Lösung anwendenÄnderungen am Modell und neue Rechnung
-> es ist einfach, Parameterstudien durchzuführen
Beispiel Optimierung eines Strömungskanals (HPSC 97)Experiment für eine Konfiguration 7000 DM, 4.5 Tage8 Variationen: 56 000 DM, 36 Tage
numerische Simulation einer Konfiguration 1400 DM, 2 Tage8 Variationen: 11200 DM, 16 TageKostenreduktion 79%, Zeitreduktion 66%
kommerzielle DV
SAP R/3 Grossanwendungen, SD-Benchmark 607 000 Bestellungen/h > 36000 Mitarbeiter, ca 200 Prozessoren
Datamining in TB-Datenbanken
Datawarehousing
Gute Alte Zeit
1973 - 1988/89 Cyber 76 5 MFlop/s(64K/250K Hauptspeicher 60 bit-Worte, 05/2 MB LCM, 1.4 GB Platte)
Vektorrechner
1976 Cray 1 160 MFlop/s, 16 MB Hauptspeicher
1985 Fujitsu/Siemens VP200 535 MFlop/s, 64 MB
1999 Fujitsu Siemens VPP5000 9400 MFlop/s, 16 GB
-> 512 Proz 4.8 TFlop/s, 8TB NEC SX-5 8000 MFlop/s, 8 GB
-> 512 Proz 4 TFlop/s, 4 TB
Hitachi SR8000 8000/12000 MFlop/s, 16 GB
Standardprozessoren - off-the-shelf RISC-Prozessoren
Hewlett-Packard PA 86000/560 MHz 2240 MFlop/s PA 8700/800 MHz 3200 MFlop/s (2001) Compaq Alpha 720 MHz 1440 MFlop/s IBM Power 3 200 MHz 800 MFlop/s SGI R12000 300 MHz 600 MFlop/s SUN ULTRASparc 2 450 MHz 900 MFlop/s
Intel Pentium III (32 Bit) 1000 MHz 1000 MFlop/s (kostet 990 US$) Itanium (Merced) 750 MHz 3000 MFlop/s (6000 MFlop/s)
heutige Rechnerarchitekturenmassiv-parallele Systeme (MPP): Cray T3E (Alpha), SGI SN1 (MIPS), IBM RS/6000 SP PowerPC
symmetrischen Multiprozessorsysteme (SMP) und Cluster:Compaq GS320 (32 Proz.), HP V-Class (32), IBM RS/6000 SP (24), SGI Origin (128), SUN E10000 (Starfire) (64)
parallele Vektorprozessoren (PVP) und Cluster:Fujitsu Siemens VPP5000, Hitachi SR8000 (?), NEC SX-5, Cray Inc. T90, SV1
Cluster of Workstations (COW):Fujitsu Siemens hpcLine auf Intel Pentium Basis mit SCI InterconnectCompaq Alpha-Cluster mit Myrinet oder Quadrics Interconnect
Top500(J. Dongarra, H. Meuer, E. Strohmaier)
Linpack-Benchmark: LU-Faktorisierung (Strassen-Algorithm) Hersteller Rechner Linpack-Leistung Rmax in GFlop/s (Milliarden 64-Bit
Rechenoperationen pro Sekunde) Land Installations Jahr Zahl der Prozessoren Rpeak Nmax N1/2
Leistungssteigerungen seit 1993 in Deutschland
June 1993
Nov. 1999
%Total Systeme 59 64 108
Rmax 69 5363 7772
Univers. Systeme 27 9 33 Rmax 34 842 2476
Forschung Systeme 18 6 78
Rmax 21 1811 8624
Industrie SystemeRmax
108
462515
46031438
Behörde SystemeRmax
2
90
Hersteller SystemeRmax
1
105
Weltweite Leistungssteigerung seit 1993
June 1993
Nov 1999 %Total Rmax 1168 50969 4364
Academia
Rmax 350 7358 2102
Research
Rmax 500 23420 4684
Industry Rmax 200 12741 6370
Classified
Vendor
Rmax 118 7451 6314
Classified 4438
Top500 Comparison world-wide
World
USA/CDN Japan
Europe
Deutschl.
Total Systems
500 277 55%
57 11% 152 30% 64
Rmax 50969 30763 60%
6480 13%
12810 25%
5363
Academic
Systems
Rmax
70 14%7358 19%
22 4%1487 29%
20 4%3195 6%
27 5%2636 5%
9842
2%Researc
hSyste
msRmax
128 26%23420
46%
71 14%15602
31%
29 6%2881 6%
24 57%4502 9%
6 1%1811
4%Industry Syste
msRmax
246 49%12741
25%
141 28%
7169 14%
7 1%281 1%
89 18% 4849
10%
46 9%2515
5%Classifi
edVendorGovern
m
Systems
Rmax
56 11%7451
15%
43 9%6505 13%
1 123
12 2%823 2%
3 1%195
Rechnerarchitekturen in Deutschland
MPP Vector SMP ClusterUniversität 4 3 3Forschung 5 1
Industrie 21 3 22 Gov.
+Herst.
1
2
IBM RS/6000 SP als MPP gezählt
Deutsche Höchstleistungsrechenzentren
1996 Wissenschaftrat:2 bis 4 deutsche Höchstleistungsrechenzentren- Forschungszentrum Jülich, J. v. Neumann Inst. of Computing- Max-Planck-Gesellschaft (IPP Garching)
- HWW Stuttgart (HLRS)- HLRB München, Leibnizrechenzentrum- in Diskussion HLRN Nord in Hannover/Berlin
Forscher aus Deutschland können nach fachlicher Genehmigung dieRechner anteilig nutzen Problem der Länderhoheit beseitigt
Weltklasse Forschungszentren
Computer(Prozessoren)
Rmax Total
DWD Wetterdienst
Cray T3E 1200 (812)
671
Max-Planck Cray T3E (812)
355
Forsch. Zentr. Jülich
Cray T3E 1200(540)
448
Cray T3E (540)
235
Cray T90 (12) 22 1709 = 94% of Research
Höchstleistungsrechenzentrum für Wissenschaft und Wirtschaft Betriebsgesellschaft in Stuttgart
Computer Rmax Shares
Univ. Karlsruhe IBM SP2 (256)IBM SP (64)
4442
16.6
Univ. Stuttgart Cray T3E (540) 341 16.6%
NEC SX-4 (40)NEC SX-5e (2x16),
32/48 GB RAM
77123
debis Systemhaus Cray SV1, IBM SP, HP N-Klasse
40%
Porsche AG Cray T90 10%
HLRB am Leibnizrechenzentrum
Ausgesucht: Hitachi SR8000 F1, 1. Quartal 2000Forderungen: Spitzenleistung 1.5 - 2 TFlop/s, sustained 0.4 TFlop/s, Speicher 750 - 1000 GByte, Plattenspeicher 10 TByte, Bänder 600 TByteKosten: 1999 10 Mio DM2000 30 Mio DM2001 20 Mio DMBetriebskosten über 6 Jahre 30 Mio DMWartung : 21.5 Mio DM, Energie: 5 Mio DM, Zeitpersonal: 3.5 Mio DMFinanzierung: 60 Mio DM Bayern (Privatisierungserlöse), 30 Mio Bund
Installation: 1. Quartal 2000, 2. Schritt 2002, Laufzeit bis Mitte 2005
Hitachi SR8000-F1
Anfangskonf. 2000
Endausbau 2002
SMP-Knoten 112 168
Prozessor/Knoten 8 (9 physisch)
8 (9 physisch)
Prozessoren 896 1344
Spitzenleistung SMP
12 GFlop/s 12 GFlop/s
Spitzenleistung Syst.
1344 GFlop/s
2016 GFlop/s
Rmax (Linpack) 1029 GFlop/s 1540 GFlop/s (?)
LRZ-BenchmarkEffizienz
>400 GFlop/s >600 GFlop/s
industrielle Nutzung
Banken 13
Telekom + Töchter
12
Chemie 7
Automobilindustrie
5
Mobilfunk 2
diverse 6
Filmindustrie 1
Automobilindustrie
Volkswagen:12 NEC SX-5 Prozessoren, 48 GFlop/s Spitzenleistung ->Crash46 HP N4000 440 MHZ 81 GFlop/s -> skalare Anwendungen,Nastran, Strömungsrechnung (CFD)SGI Workstation zum Pre- und Postprocessing
Crash -> 10 Stunden turnaroundunterschiedliche Crash-Vorschriften in den LändernDanner-Crash 15 km für die VersicherungTank-Flüssigkeit beim CrashAirbag-Sensorik nur Plattform -> 3.5 Tage
etwa 300 bis 400 reale Crash pro Jahr, z.T. zufallsartig aus der Produktion
AUDI AG:Fujitsu Siemens VPP300/16 +VPP5000/4 mit je 38.4 GFlop/s SUN E10000 32 Prozessoren 170 CAE sites mit SGI Octanes 1/2 Prozessoren als Arbeitsplätze7 SGI Origin 2000 mit 40 R12000 Prozessoren
Benchmark:StarCD (CFD) 16 Proz. O2000 = 1 Proz. VPP5000 (4100 Sek.)Crash 4 Proz. O2000 = 51500 Sek
1 Proz. VPP300 = 5400 Sek (Fakt.2.5) 1 Proz. VPP5000 = 1100 Sek (Fakt. 12)
DaimlerChrysler
Fujitsu Siemens hpcLine 16 Knoten = 32 Prozessoren für elektromagnetische Verträglichkeit mit dem Programm FEKO
Cluster of Workstations und Workstation Cluster
Fujitsu Siemens hpcLine (COW):Starter Kit 8 nodes = 16 Pentium III 650 MHz, 8x512 MB RAM,8x20 GB Platte, SCI (Scalable Coherent Interface) + SoftwareDM 130.000 + MwSt
Workstation Cluster:vorhandene Intel- oder RISC-Workstations als Parallelrechner nutzenwenn Applikationssoftware das ermöglicht
TTN - europ. Projekt
Zugriffsmöglichkeiten auf Supercomputer
1. Hochschule/Forschung:Projekt UNICORE und UNICOREPlus gemeinsame Oberfläche zum Zugriff, Projektleitung Forschungszentrum Jülich
2. Industrie: ASP Application Service Provider- debis Systemhaus HWW-Rechner mit Zugriff über das Web NEC etwa 150.- DM pro CPU Stunde, www.hpc.portal
- Work-center, Bremen (Technische Hochschule) CAD, CAE, Datenbankanwendungen und mehrHP-Rechner, z.B. SMP der V-Klasse, www.work-center.de
Literatur:Top500 Liste: http://www.top500.org im Juni zur Supercomputer Tagung Mannheimim November zur IEEE Supercomputing Tagung, USA
Selektionsmöglichkeiten
Reports und Analysen über die Top500 in Primeur:
URL:http://www.hoise.com/analysisURL:http://www.hoise.com/primeur