30-nov-2002r. mankel, von der nd zum grid - computing in der hochenergiephysik1 computing in der...
TRANSCRIPT
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 1
Computing in der HochenergiephysikVon der NorD zum Grid
Rainer Mankel
DESY Hamburg
Dortmund, 30-Nov-2002
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 2
Übersicht
Die Vergangenheit: ruhe sie in Frieden...
Die Gegenwart
Computing eines Collider-Experiments
Wie man Commodity Hardware zähmt
Massenspeicher im Petabyte-Bereich
Internet-fähige Kollaborationsanwendungen
Die Zukunft auf dem Grid
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 3
Computing an der UniDo vor 25 Jahren
• Eine IBM/370 mit 20 interaktiven Terminals(Time Sharing Option)
• Hollerith-Lochkartenstanzung in einer kryptischen Jobkontrollsprache (JCL)
• Lochkarten-Kurierservice (1x taeglich) zum Dispatcher im “AVZ”
• Turnaround 1-2 Tage Taschenrechner
Lochkarte
Wann konnte man nach Hause gehen?
• Wenn man kein “privilegiertes” Terminal reserviert hatte
• Wenn der Kurier für heute schon weg war
• Wenn die paar kByte Filespace vollwaren (also eigentlich immer...)
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 4
Beginn einer Aera: die Nord...
• Ein komplettes Mainframe-System (!) für zwei Lehrstühle
• Betriebssystem SINTRAN-III
• Editor “MOPS”
• 2 Wechselplattenlaufwerke
• 2 Magnetbandlaufwerke (6250 dpi)
• CPU Leistung eines ND-500 Prozessors entspricht etwa der eines Intel 486DX4-Prozessors
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 5
Die ND (cont’d)
geballte 300 MB Plattenspeicher
ermöglichen neueste Physikresultate
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 6
Der Terminalraum: Ort des Dialogs
• Wer früh aufsteht, bekommt das Fullscreen-Terminal...
• Tippen bis der Wachhund kommtSchreibringe Cut & Paste
Wann konnte man nach Hause gehen?
• Bei “FATAL ERROR FROM SWAPPER”
• Wenn “NERO” oder “Messerli” die Maschine komplett blockierten
• Wenn das Wechselplattenlaufwerk im laufenden Betrieb geöffnet worden war
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 7
DESY-Computing anno Dazumal
• MVS3, Newlib, IPS Grafik System, Ataris mit IBM-3270-Emulation...
Wann konnte man nach Hause gehen?
Wenn die DESY IBM abstürzte
Wenn jemand die 3270-Emulator-Diskette zum Atari verschlampt hatte
Wenn jemand aus dem Experiment schon morgens (!) das CPU-Tagesbudget verprasst hatte
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 8
Computing in der Hochenergiephysik heute
50 M 200 M Events/year
Interactive
Data Analysis
Tape storage incr.
20-40 TB/year
~450 Users Disk storage
3-5 TB/year
Data mining
MC production
Data processing/
reprocessing
O(1 M) detector channels
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 9
Technologien: Generelle Übergänge
IRIX,
HP-UX, …
DM, Lit, Pta, ...
Mainframe, SMP Commodity hardware
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 10
Vom SMP Cluster zur PC Farm• SGI Challenge XL Maschinen haben ausgedient, z.B. bei ZEUS im Frühjahr
2002
• Vendor-Systeme unwirtschaftlich Commodity Komponenten
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 11
Heute: PC Farmen
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 12
Rekonstruktion mit modernen FarmenR
ekon
stru
iert
e E
reig
nis
se (
pro
Tag
)
450 k
1.5 M
3 M
2 M Events/day
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 13
Die zweite Säule: Monte Carlo
• Klassische Domäne der Universitäten
– im Falle H1 besonders von einer...
• Auch MC-Produktion profitiert von Commodity Komponenten
H1 Monte Carlo Produktion
0
20
40
60
80
100
120
140
160
180
200
1997 1998 1999 2000 2001 2002
Jahr
Mill
ion
en E
reig
nis
se
H1 total
Dortmund
(nach Zahlen von D. Lüke)
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 14
Commodity Computing: Fluch & Segen• HERA-Experimente verwenden ca. 100
Farm-PCs pro Experiment– ca. 500 Farm-PCs bei DESY-HH
• Typische “Lebensdauer” 3-4 Jahre– 1999: 350 MHz 2002: Dual 2.2 GHz
• Sehr wichtig:Hardware-InstallationssupportLinux-SupportKonsolzugangKonfigurationspflege
• Daß PC-Spiele und HEP-Analyseprogramme dieselbe Hardware benutzen, ist vermutlich nur ein Zwischenstadium– 1U-Server ?– Systemlösungen?– Was kommt nach Linux?
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 15
Zum Vergleich: Fermilab
• Fermilab hat im September auf einen Schlag 434 PCs geliefert bekommen– beachtliche logistische Herausforderung: was tun wenn der Laster kommt?– wohin mit all den Kartons („Burn-in Phase“), wo einstöpseln?– Abwärme
• Verdoppelt die Zahl der Einheiten (bei gleichbleibendem Personalstand)• Auch wir müssen lernen, wie man wirklich große Systeme unterstützen kann
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 16
Commodity File Server• Geänderte Paradigmen: Vergrößerung des Plattenspeichers reduziert Zahl der Zugriffe
auf die Tape Library• ZEUS Disk Space (Ereignisdaten):
– Anfang 2000: 3 TB davon FC+SCSI: 100%– Mitte 2001: 9 TB 67%– Mitte 2002: 18 TB 47%
• Notwendiges Wachstum war in der Form nur mit Commodity Komponenten möglich• Commodity Komponenten benötigen ein „Fabric“ das Ausfälle abfedert
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 17
“The mass storage system is fundamental to the success of the experiment”
– Ian Bird at CHEP01 in Beijing
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 18
Massenspeicher
• HERA-II wird mit 1 fb integrierter Luminosität in den Petabyte-Bereich vorstoßen
• DESY benutzt 4 STK Powderhorn Tape Silos (miteinander verbunden)
– neue Medien bieten 200 GB pro Kassette (statt 20 GB)
• Zugriffszeiten im Bereich < 1 min
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 19
Haben Magnetbänder eine Zukunft?
• Tape
– 100 $ pro Cartridge (200 GB), 5000 Cartridges pro Silo
– 100 k$ pro Silo
– 30 k$ pro Laufwerk (typische Anzahl: 10) 0.9 $ / GB
• Disk
– 8 k$ pro DELFI2 Server (1 TB) 8 $ / GB
Beide Medien profitieren von Erhöhung der Schreibdichte
An dieser Relation wird sich in näherer Zukunft nicht viel ändernoptimaler Einsatz von Platten als Cache transparenter File-Zugriff
(nach V. Gülzow)
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 20
Ein Cache in einem Cache in einem Cache
CPU
Primary Cache
2nd Level Cache
Memory Cache
Disk Controller Cache
Disk
Tape Library
Klassisches Bild10 s
10 s
10 s
Zugriffszeit
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 21
“All-Cache” Philosophie
CPU
Primary Cache
2nd Level Cache
Memory Cache
Disk Controller Cache
Disk Cache
Tape Library
Disk files sind nur Cache-Images von Dateien in der Tape Library
Zugriff über einen einheitlichen Pfad, unabhängig vom Namen des Servers
optimierte I/O Protokolle
Fabric
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 22
d C a c h e
HSM
Distributed
disk cache
servers
Analysis
platform
Physicists
Tape Library
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 23
Tape Library
d C a c h e
HSM
Analysis
platform
Eingebaute Redundanz auf allen Ebenen
Bei Ausfall eines Cache Servers erfolgt automatisches Staging des angefordertes Files auf einen anderen Server (unterbrechungsfrei)
Distributed
disk cache
servers
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 24
Analysesoftware für Kollaborationen
• Immer wichtiger werden Applikationen, die die Datenanalyse über das Internet hinweg ermöglichen & die beteiligten Institute besser vernetzen.
• Ziel: Unterschiede in der Arbeitsumgebung zwischen Beschleunigerlabor und beteiligten Instituten verschwinden
• Beispiel: neues ZEUS Event Display “ZeVis”
• Idee: Internet-basierter Zugriff auf ein beliebiges von 200 Millionen Ereignissen innerhalb von Sekunden (z.B. von Bonn, Toronto, Tsukuba...)
• Volle Integration von 2D und 3D Grafik
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 25
ZeVis: Grafisches Interface
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 26
ZeVis: Client-Server Konzept
ZeVis client application
commonHTTPrequest method
event request
ZES
dCache
(zevis01)
/dataz2root
raw2root
zesagent
.root file cache
ApacheHTTP server
ZeVis server experiment data
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 27
Internet-basierter Zugriff auf Online-Events
downscaled event stream O(0.1 Hz)
Latency O(1 min)
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 28
Verallgemeinerung: Grid-Computing
Logische Fortsetzung des “World Wide Web”
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 29
Eine Lösung und ihr Problem? Datenmengen bei LHC
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 30
LHC (Forts.)
• CERN wird die Resourcen für die Rekonstruktion der Rohdaten bereitstellen, aber nur einen kleinen Teil der Analysekapazität
Ausweg: Tier-Zentren (MONARC-Modell)
Grid-Technologie
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 31
Monte Carlo Produktion a la Grid
• starke Ähnlichkeit mit ZEUS/Funnel...
• aber: Middleware Industriestandard
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 32
Datenanalyse a la Grid
“Die kBytes zu den PBytes bringen und
nicht umgekehrt”
30-Nov-2002R. Mankel, Von der ND zum Grid - Computing in der Hochenergiephysik 33
Zusammenfassung Die rasanten technischen Fortschritte im Bereich der Computing-Technologie
sind eine wesentliche Voraussetzung für den Erfolg in der Hochenergiephysik Commodity-Komponenten machen Leistung erschwinglich, benötigen aber
ein spezielles “Fabric” mit viel Redundanz, um zuverlässig betrieben werden zu können
Die Standards bei der Physikanalyse bzgl Geschwindigkeit und Zuverlässigkeit sind erheblich gestiegen
Das Grid wird den Computing-Bereich weiter revolutionieren, auch über die Hochenergiephysik hinaus
Wann wird man nach Hause gehen können?
wenn der Resource-Broker überlastet ist
wenn das eigene VO-Zertifikat abgelaufen ist
wenn das Tier-Zentrum aufgrund einer DoS-Attacke lahmgelegt ist ...