nec hpc-system - rz.uni-kiel.de · • arbeiten auf dem nec hpc-system ... – /scratch-verzeichnis...

29
Rechenzentrum NEC HPC-System 1 SX-ACE Vektorrechnersystem u. HPC-Linux Cluster

Upload: hatu

Post on 18-Sep-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

1

SX-ACE Vektorrechnersystem u. HPC-Linux Cluster

Page 2: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

2

Ansprechpartner

– HPC-Support Team• Benutzerberatung

– Dr. Karsten Balzer– Dr. Simone Knief

• Systembetreuung: – Dr. Cebel Kücükkaraca– Alfred Wagner

– Mailingliste: • [email protected]

Page 3: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

3

Überblick

• Rechnerkonfiguration• Dateisysteme• Datensicherung• Arbeiten auf dem NEC HPC-System

– Anwendersoftware und Bibliotheken– interaktives Arbeiten– Batchbetrieb

• Dokumentation

Page 4: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

4

Rechnerkonfiguration

• hybrides NEC HPC-System– skalarer NEC HPC-Linux-Cluster– NEC SX-ACE Vektorrechnersystem

• gemeinsame Vorrechner• einheitliches globales Dateisystem ScaTeFS: 1.5 PB• ein gemeinsames Batchsystem: NQSII

� Nutzung unterschiedlicher Rechnerarchitekturen ohne Datentransfer

Page 5: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

NEC HPC-Linux Cluster

• 116 Knoten mit insgesamt 1856 Cores– 114 Knoten mit jeweils

• Sandy Bridge EP-Prozessoren (2.6 GHz)• 16 Cores pro Knoten • 128 GB Hauptspeicher

– 2 Knoten mit jeweils • Sandy Bridge EP-Prozessoren (2.6 GHz)• 16 Cores pro Knoten • 256 GB Hauptspeicher

� Peak-Performance: 38.6 TFlop/s

• Batchknoten mit schnellem FDR-Inifniband Netzwerk verbunden• Betriebssystem Red Hat Enterprise Linux (Release 6.4)

Page 6: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

NEC SX-ACE Vektorrechnersystem

• 256 SX-ACE Vektorknoten mit jeweils– 4 Vektor-Cores– 64 GB Hauptspeicher – 256 GB/s Speicherbandbreite– Knoten über schnellen Crossbar-Switch (IXS) verbunden – kein lokaler Plattenplatz– nur über das Batchsystem erreichbar

� insgesamt: 1024 Vektor-Cores mit einer Peak-Performance von 65.5 TFlop/s

Page 7: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

7

Rechnerkonfiguration

• 4 Vorrechner NEC NEC HPC 128Rd-2– 3 Login-Knoten: Rechnername nesh-fe.rz.uni-kiel.de– 1 Batchknoten für das Pre- und Postprocessing (feque)– augestattet jeweils mit

• 2 Sandy Bridge-EP Prozessoren (2.6 GHz)• 16 Cores pro Knoten• 128 GB Hauptspeicher

– Anbindung an das globale Filesystem ScaTeFS– Betriebssystem: Red Hat Enterprise Linux (Release 6.4)

Page 8: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

8

Dateisysteme

• über ein globales Filesystem verfügbarer Plattenplatz: 1.5 PB

• 3 verschiedene Dateisysteme nutzbar: – Home-Verzeichnis: $HOME– Arbeitsverzeichnis: $WORK – Verzeichnis für aktuell nicht benötigte Dateien: $TAPE_CACHE

Page 9: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

9

HOME-Verzeichnis

• erreichbar über die Umgebungsvariable $HOME• global verfügbar an allen Knoten (nesh-fe und im Batch)• 32 TB für alle Benutzer

– /sfs/fs6/home-geomar– /sfs/sf5/home-sh

• tägliche Datensicherung• langsamere Zugriffszeiten als work-Verzeichnisse

– Verzeichnis für Skripte, Programmcodes und kleinere Ergebnisdateien• keine Quotierung pro Benutzer

Page 10: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

10

Arbeitsverzeichnis

• global verfügbar an allen Knoten• zur Durchführung von Batch-Berechnungen einsetzen• schnellere Zugriffszeiten als $HOME• 4 Dateisysteme mit einer Gesamtgröße von 1.23 TB• keine Datensicherung durch das RZ• Umgebungsvariable $WORK

– definiert an nesh-fe’s und Linux-Cluster Knoten– an ACE-Knoten kann $WORK nicht mehr systemseitig gesetzt werden

• Alternative: – qsub –v WORK=$WORK (auf nesh-fe)– Variable explizit im Batch-Skript setzen

Page 11: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

11

Lokale Dateisysteme

• SX-ACE Knoten: – keine lokalen Platten für Benutzerdateien mehr (kein $TMPDIR)

• Linux-Cluster Knoten: – 500 GB – erreichbar über Umgebungsvariable $TMPDIR– /scratch-Verzeichnis– kein automatisches Löschen am Jobende

Page 12: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

12

TAPE_CACHE Verzeichnis

• erreichbar über die Umgebungsvariable $TAPE_CACHE• Plattenspeicher mit angeschlossenem Magnetband-Robotersystem• verfügbar an Vorrechnern und in der Batchklasse feque• Speicherung von aktuell nicht benötigten Daten• langsame Zugriffszeiten

– kein direktes Arbeiten mit Dateien auf Band � vorher auf $WORK kopieren• bevorzugt große Datenpakete abspeichern (max. 750 GB)• kein Archivierungssystem• irrtümlich gelöschte Daten können nicht wieder hergestellt werden

Page 13: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

13

Arbeiten mit den Dateisystemen

• wichtige Daten, die gesichert werden müssen, auf $HOME• Batchberechnungen

– bevorzugt $WORK-Verzeichnis verwenden• $TAPE_CACHE-Verzeichnis

– nach Möglichkeit nur große Datenpakete abspeichern• eigenen Datenbestand von Zeit zu Zeit überprüfen• bisher noch keine Quotierung von Plattenplatz

Page 14: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

14

Datensicherung

• HOME-Verzeichnis– tägliche Sicherung– Datensicherungen werden 8 Wochen aufbewahrt– für die letzten 2 Wochen ist eine tagesaktuelle Wiederherstellung möglich– ältere Datensicherungen stehen in Wochenabständen zur Verfügung– nesh-fe’s: direkter Zugriff auf Backup-Dateien möglich

• Verzeichnis: /nfs/mybackup• keine Sicherung von $WORK • keine Langzeitarchivierung durch das RZ

– Löschung aller Daten nach Accountdeaktivierung

Page 15: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

15

Arbeiten auf dem NEC HPC-System

• Anwendersoftware und Bibliotheken• Programmübersetzung• interaktives Arbeiten• Durchführung von Batchberechnungen

Page 16: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

16

Anwendersoftware und Bibliotheken

• Anwendersoftware– Quantenchemieprogramm Gaussian 09– Matlab:

• module load matlab2012b (CAU-Angehörige)• module load matlab2011b_geomar (für Geomar-Angehörige)

– Tools zum Pre- und Postprocessing: • Ferret, nco, cdo, …

• Bibliotheken– MathKeisan Bibliothek

• BLAS, CBLAS, Lapack, ScaLapack, SBLAS, FFT, Metis, ParMetis, SOLVER und ARPACK

– I/O Bibliothek netCDF

Page 17: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

Programmübersetzung für SX-ACE Knoten

• Programmübersetzung mit Cross-Compilern auf Login-Knoten– keine direkte Übersetzung auf ACE-Knoten mehr möglich

• Initialisierung der Crosscompiler-Umgebung erforderlich: – module load crosscompiler bzw.

module load crosskit sxf90 mpisx

Page 18: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

18

Programmübersetzung für SX-ACE Knoten

C- bzw C++ + MPIsxmpicc bzw. sxmpic++

Fortran2003sxf03

Cross-Compileraufrufenesh-fe

Erklärung

sxf90 Fortran-Programm

sxcc bzw. sxc++ C- bzw. C++-Programme

sxmpif90 Fortran + MPI

Page 19: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

Programmübersetzung für Cluster-Knoten bzw. feque

• Compiler– gnu-Compiler:

• Versionen 4.4.7 und 4.8.2

– Intel-Compiler: • Version: 14.0.0• Aufrufe: ifort, icc, icpc• Initialisierung:

. /opt/intel/composer_xe_2013_sp1/bin/compilervars.sh intel64

• MPI-Implementierung– Intel-MPI

• Initialisierung: . /opt/intel/impi/4.1.1.036/intel64/bin/mpivars.sh

• Aufrufe: mpiifort, mpiicc, mpiicpc bzw. mpif90, mpicc, mpicxx• Programmstart: mpirun $NQSII_MPIOPTS –np cores ./prog.exe

Page 20: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

20

Interaktives Arbeiten

• nur auf den Vorrechnern möglich• max. CPU-Zeit: 2 Stunden

– längere Berechnungen im Batchbetrieb (Cluster-Knoten)• kein interaktiver Zugang zu ACE-Knoten möglich

– Übersetzung der Programme mit dem Cross-Compiler– Ausführen von Skripten über Batch

Page 21: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

21

Batchbetrieb

• Batchsystem NQSII• Scheduler Job Manipulator

Page 22: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

Batchbetrieb

• Benutzer startet Programm nicht direkt an der Konsole• Schreiben einer Batchskript-Datei

– enthält Informationen über die angeforderten Ressourcen: • Core-Anzahl, Speicherbedarf, Rechenzeit

– enthält eigentlichen Programmaufruf• Batchskript-Datei wird vom Login-Knoten an den Batchserver übergeben

– durchsucht alle Knoten nach freien Ressourcen• Job startet sofort oder wird in eine Warteschlange gestellt

Page 23: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

23

NQSII-Skript: parallele Berechnung (1 Knoten)

#PBS –l elapstim_req=2:00:00 # Wallclock Zeit (hier 2 Stunden)#PBS -l cputim_job=8:00:00 # Rechenzeit#PBS -l memsz_job=10gb # Hauptspeicherbedarf pro Knoten (max. 64 GB)#PBS -l cpunum_job=4 # Anzahl benoetigter Cores pro Knoten (max. 4)#PBS –T mpisx # Jobtyp: mpisx für MPI auf ACE Knoten#PBS –b 6 # Anzahl der Knoten#PBS -N nqs_job # Name des Batch-Jobs#PBS -o nqs.out # Datei fuer die Standardausgabe#PBS -j o # Standard- und Fehlerausgabe in eine Datei#PBS -q smallque # Batch-Klasseexport F_PROGINF=DETAIL # Informationen über Geschwindigkeiten und Vektorisierung

# Fortran: F_PROGINF=DETAIL,YES, NO (default)# C/C++: C_PROGINF=DETAIL,YES, NO (default)

export MPI_PROGINF=DETAIL # MPI Performanceinformationen(YES, DETAIL, NO (default))cd $PBS_O_WORKDIRmpirun –nn 6 –nnp 4 ./mpi.exe # Programmaufruf/usr/bin/nqsII/qsub skript2.nqs # Abgabe einer neuen Batchberechnung

Page 24: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

24

NQSII-Skript: Gaussian-Berechnung

#PBS –l elapstim_req=20:00:00 # Wallclock Zeit (hier 20 Stunden)#PBS -l cputim_job=80:00:00 # Rechenzeit#PBS -l memsz_job=20gb # Hauptspeicherbedarf pro Knoten (max. 64 GB)#PBS -l cpunum_job=4 # Anzahl benoetigter Cores pro Knoten (max. 4)#PBS –b 1 # Anzahl der Knoten#PBS –l filenum_prc=256 # max. Anzahl von offenen Files #PBS -N nqs_job # Name des Batch-Jobs#PBS -o nqs.out # Datei fuer die Standardausgabe#PBS -j o # Standard- und Fehlerausgabe in eine Datei#PBS -q htque # Batch-Klasseexport GAUSS_SCRDIR=/sfs/fs3/work-sh1/usernameexport g09root=/sfs/fs3/sw/gaussian_new/g09export PATH=/sfs/fs3/sw/gaussian_new/g09:$PATHexport GAUSS_EXEDIR=/sfs/fs3/sw/gaussian_new/g09…..g09 < input.com > output.log

Page 25: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

Batchklassen: SX-ACE Knoten

• express:– max. Walltime:15 Minuten – max. 4 Knoten

• smallque– max. Walltime: 10 Stunden (default: 30 Minuten)

• htque: – max. Walltime: 14 Tage (default: 30 Minuten)

• feque:– läuft auf 1 Vorrechner (nesh-fe0)– max. CPU-Zeit: 1 Stunde

• längere Berechnungen auf Linux-ClusterKnoten (cl-Queues)

Page 26: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

26

Batchklassen: Linux-Cluster Knoten

Batchklasse Walltime Hauptspeicher Anzahl Knoten

clexpress 2 Stunden 128 GB 2

clmedium 48 Stunden 128 GB 78

cllong 100 Stunden 128 GB 30

clbigmem 100 Stunden 256 GB 2

clfocean 100 Stunden 128 GB 4

Page 27: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

27

Batchbetrieb: wichtige Kommandos

• Abgabe von Batch-Jobs– qsub nqs_skript

• Löschen und Abbrechen von Batch-Jobs– qdel jobid

• Abfrage des Jobstatus– qstat jobid : Informationen über eigene Jobs– qstatall: Informationen über alle Jobs– qstatace: Jobs auf ACE-Knoten + feque– qstatcl: laufende und wartende Jobs auf Cluster-Knoten– Option: -J: zeigt ausführenden Knoten an

-f: detaillierte Jobinformationen- qcat –o jobid: Ausgabe der bisher erzeugten Standardausgabe

Page 28: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

28

Arbeiten mit dem Batchsystem

• Rechenzeit und Speicherangabe möglichst genau angeben• Zwischenergebnisse abspeichern

Page 29: NEC HPC-System - rz.uni-kiel.de · • Arbeiten auf dem NEC HPC-System ... – /scratch-Verzeichnis ... Ausgabe der bisher erzeugten Standardausgabe. Rechenzentrum

Rechenzentrum

NEC HPC-System

29

Dokumentation

• WWW-Seite: – http://www.rz.uni-kiel.de/hpc/nec-sxace.html– http://www.rz.uni-kiel.de/hpc/nec_cluster.html

• momentan verfügbare Super UX-Handbücher– Fortran90/SX Programmer’s Guide– Fortran 2003 Programmer’s Guide– C++/SX Programmer’s Guide– MPI/SX User’s Guide– Ftrace Viewer User’s Guide