hochverfügbarkeit
DESCRIPTION
Hochverfügbarkeit. Gliederung. Einführung Prozessor Kryptographischer Koprozessor Speicher Ein-/Ausgabe Weitere Hardware Parallel Sysplex Sysplex Failure Management Automatic Restart Manager Workload Balancing Software. Einführung. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/1.jpg)
Hochverfügbarkeit
![Page 2: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/2.jpg)
Gliederung● Einführung
● Prozessor
● Kryptographischer Koprozessor
● Speicher
● Ein-/Ausgabe
● Weitere Hardware
● Parallel Sysplex
● Sysplex Failure Management
● Automatic Restart Manager
● Workload Balancing
● Software
![Page 3: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/3.jpg)
Einführung
● Verfügbarkeit = Zeitanteil, zu dem das System seine Funktion wie spezifiziert erfüllt
● Hochverfügbarkeit ab 99,999% => 5 Min. Ausfallzeit/Jahr
● erreicht durch hohes Maß an Redundanz an allen möglichen Fehlerstellen
● Redundanz = Vorhandensein von Mitteln, die für die Funktionserfüllung nicht notwendig sind
![Page 4: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/4.jpg)
Prozessor
![Page 5: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/5.jpg)
Prozessor● jede PU (Processor Unit) der zSeries 900 enthält
doppelte Instruction/Execution Units, die simultan arbeiten
● Ergebnisse werden verglichen, bei Abweichung Instruction Retry
● bei weiterem Fehler Speichern des Zustands und Umschalten auf Reserve-PU
● falls keine freie PU vorhanden, wird der Zustand an eine andere aktive PU übergeben
● bei Fehler eines SAP und keiner Reserve-PU wird ein aktiver CP (Central Processor) als SAP eingeteilt
![Page 6: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/6.jpg)
Kryptographischer Koprozessor
● 2 Cryptographic Coprocessor Elements (CCE) pro System
● Betriebssystem wiederholt fehlgeschlagene Instruktion auf dem anderen CCE
● pro CCE ein Pfad zu einer primären PU sowie zu alternativer PU (immer nur 1 Pfad aktiv)
● Alternativ-PUs werden als letztes als Reserve-PUs benutzt
![Page 7: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/7.jpg)
Speicher
● L1 Cache Parity protected● L1 und L2: Löschen/Austauschen von Zeilen● L2 und Memory: Error Correcting Codes (Single
Error Correction/Double Error Detection)● bei Parity/ECC-Fehler neuer Versuch, danach
löschen der Cache-Zeile● ECC auch für Daten- und Status/Kommando-
Busse● Speicherkarten sind mit Reservechips ausgerüstet
![Page 8: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/8.jpg)
Ein-/Ausgabe
CPU
Channel Subsystem
E/A E/A E/A E/A
ControlUnit
ControlUnit
Haupt-speicher
Channel Path
Subchannel
![Page 9: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/9.jpg)
Ein-/Ausgabe● mehrere Channel Paths zur gleichen Control Unit● ein E/A-Gerät kann mit mehr als einer
Kontrolleinheit verbunden sein● Verbindung einer CU mit mehr als einem System
im Parallel Sysplex möglich● dynamische I/O-Konfiguration● ESCON 16-Port I/O-Card beinhaltet 1 Reserve-
Port● bei Versagen eines MBA partieller Neustart ohne
entsprechende I/O-Verbindungen möglich
![Page 10: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/10.jpg)
Weitere Hardware zur höheren Verfügbarkeit
● redundante Stromzufuhr, interne Batterie verfügbar
● redundante Kühlsysteme● je System zwei External Time Reference-Karten
und redundante Pfade zu den Clustern● RAID (Redundant Array of Inexpensive Disks):
verschiedene Level der Redundanz für Plattenspeicher (Hamming-Code, Parity)
● Disk Mirroring
![Page 11: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/11.jpg)
Cluster-Typen● Cluster = lose gekoppelte Anordnung mehrerer
SMPs (Knoten)● High Availability Cluster: Heartbeat-Monitoring-
Prozess überträgt die Verarbeitung bei Ausfall des primären Servers auf einen Backup-Server, der sonst beschäftigungslos ist
● Parallel Cluster: manuelle Aufteilung der anfallenden Arbeit auf die Knoten
● Shared Cluster: WLM verteilt Arbeit dynamisch auf die einzelnen Knoten
![Page 12: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/12.jpg)
Unterscheidung nach Zugriff auf Plattenspeicher
● Shared Nothing: nur ein Knoten kann auf einen bestimmten Plattenspeicher zugreifen => statische Aufteilung des Workloads
● Shared Disk: jeder Knoten kann auf alle Plattenspeicher zugreifen =>Datenkohärenzsteuerung nötig
● Parallel Sysplex implementiert Shared Disk(Data)
![Page 13: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/13.jpg)
Parallel Sysplex
![Page 14: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/14.jpg)
Sysplex Failure Management● integriert in OS/390● erlaubt Definition einer sysplex-weiten Policy● Policy legt Fehlererkennungsintervalle und
Wiederherstellungsaktionen für den Ausfall eines Systems im Sysplex fest
● Fehlerarten: Ausfall der Signalverbindung zwischen Systemen, Status Update Missing Condition
● Status Update Missing Condition: System erneuert nicht seinen Status innerhalb eines bestimmten Zeitintervalls =>z.B.System-Isolation
![Page 15: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/15.jpg)
Automatic Restart Manager
● Teil von OS/390● ausgefallene Anwendungen können automatisch
auf gesunden Systemen im Parallel Sysplex neu gestartet werden oder auf dem selben System, falls dies nicht ausgefallen ist
● kennt Zustände aller Prozesse auf allen Systemen, bemerkt sofort alle Systemausfälle, benutzt WLM um geeignetes System für Restart zu finden
● Prozesse können in Restart Groups zusammengefasst werden
![Page 16: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/16.jpg)
● Reihenfolge der Restart-Aktivitäten kann festgelegt werden
● in hot-standby-Umgebungen (Backup-Server) kann der Restart des ausgefallenen Servers unterdrückt werden
● Prozesse registrieren sich zum Start beim ARM, melden sich beim Herunterfahren ab
![Page 17: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/17.jpg)
Workload Balancing
● nötig, um die eingehende Arbeit im Sysplex zu verteilen oder im Fehlerfall umzuleiten
● dabei muss der ganze Sysplex nach außen eine einzige Identität haben (Host Name oder IP-Adresse)
● 2 Kategorien von Lastverteilungslösungen: DNS mapping solutions, Connection dispatching
![Page 18: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/18.jpg)
Domain Name Server mapping solutions
● dynamisches Wechseln der DNS-Einträge, um einem Hostnamen versch. IPs (und damit Server) zuzuordnen
● Round-Robin: DNS kreist durch Liste mit IP-Adressen => Workload auf Server unbetrachtet
● Connection Optimization: DNS betrachtet Arbeitslast der einzelnen Server, Messergebnisse vom Workload Manager
● Nachteil: Auswahl des Servers nur bei Verbindungsaufbau
![Page 19: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/19.jpg)
Connection dispatching solutions
● Client hat Verbindung mit Verteilerknoten, dieser leitet die Daten an entspr. Server weiter, der dann direkt dem Kunden antworten kann
● alle Systeme im Cluster liefern Informationen über ihre aktuelle Arbeitslast an den Distribution Manager
● Backup-Verteilerknoten überwacht Zustand des primären Verteilers und übernimmt die Arbeit bei Ausfall
● Verteilerknoten in PC, im Sysplex oder im Router
![Page 20: Hochverfügbarkeit](https://reader036.vdokument.com/reader036/viewer/2022083004/568134d6550346895d9c028d/html5/thumbnails/20.jpg)
Softwarefeatures
● MQSeries, DB2 usw. benutzen ARM● MQSeries: automatic rerouting of messages if
target machine is unavailable● Fehlerbehandlungsmaßnahmen der
Datenbanksysteme