proaktive auf basis von open source technologien innerhalb ... · r r e p l i k a t i o n s - p e i...
Post on 19-Oct-2020
2 Views
Preview:
TRANSCRIPT
-
HP IT-Symposium 2006
www.decus.de 1
Seite 1
ATIX GmbHATIX GmbH
Referent: Dipl.Referent: Dipl.--Ing. Thomas MerzIng. Thomas Merz
EE--Mail: merz@atix.deMail: merz@atix.de
Proaktive Infrastrukturüberwachung auf Basis von Open Source Technologien innerhalb von Appliances
Seite 2
InhaltIT Infrastrukturen und die „five 9s“Architektur einer ÜberwachungsplattformKomponenten dieser ÜberwachungsplattformProaktive und reaktive ÜberwachungMonitoring-Konsolidierung oder „Single Point of Monitoring“Über ATIX
-
HP IT-Symposium 2006
www.decus.de 2
Seite 3
Die „five nines“ - 99,999%
keine spezielle Verfügbarkeit
99,999%99,9%
Core
Infra
struk
turRe
plika
tions
-Spe
icher
Kriti
sche
Ap
plik
atio
nen
SAP,
...
Appl
ikat
ione
nEm
ail,
...Clients
Seite 4
Die „five nines“ - 99,999%Triebfeder sind die Kosten die eine Auszeit verursacht
daraus ergibt sich eine Verfügbarkeitsanforderung99,999% entspricht ca. 5 min/JahrHäufig werden diese Anforderungen in so genannten Service Level Agreements - SLAs - festgelegt
Vereinbarung zwischen Service Nutzer und Service Providertypische Parameter
VerfügbarkeitServicequalität - QoS
-
HP IT-Symposium 2006
www.decus.de 3
Seite 5
Die „five nines“ - 99,999%Mean-Time
Between Failure
Mean-TimeTo Repair
Mean-Time
To Detect
Availability Class (# of 9s)90.% more than a month 199.% just under 4 days 2
99.9% just under 9 hours 399.99% about an hour 4
99.999% a little over 5 minutes 599.9999% about half a minute 6
99.99999% about 3 seconds
Total Accumulated Outages per Year
Verfügbarkeit = ___ MTBF_______
MTBF+MTTD+MTTR
Verfügbarkeit = ___ MTBF ___
MTBF+MTTR
Seite 6
Die „five nines“ - 99,999%Faktoren zum Erreichen der „five nines“
1. Maximale MTBF - Kein Fehler passiertHot-Failover Redundanzen Hot-Failover Clustering (stretched Cluster)AusweichrechenzentrenDatenreplikation (synchron)
2. Minimale MTTR - Fehler reparierenCommodity HardwareAustauschlagerService-Verträge mit Herstellern
-
HP IT-Symposium 2006
www.decus.de 4
Seite 7
Die „five nines“ - 99,999%Faktoren zum Erreichen der „five nines“
3. Minimal MTTD (Mean-Time to detect) - erkennenÜberwachung (proaktiv und reaktiv)Definition und Dokumentation von Prozessen und SOPs (Standard Operation Procedures)
Folge: Maximale VerfügbarkeitJedoch die Verfügbarkeit wird durch die Ausfallkosten definiert...aber mit den Faktoren erreicht
Seite 8
InhaltIT Infrastrukturen und die „five 9s“Architektur einer ÜberwachungsplattformKomponenten einer ÜberwachungsplattformProaktive und reaktive ÜberwachungMonitoring-Konsolidierung oder „Single Point of Monitoring“Über ATIX
-
HP IT-Symposium 2006
www.decus.de 5
Seite 9
Architektur einer Überwachungsplattform
Network Management includes the the deployment, integration and coordination of the hardware, software, and human elements to monitor, test, poll, configure, analyze, evaluate, and control the network and element resources to meet thereal-time, operational performance, and quality of service requirements at areasonable Availabilitycost.T. Saydam, T. Magedanz. From Networks and Network Management into Service and Service Management. Journal of Networks and System Management, Vol. 4, S.345-348, December 1996
A really good Network Management is more important than science.
Seite 10
Architektur einer Überwachungsplattform
-
HP IT-Symposium 2006
www.decus.de 6
Seite 11
Architektur einer Überwachungsplattform
Managed Devices
Managed ObjectsManaging Entity
Network Management
ProtocolGet/Set
Push
Seite 12
Architektur einer Überwachungsplattform
Managed Devices
SNMP AgentsManagement Appliance
SNMP: Simple NetworkMangement Protocol
Trap
Get/Set
SNMP
-
HP IT-Symposium 2006
www.decus.de 7
Seite 13
InhaltIT Infrastrukturen und die „five 9s“Architektur einer ÜberwachungsplattformKomponenten dieser ÜberwachungsplattformProaktive und reaktive ÜberwachungÜberwachungssensorenMonitoring-Konsolidierung oder „Single Point of Monitoring“Über ATIX
Seite 14
Die Management AgentsMöglichst wenig Network Management Protokolle (Kis -Keep it simple)Am weitesten verbreitet ist SNMPJe nach Managed Object werden Traps und/oder Get/Set Operationen unterstütztReferenziert werden die MO-Eigenschaften über OIDsUm OIDs in lesbare Form zu übersetzen, werden zusätzlich MIBs - so genannte Management Information Bases - benötigt
-
HP IT-Symposium 2006
www.decus.de 8
Seite 15
Die Management AgentsNet-SNMP ist „Standard“ für die Open-Source Welt
www.net-snmp.orgAls Agent werden SNMP-Gets/Sets und Traps unterstütztVia SNMP Multiplexing (SMUX) und dem AgentX Protokoll können dynamisch Agenten mit eigenen MIBs eingebunden werdenStandardmässig werden die RMON-MIB sowie einige net-snmp/Unix eigene Eigenschaften überwacht
z.B. Load, Disk-Auslastung, Prozesse, eingeloggte User usw.
Ist Teil jeder Enterprise Linux Distribution
Seite 16
Die Management AgentsNet-SNMP ist „Standard“ für die Open-Source Welt
Unterstützt auch von den meisten Hardware-Herstellern mit eigenen AgentenVerfügbar auch für die meisten UNIX-DerivateSelbst eigene, nicht unterstützte Skripte lassen sich einfach integrierenFolge: Optimal geeignet um Linux/UNIX Server via SNMP zu überwachen
-
HP IT-Symposium 2006
www.decus.de 9
Seite 17
SNMP AllgemeinDie meisten modernen Betriebssysteme bieten zusätzlich eigene SNMP-Schnittstellen anWindows benötigt nur die Installation/Freischaltung des mitgelieferten AgentenFrage ist meist welche Standard-MIBs werden unterstützt
Meist RMONDas gleiche gilt für MOs, die als Appliance gesehen werden
Dort unterscheidet sich die Unterstützung sehr häufigTraps vs. Get/SetNoMIB vs. MIB
Seite 18
Die Management Appliance
Betriebssystem
SNMP Trap DienstSNMP Dienst
Datensammel-Dienst
Basis:Zeitpunkt
Basis:Zeitraum
Datenbank
User Interface
HTML Mail
ICQSMS
SNMP Proxy SNMP Traps
Get
Push
Managed Devices
SNMP Agents
GetPush
-
HP IT-Symposium 2006
www.decus.de 10
Seite 19
Die Management Appliance
Linux/UNIX
SNMPTrapd (net-snmp)SNMPd (net-snmp)
Datensammel-Dienst
nagios cacti
MySQL/Postgres/RRD/Text
User Interface
Apache Postfix
nagios PluginMail2SMS
SNMP Proxy SNMPTrapd
Get
Push
Managed Devices
SNMP Agents
GetPush
Seite 20
Die Management ApplianceNet-SNMP ist „Standard“ für die Open-Source Welt
Umfangreiche Tools für alle Aktionen im Bezug auf SNMPEmpfang von Traps: snmptrapd (ab Version 5.11)
Zusatz: Übersetzung von Trap-OID zu FehlermeldungUnd Auslösen weiterer Aktionen:
Integration von Traps in z.B. nagiosAbfrage aller SNMP-Werte (snmpget, snmpgetnext, snmpwalk, snmptable)Integration externer MIBs
-
HP IT-Symposium 2006
www.decus.de 11
Seite 21
Die Management ApplianceNagios als Datensammeldienst mit umfangreichen User Interface Funktionen
www.nagios.org Version 1.2 bzw. 2.0Sensoren sind entweder „Hosts“ oder „Services“Jeder Sensor kann verschiedene Stati haben:
Host: Up, Down, UnreachableService: OK, Warning, Critical
Bei Statusänderung können unterschiedlichste Reaktionen definiert werden
Seite 22
Die Management ApplianceNagios als Datensammeldienst mit umfangreichen User Interface Funktionen
Reaktionen auch abhängig vom Zeitpunktz.B. bestimmte Reaktionen sollen zu Arbeitszeiten anders aussehen als Nachts um 1:00UhrJedem Sensor können unterschiedliche Reaktionen und Kontaktgruppen zugeordnet werdenEs lassen sich Abhängigkeiten zwischen Host/Service bzw. Host/Host und Service/Service definieren
Dadurch werden nur relevante Meldungen weitergeleitet
-
HP IT-Symposium 2006
www.decus.de 12
Seite 23
Die Management ApplianceNagios als Datensammeldienst mit umfangreichen User Interface Funktionen
Die Abfrage der Sensoren erfolgt über SkripteUmfangreiche einfach anpassbare Skripte verfügbarMuss nicht über SNMP erfolgen
Sensoren können passiv/aktiv abgefragt werdenSeit Version 2.0b1 passive Checks für HostsBei Aktiv-Checks initiiert Nagios die Abfrage des SensorsBei Passiv-Checks initiiert der Sensor die Meldung an Nagios (SNMP-Traps)
Seite 24
Die Management ApplianceNagios als Datensammeldienst mit umfangreichen User Interface Funktionen
Haupt-User-Interface ist über Web-Browser und damit in Web-Server integrierbar (Apache und Perl)Es können eine ganze Menge verschiedener Ansichten auf die Sensoren dargestellt werden (siehe folgende Folien)Es können Pager und E-Mail-Weiterleitungen definiert werdenKontakte bzw. Gruppen von Kontakten werden dabei angesprochen
-
HP IT-Symposium 2006
www.decus.de 13
Seite 25
Die Management Appliance
Seite 26
Die Management Appliance
-
HP IT-Symposium 2006
www.decus.de 14
Seite 27
Die Management Appliance
Seite 28
Die Management ApplianceCacti als Datensammeldienst für Trendanalyse
www.cacti.netHost und Sensor wird unterschiedenJeder Host kann beliebig viele Sensoren aufnehmenDie Werte werden in eine Round Robin Database gespeichert (konstantes Datenaufkommen)
RRDTool von Tobi OetikerViel flexiblere Weiterentwicklung von MRTG
Konfiguration wird in einer Datenbank gespeichertMySQL, Postgres
-
HP IT-Symposium 2006
www.decus.de 15
Seite 29
Die Management ApplianceCacti als Datensammeldienst für Trendanalyse
Über die Definition von Graphen werden die RRDs graphisch über die Zeit dargestellt
Auch diese Funktionalität stellen die RRD-Tools bereitGraphen können benutzerdefiniert erstellt werdenGraphen und RRDs verbinden „Data Sources“Sowohl für „Data Sources“ als auch für Graphen existieren umfangreiche Vorlagen
Seite 30
Die Management ApplianceCacti als Datensammeldienst für Trendanalyse
Zusätzlich können unterschiedliche Benutzer definiert werden
Berechtigungen für bestimmte Aktionen und ZugriffeDie Graphen werden dann in benutzerdefinierte Bäume oder Suchlisten organisiertEin Graph ist dann über unterschiedlichste Zeiträume darstellbar
Definiert im RRD
-
HP IT-Symposium 2006
www.decus.de 16
Seite 31
Die Management Appliance
Seite 32
Die Management Appliance
-
HP IT-Symposium 2006
www.decus.de 17
Seite 33
Die Management Appliance
Seite 34
InhaltIT Infrastrukturen und die „five 9s“Architektur einer ÜberwachungsplattformKomponenten dieser ÜberwachungsplattformProaktive und reaktive ÜberwachungMonitoring-Konsolidierung oder „Single Point of Monitoring“Über ATIX
-
HP IT-Symposium 2006
www.decus.de 18
Seite 35
Proaktive und reaktive Überwachung
Am besten Fehler erkennen bevor er passiert!!!!Man spricht hierbei von proaktiver ÜberwachungSonst reaktive ÜberwachungWichtig: Überlegung, wo ist das möglich und wo nichtHierbei sind sowohl Trendanalyse als auch kurzfristige Sensorabfrage von Wichtigkeit
Rückblick: Ziel Maximales MTBF und minimales MTTR
Seite 36
Proaktive und reaktive Überwachung
Beispiel für einen proaktiven SensorAuslastung des DateisystemsWenn das Dateisystem voll ist (z.B. das „/“ Dateisystem)
Kann der ganze Server abstürzenAnsatz: kurzfristige Analyse
Hierbei kann nur reagiert werden wenn die Auslastung des Dateisystems einen gewissen Level übersteigtDas Monitoring-System löst dann eine entsprechende Mitteilung aus und der Administrator muss entsprechende Reparaturaktionen vornehmen
-
HP IT-Symposium 2006
www.decus.de 19
Seite 37
Proaktive und reaktive Überwachung
Beispiel für einen proaktiven SensorAnsatz: Trendanalyse
Hier ist die Entwicklung der Auslastung von BedeutungWenn z.B. die Steigung der Auslastung größer als 0 ist, wird mein Dateisystem irgendwann voll seinIst die Steigung sehr viel größer als 0 passiert das wohl sehr schnellKonsequenz: Ich habe einen Dienst, der mein Dateisystem „zumüllt“Für das Dateisystem unter „/“ sollte dies nicht passieren
Seite 38
Proaktive und reaktive Überwachung
Beispiel für einen proaktiven SensorAnsatz: Trendanalyse
Existiert eine Trendanalyse auf dem „/“-Dateisystem können derartige Verhalten frühzeitig erkannt werdenDer nächste jedoch viel schwierigere Schritt ist das Auffinden des ÜbeltätersDiese Probleme kann eine Trendanalyse nicht so einfach leisten, da es unter Linux/Unix keine praktikable Möglichkeit gibt, herauszufinden welcher Dienst wohin wieviel geschrieben hat.
D.h. Tools wie Top, vmstat, iostat etc. können hierbei helfen
-
HP IT-Symposium 2006
www.decus.de 20
Seite 39
Proaktive und reaktive Überwachung
KonstanteAuslastung
Auslastungsteigt=> Reaktion
Seite 40
Proaktive und reaktive Überwachung
Anmerkungen:Genaue Definition der SensorenSensoren OverkillWas soll denn überhaupt überwacht werden?Skalierbarkeit der ÜberwachungMöglichst ein dedizierter ServerTiefes Verständnis der unterliegenden TechnologienNiemals auch die Dokumentation und Prozesse vergessen
-
HP IT-Symposium 2006
www.decus.de 21
Seite 41
InhaltIT Infrastrukturen und die „five 9s“Architektur einer ÜberwachungsplattformKomponenten dieser ÜberwachungsplattformProaktive und reaktive ÜberwachungMonitoring-Konsolidierung oder „Single Point of Monitoring“Über ATIX
Seite 42
Monitoring-Konsolidierung oder „Single Point of Monitoring“
Möglichst ein User-Interface für alle „wichtigen“ AktionenVerschiedene Benutzer mit verschiedenen RechtenSowohl Trendanalyse als auch kurzfristige Sensoren in einer OberflächeMöglichst auch inkl. DokumentationMöglichst auch mit offiziellem MaintenanceOutsourcing?
-
HP IT-Symposium 2006
www.decus.de 22
Seite 43
InhaltIT Infrastrukturen und die „five 9s“Architektur einer ÜberwachungsplattformKomponenten dieser ÜberwachungsplattformProaktive und reaktive ÜberwachungMonitoring-Konsolidierung oder „Single Point of Monitoring“Über ATIX
Seite 44
Die ATIX Philosophie
ATIXadvanced technology for individual success
„Wir helfen Ihnen, Ihre Daten sicher und effizient zu speichern“
-
HP IT-Symposium 2006
www.decus.de 23
Seite 45
ATIX GeschäftsfelderBeratung
Linux im Rechenzentrum (Cluster-Lösungen, HA)SpeichernetzwerkeVerfügbarkeitsanalyse / Katastrophenvorsorge
ServicesCC - Proof of ConceptProjektbegleitung / IntegrationWorkshops / Schulungen
Produktecom.oonics Enterprise IT-Plattform
com.oonics NAS-Serie (NASBox, NASHead, NASCluster, GrayHead)com.oonics Infra-Serie (InfraBox, InfraHead, InfraCluster, GrayHead) com.oonics Cluster-Suite (Multi-Node Active/Active)
Seite 46
Der com.oonics GrayHeadDer com.ooncis GrayHead ist ein Service um Ihre Applikationen in Ihrem Rechenzentrum rund um die Uhr zu überwachenAls reine Blackbox zu erwerbenAls Service Leasing zu erwerbenÜberwacht alle Komponenten in Ihrem RechenzentrumIst an ein ATIX Helpdesk System angebundenJe nach Wunsch mit 24x7 oder 7x5 Überwachung verbunden
Ziel: Maximales MTBF und minimales MTTR
-
HP IT-Symposium 2006
www.decus.de 24
Seite 47
Vielen Dank für Ihre Aufmerksamkeit!
Noch Fragen?
ATIX GmbHEinsteinstr. 1085716 Unterschleißheimwww.atix.deinfo@atix.de
top related