entwicklung einer statistischen nachbearbeitung von ... · marcus paulat christoph gebhardt...
TRANSCRIPT
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
DACH Bonn 24.September 2010
Marcus Paulat Christoph Gebhardt
Ensemblesystem auf Basis des COSMO-DE, Teil II:
Entwicklung einer
statistischen Nachbearbeitung von
Niederschlagswahrscheinlichkeiten
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
• Allgemeines zur Nachbearbeitung (Kalibrierung,Postprocessing)
• Methode der Logistischen Regression
• Datengrundlage
• Qualität der einfachen Kalibrierung
• Vorbehandlung („Pre-Processing“) der Daten
• Verifikation
• Ausblick / offene Fragen
Übersicht
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Postprocessing (Motivation und Allgemeines)
� Verbesserung der Vorhersagequalität
� Angleichung der Vorhersage-Statistik an die Beobachtungs-Statistik
� z.B. Anpassung von Erwartungswert, Variabilität, Quantilen, Überschreitungswahrscheinlichkeiten
Vorhersage Obs
kalibrierteVorhersage
historische Daten
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
• für Niederschlag mit guten Ergebnissen: globale Skala, Vorhersagezeitraum mehrere Tage (Hamill 2004, Wilks und Hamill 2007, Hamill et al. 2008)
• zu kalibrierende Variable muss nicht normalverteilt sein
• verschiedene Prädiktoren möglich (Ensemblemean, Probs etc.)
• Ergebnis ist Wahrscheinlichkeit (Prädiktand)
• mathematischer / statistischer Hintergrund: Poster 10 von Sabrina Bentzien
Methode: Logistische Regression
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Methode: Logistische Regression
z: Prädiktor
f(z): Wahrscheinlichkeit, dass ein Ereignis eintrifftals parametrische Funktion
Ziel: Schätzung der Koeffizienten / Parameter von f(z )
∞∞ z
f(z)
-
Que
lle:
wik
iped
ia
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
• stündliche Niederschlagsdaten (COSMO-DE Ensemble, RADAR Komposit)
• Kombination von Physik und Randstörungen: 20.Mai - 30.September 2009
• Fokus (zunächst) auf Tagessummen
• Verfügbarkeit - 15 Member-Ensemble :
20.Mai – 13.Juni
14 Tage = 54 %
Trainingsdaten Verifikationsdaten
� relativ wenig Daten
Verwendete Datensätze
14.Juni – 30 September
55 Tage = 50 %
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Kurvenfit für Prädiktor „Wahrscheinlichkeit“
EPS Wahrscheinlichkeit
WS
: OB
S >
Sch
wel
lenw
ert
EPS Wahrscheinlichkeit
0.1 mm/24h
Häu
figke
it 0.1 mm/24h
EPS Wahrscheinlichkeit
5 mm/24h
EPS Wahrscheinlichkeit
5 mm/24h
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Verifikation: unkalibriert gegen kalibriert
rela
tive
Häu
figke
it: R
adar
EPS Wahrscheinlichkeit EPS Wahrscheinlichkeit
0.1 mm/24h 5 mm/24h
unkalibriertes Ensemble
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Verifikation: unkalibriert gegen kalibriert
rela
tive
Häu
figke
it: R
adar
EPS Wahrscheinlichkeit EPS Wahrscheinlichkeit
0.1 mm/24h 5 mm/24h
unkalibriertes Ensemble
kalibriertes Ensemble
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Verifikation: unkalibriert gegen kalibriert
rela
tive
Häu
figke
it: R
adar
EPS Wahrscheinlichkeit EPS Wahrscheinlichkeit
0.1 mm/24h 5 mm/24h
unkalibriertes Ensemble
kalibriertes Ensemble
Pre-Processing
der Prädiktor-Daten
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Pre-Processing der Daten ���� Transformation der Prädiktordaten
Wahrscheinlichkeit ∈∈∈∈ [0,...,1], aber Logistische Regression ∈∈∈∈ ]-∞,...,∞[
Lässt sich Transformation besser parametrisch approximieren ?
Prädiktor „Wahrscheinlichkeit“ P ���� Prädiktor „f( P)“
f(P) = tan[g( P)]
∞∞ z-
Que
lle:
wik
iped
ia
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
0.1 mm/24h 5 mm/24h
WS
: OB
S >
Sch
wel
lenw
ert
Trafo EPS Wahrscheinlichkeit Trafo EPS Wahrscheinlichkeit
WS
: OB
S >
Sch
wel
lenw
ert
EPS Wahrscheinlichkeit
0.1 mm/24h
EPS Wahrscheinlichkeit
5 mm/24h
vorher
nachher
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
0.1 mm/24h 5 mm/24h
WS
: OB
S >
Sch
wel
lenw
ert
Trafo EPS Wahrscheinlichkeit Trafo EPS Wahrscheinlichkeit
WS
: OB
S >
Sch
wel
lenw
ert
EPS Wahrscheinlichkeit
0.1 mm/24h
EPS Wahrscheinlichkeit
5 mm/24h
vorher
nachher
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Pre-Processing der Daten ���� Häufigkeitsverteilung „tunen“
� Kurvenfit dominiert von „0“ (und „1“) - Kategorie!
� Sichtweise: alle Kategorien sind gleich wichtig
� Häufigkeit je Kategorie gleichsetzen, Wahrscheinlichkeit festhalten
0.1 mm/24h 0.1 mm/24h
Trafo EPS Wahrscheinlichkeit Trafo EPS Wahrscheinlichkeit
WS
: OB
S >
Sch
wel
lenw
ert
WS
: OB
S >
Sch
wel
lenw
ert
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Pre-Processing der Daten ���� Maskierung von „Nullen“
• Problem: Prob(Precip) ≈ 0 in Regionen mit unsicherer Lokalisierung desNiederschlags ⇒ starkes Potential für Fehlvorhersagen mit „Wirkung“
Wirkung hängt vom Betrachter / Nutzer ab
• Ursache: unzureichende Darstellung der Unsicherheit in der Ensemble-Vorhersage (Unterdispersivität)über viele Fälle betrachtet und/oder im Einzelfall
• Problem eventuell verstärkt durch Eigenschaften des Trainingsdatensatzes
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Pre-Processing der Daten ���� Maskierung von „Nullen“
• Problem: Prob(Precip) ≈ 0 in Regionen mit unsicherer Lokalisierung desNiederschlags ⇒ starkes Potential für Fehlvorhersagen mit „Wirkung“
Wirkung hängt vom Betrachter / Nutzer ab
• Ursache: unzureichende Darstellung der Unsicherheit in der Ensemble-Vorhersage (Unterdispersivität)über viele Fälle betrachtet und/oder im Einzelfall
• Problem eventuell verstärkt durch Eigenschaften des Trainingsdatensatzes
Es gibt Wettersituation, in denen die (Thermo)dynamik der Atmosphäre großflächig keinen Niederschlag erlaubt (in Beob. und Ensemble)
Viele solcher Situationen in den Trainingsdaten begünstigen kalib. Prob ≈ 0, wenn alle Member ein Ereignis nicht vorhersagen
Sollten diese Daten in Schätzung und Anwendung der Kalibrierungsfunktion berücksichtigt werden?
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Pre-Processing der Daten ���� Maskierung von „Nullen“
• (vorläufige) Entscheidung: Ausschluss solcher Daten in Training undAnwendung der Kalibrierung
• Ausschluss-Kriterium unklar, gewähltes Kriterium subjektiv
• heuristisch (mathematisch nicht fundiert)
• positiver und wichtiger Effekt auf die Qualität der kalibriertenNiederschlagswahrscheinlichkeiten
• schnelles Verfahren
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Pre-Processing der Daten ���� Maskierung von „Nullen“
Suboptimales Kriterium für suboptimale Maskierung:
EPS-mean > 0
+ N Gitterpunkte Umgebung
Nach Kalibrierung:
Prob > 0 in Umgebung von (lokalen) Niederschlägen
Prob = 0, wo großräumig in allen Membern kein Niederschlag vorhergesagt
EPS-mean
Maskierung
1
0
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
„Finale“ Verifikation 0.1 mm/24h 5 mm/24h
unkalibriertes Ensemble
kalibriertes Ensemble ohne Pre-Processing
kalibriertes Ensemble mit Pre-processing
EPS Wahrscheinlichkeit EPS Wahrscheinlichkeit
rela
tive
Häu
figke
it: R
adar
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Verifikation – „Brier Skill Score“
unkalibriert
Brie
r S
kill
Sco
re
0
0.1
0.2
0.4
Schwellenwert in mm/24h
0.1 0.5 1 2 5 10
0.3
einfach kalibriert
kalibriert mit Pre-Processing
Referenz:
deterministisches COSMO-DE
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Verifikation – „Brier Skill Score“B
rier
Ski
ll S
core
0
0.04
0.08
0.12
Schwellenwert in mm/24h
0.1 0.5 1 2 5 10
Referenz: unkalibriertes EPS
einfach kalibriert
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Verifikation – „Brier Skill Score“B
rier
Ski
ll S
core
0
0.04
0.08
0.12
Schwellenwert in mm/24h
0.1 0.5 1 2 5 10
Referenz: unkalibriertes EPS
Maskierung
einfach kalibriert
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Verifikation – „Brier Skill Score“B
rier
Ski
ll S
core
0
0.04
0.08
0.12
Schwellenwert in mm/24h
0.1 0.5 1 2 5 10
Referenz: unkalibriertes EPS
Maskierung
+ Transformation
einfach kalibriert
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Verifikation – „Brier Skill Score“B
rier
Ski
ll S
core
0
0.04
0.08
0.12
Schwellenwert in mm/24h
0.1 0.5 1 2 5 10
Referenz: unkalibriertes EPS
Maskierung
+ Gleichgewichtung
+ Transformation
einfach kalibriert
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Ausblick / offene Fragen
• Datensatz vergrößern
• Was ist ein geeigneter Trainingsdatensatz?
• Eigenschaften der kalibrierten WahrscheinlichkeitsFELDER
• Bootstrapping (Bsp.: 200 Schritte mit je 80 % der Daten)⇒ Fehlerbalken für Regressionskoeffizienten
• Anwendung auf kleinere Akkumulationszeiträume (12h, 6h, 3h, 1h)
• Andere Schwellenwerte
• Regionalisierung
• Kooperation im Rahmen der universitären Forschung Uni Bonn (Poster 10, S. Bentzien)Uni Heidelberg
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Ausblick / offene Fragen
• Datensatz vergrößern
• Was ist ein geeigneter Trainingsdatensatz?
• Eigenschaften der kalibrierten WahrscheinlichkeitsFELDER
• Bootstrapping (Bsp.: 200 Schritte mit je 80 % der Daten)⇒ Fehlerbalken für Regressionskoeffizienten
• Anwendung auf kleinere Akkumulationszeiträume (12h, 6h, 3h, 1h)
• Andere Schwellenwerte
• Regionalisierung
• Kooperation im Rahmen der universitären Forschung Uni Bonn (Poster 10, S. Bentzien)Uni Heidelberg
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Zusammenfassung• Kalibrierung für Niederschlag: Methode der Logistischen Regression
• 24h-Summen: nur 14 Tage Training, 55 Tage Verifikation
• Verifikation einfach kalibriert gegen unkalibriert zeigt kaum Verbesserungen
• Pre-Processing der Prädiktor-Daten
- Maskierung von „Nullen“
- Transformation (Wertebereich)
- Gleichgewichtung
• Kurvenfit wesentlich besser (alle Schwellenwerte)
• Verifikationsergebnisse zeigen deutlichen Qualitätsgewinn
Marcus Paulat Christoph Gebhardt
Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten
DACH Bonn 24.09.2010
Vielen Dank!