parameteranpassung mit der...
Post on 14-Aug-2019
223 Views
Preview:
TRANSCRIPT
KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Fakultät für PhysikInstitut für Experimentelle Kernphysik
www.kit.edu
Vorlesung: Rechnernutzung in der Physik
Parameteranpassung mit der Likelihood-Methode Günter Quast
WS 2018/19
Organisatorisches
Bitte melden Sie sich im Studierendenportal zur Veranstaltung Rechnernutzung in der Physik an !
Wiederholung
Parameteranpassung
Parameterschätzung (neudeutsch „fitten“)
Anpassung von Modellen = parameterabhängige Funktionen an statistische Daten = Messwerte
Messdaten ( xi , yi ) mit angepasster Funktion f(x;p)p ist der Vektor der Parameter der Funktion
y⃗
Bekanntes Verfahren: S = Summe der Residuenquadrate bzgl. der Parameter minimieren
σi2 sind die Varianzen der N Messungen yi
Falls die Fehler korreliert sind, ersetze 1/σi
2 → cov -1 (Inverse der Kovarianzmatrix)
Methode der „kleinsten Feherquadrate“ bzw. „χ2 – Methode“
Erinnerung: Messung ↔ Funktionswert
=Messung mit Fehlerbalken
wahrer Wert
übliche Darstellung
Mess-punkt
Wahrscheinlichkeitsverteilung um den wahren Wert
eigentliche Bedeutung
Fehlerbalken entspricht ±1σ dieser Gaußkurve
Messung mit Fehlerbalken bedeutet: Beobachtung eines Messergebnisses, das der Summe aus einem „wahren“ Wert und einer Zufallszahl aus einer Verteilungsdichte entspricht
Erinnerung: Summe der „Residuenquadrate“ (χ2-Methode)
Sind die Unsicherheiten korreliert, also durch eine Kovarianzmatrix V beschrieben, „ersetze“ 1/σi
2 → V -1
(Inverse der Kovarianzmatrix) .
Allgemein in vektorieller Schreibweise
N Beobachtungen yi, Modellfunktion f bei Werten xi , k Parameter {p}
Spezialfall unkorrelierter Unsicherheiten:
Minimieren von S bzgl. liefert die Bestwerte
folgte einer χ2 -Verteilung mit nf = N - k Freiheitsgraden (wenn die Unsicherheiten gaußförmig sind)
Mittelwert von 10 Messungen yi mit Unsicherheiten σ
entspricht Anpassung einer konstanten Funktion f(x;c)=c
Beispiel mit einem Parameter
analytisch:
identisch zum „Mittelwert“
berechnen und grafisch darstellen
„numerisch“: Script PlotAverage-withChi2.py
Maximum Likelihood Methode
Literatur zum Theoretischen Hintergrund
Kleinste Quadrate & Maximum Likelihood
Messung
kleinster Abstand Messung ↔ Erwartungswert
Minimiere Abstandvom Sollwert
Maximale Wahrscheinlichkeit
Maximiere Höhe der pdf
Zwei Möglichkeiten, die am besten zur Messung passende Verteilung zu finden:
Likelihood-MethodeBeide Methoden bevorzugen in diesem Beispiel die durchgezogene Verteilung
Likelihood-Methode
Als Verteilungsdichte p( x; a ) ist positiv und normiert (bzgl. x, aber nicht bzgl. a !)
Mehrere unabhängige Messgrößen xi , i = 1, …, n einer Größe
folgen einer Verteilungsdichte p(x,a) mit Parametern ai.
„Likelihood“ ist das Produkt der Wahrscheinlichkeiten p(xi |a ) aller Messungen
Beispiel: 7 Messungen
Skript
Likelihood-pdf.py
[** Anmerkung Likelihood-Methode ]
Mit Hilfe der Likelihood-Methode können neben der Parameterabhängigkeit auch verschiedene Verteilungen verglichen werden:
Wichtig für „Hypothesentests“
Maximum Likelihood-PrinzipLikelihood-Funktion L : Produkt der Werte der Wahrscheinlichkeitsdichte P
i für
n unabhängige Messungen xi :
hängt nur noch von den Parametern p ab !
Maximum-Likelihood-Prinzip: Der beste Schätzwert für den Parametervektor ist derjenige, der die Likelihood-Funktion maximiert
negativer Logarithmus der Likelihood-Funktion:
Bedingung für Optimum:
Beispiel: Likelihood der Gaußverteilung
Gleichung einer Parabel in μ
Beispiele für Likelihood-Schätzungen
Erwartungswert gaußverteilter Messungen:
→
Bedingung für Extremum:
Formel für Mittelwert
Bekannte Formel für Standardabweichung (aber ohne Korrektur auf Verzerrung !)
neg. logLikelihood der Gaußverteilung
9 Zahlen aus Gaußverteilung mit μ=10 und σ= 0.1μ :
10.82259763 11.5802395 10.20363144 9.56501373 10.40566633 10.51476713 11.01537678 11.31607015 9.13313329
Darstellung des negativen Logarithmus derLikelihood-Funktion für1, 2, … , 9 Messungen
Skript nlLGauss.py
Parabeln, die mit steigender Zahlder Messungen immer schärferum den Mittelwert zentriert sind
Beispiele für Likelihood-Schätzungen
Erwartungswert gaußverteilter Messungen mit verschiedenen Unsicherheiten:
→
Bedingung für Extremum:
Mit 1 / σi 2 gewichtete Summe der Messwerte (auch altbekannt)
hängt nicht von μ ab
Beispiel: Likelihood beim MünzwurfErinnerung: Binomialverteilung beim Wurf einer Münze:
relative Häufigkeit des Auftretens des Ergebnisses „Kopf“
Für einige der Ergebnisse aus der Reihe von Münzwürfen oben ist nebenan die jeweilige Likelihood-Funktion gezeigt:
Mit zunehmender Zahl an Würfen wird der Parameter p durch die Likelihood-Funktion immer genauer eingegrenzt
ist eine Funktiondes Parameters p für gegebeneBeobachtung (N, k )
Skript nlLCoin.py
Beispiele für Likelihood-Schätzungen
Lebensdauer aus Exponentialverteilung:→
Bedingung für Extremum:
Mittelwert der gemessenen Lebensdauern (deshalb heißt τ ja auch „mittlere Lebensdauer“ )
s. Skript nlLExp.py
neg. logL-Kurven sind kein Parabeln !
Hineinzoomen ininteressantenBereich: → näherungsweise parabolisch
Parameterunsicherheiten mit Hilfe der Likelihood-Funktion
Maximum-Likelihood: Prameterunsicherheiten
Anschaulich:
Je schärfer das Minimum von -lnL(a), desto kleiner die Parameterfehler:
a
F(a)
scharfes Minimum: große Krümmung
Parameterunsicherheitenflaches Minimum: kleine KrümmungF(a)
a
Maximum-Likelihood: Prameterunsicherheiten
Mathematisch exakt: die angegebenen Fehlerabschätzungen sind Untergrenzen
Nur für Parabel-förmigenVerlauf von F(a) sind diebeiden Fehlerdefinitionenäquivalent
Varianz ≈ 1 / Krümmung 1/σ2 ≈ ∂2F / ∂a2
bei mehreren Parametern ai:
(cov-1)ij ≈ ∂2F / ∂ai ∂aj
±1σ - Intervall (=68%) aus ΔF = 0.5
Typischer Verlauf einer negativen log-Likelihood Funktion und ihrer 1. und 2. Ableitungen
F(a) näherungsweise quadratisch um das Minimum;
1. Ableitung näherungsweise linear, =0 am Minimum
2. Ableitung ~ konstant
Parabel ausKrümmung am Minimum
±1σ
Prameterunsicherheiten (2)
näherungsweise parabelförmig
Likelihood = exp(-F(a)) als Verteilungsdichte in a auffassen:
ist Gauß-Verteilung (mit Normierungsfaktor A) Standardabweichung gegeben durch
weiter gilt mit dieser Beziehung für σ:
Plausibilitätserklärung (kein Beweis, Stichwort „Cramer-Rao-Frechet Grenze“)
nur ein Parameter a, betrachten Taylor-Entwicklung von F(a) um Minimum:
Einschub: Parabel-Eigenschaften
Wenn F(a) eine negative Log-Likelihood Funktion ist, dann ist
allg. Darstellung einer Parabel
exakt nur für Gauß-Verteilungen
Beispiele für Likelihood-Schätzungen
gaußverteilter Messungen:
→
Bedingung für Extremum:
Bekannte Formel für den Mittelwert
Beispiel von eben: Unsicherheit auf den Erwartungswert
zweite Ableitung:
d.h. Unsicherheit des Mittelwerts: σ/ √N (Sie erinnern sich hoffentlich !?)
Prameterunsicherheiten (3)
zur Fehlerbestimmung aus F(a):
Log-Likelihood- Differenz bestimmt Fehler. Vorteil dieser Methode: invariant unter Variablentransformation a → a'(a):
F(a) – F(â) = F( a'(a) ) – F( a'(â) )
Fehlerbestimmung: | Δ (-ln L ) ___________________________
1σ | 0.5 2σ | 2.0 3σ | 4.5 n σ | n2/2
Wichtig, wenn –ln L nicht parabelförmig in der Nähe des Minimums: Angabe eines asymmetrischen Fehlerintervalls
Das so bestimme Unsicherheitsintervall entspricht±1σ-Bereich einer Gaußverteilung → 68% Konfidenz-Intervall
Zusammenhang -ln L und χ2
Fehlerbestimmung: |Δ (-ln L)| Δχ2
____________________________
1σ | 0.5 | 1 2σ | 2.0 | 4 3σ | 4.5 | 9 n σ | n2/2 | n2
Für Gauß-förmig um f(xi; a) verteilte Messungen yi ist die χ2 Methode äquivalent zur -lnL-Methode :
χ2
const. bzgl. a
Minimieren von -ln L ↔ Minimieren von χ2
∆(-ln L) = ½ ∆χ2
∂2(-ln L) / ∂ai∂aj = ½ ∂χ2 / ∂ai∂aj
Bei anderen als Gauß-förmigen Fehlerverteilungen ist χ2 eine eigenständige Methode; - bei unbekannter Fehlerverteilung haben wir keine bessere - χ2 ist optimal für die Anpassung von Linearkombinationen von Fit-Funktionen
Maximum Likelihood vs. Kleinste Quadrate
Maximum - Likelihood Kleinste Quadrate
Voraussetzung PDF exakt bekannt Mittelwert und Varianz bekannt
Methode Höhe der PDF Abweichung vom Mittelwert der PDF
Effizienz maximal maximal bei linearen Problemen
Komplexität aufwändig, meist nicht-linear oft linear und exakt lösbar
Robustheit nein - PDF muss exakt bekannt sein
nein („Ausreißer“)
korrelierte Datenfehler
u.U. kompliziert einfach über Kovarianzmatrix
Güte der Anpassung
nein ja: χ2-Wahrscheinlichkeit
Bias (dt. Verzerrung)
i.A. ja nein bei linearen Problemen (wenn Fehler der Daten unverzerrt sind)
Spezialfall identisch bei Gauß-förmigen Fehlern
Profile LikelihoodOft interessieren nur wenige der Parameter einer Anpassung:
● t = (a1, …, a
k )
die anderen sind „Störparameter“ (engl. nuisance parameters):
● r = (ak+1
, …, am
)
Bei mehreren Parmetern ti : zur Fehlerbestimmung von ti muss die Likelihood bzgl. aller anderen Parameter aj; j≠i minimiert werden („Profile Likelihood“) (MINOS-Verfahren in MINUIT)
Frage: Unsicherheit von t für alle möglichen Werte von r ? Antwort: Profile Likelihood
Verfahren:
● zunächst Minimierung bzgl. r für feste werte von ti
● 1-Intervall auf t bestimmt durch
Beispiel zur Profile Likelihood
Das Verfahren in der Praxis am Beispiel der Anpassung einer Exponentialfunktion an Zeitmessungen mit Untergrund im Wertebereich ti ∈ [0, b]:
von Interesse ist die Lebensdauer τ, der Untergrundanteil fb ist der Störparameter
Der Algorithmus:
• für feste Werte τi in der Nähe des Minimums wird bzgl. fb minimiert →
• das 68% CL - Intervall wird bei
abgelesen
68%Skript: Übungsaufgabe !
Beispiel zur Profile-Likelihood
– deutlicher Unterschied zwischen parabolischer Annahme und Profile- Likelihood
– Konfidenz-Konturen sind keine Ellipsen
Pofile-Likelihood in 2 Dimensionen zur Bestimmung von Konfidenzkonturen
-2 Δ
ln(L
)
erstellt mit kafe http://www.ekp.kit.edu/~quast/kafe
Sommerstudentenprogramm
31-Jan-2019
https://home.cern/summer-student-programme
Sommerstudentenprogramme
https://summerstudents.desy.de/
top related