parameteranpassung mit der...

Report

Post on 14-Aug-2019

223 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

KIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Fakultät für PhysikInstitut für Experimentelle Kernphysik

www.kit.edu

Vorlesung: Rechnernutzung in der Physik

Parameteranpassung mit der Likelihood-Methode Günter Quast

WS 2018/19

Organisatorisches

Bitte melden Sie sich im Studierendenportal zur Veranstaltung Rechnernutzung in der Physik an !

Wiederholung

Parameteranpassung

Parameterschätzung (neudeutsch „fitten“)

Anpassung von Modellen = parameterabhängige Funktionen an statistische Daten = Messwerte

Messdaten ( xi , yi ) mit angepasster Funktion f(x;p)p ist der Vektor der Parameter der Funktion

y⃗

Bekanntes Verfahren: S = Summe der Residuenquadrate bzgl. der Parameter minimieren

σi2 sind die Varianzen der N Messungen yi

Falls die Fehler korreliert sind, ersetze 1/σi

2 → cov -1 (Inverse der Kovarianzmatrix)

Methode der „kleinsten Feherquadrate“ bzw. „χ2 – Methode“

Erinnerung: Messung ↔ Funktionswert

=Messung mit Fehlerbalken

wahrer Wert

übliche Darstellung

Mess-punkt

Wahrscheinlichkeitsverteilung um den wahren Wert

eigentliche Bedeutung

Fehlerbalken entspricht ±1σ dieser Gaußkurve

Messung mit Fehlerbalken bedeutet: Beobachtung eines Messergebnisses, das der Summe aus einem „wahren“ Wert und einer Zufallszahl aus einer Verteilungsdichte entspricht

Erinnerung: Summe der „Residuenquadrate“ (χ2-Methode)

Sind die Unsicherheiten korreliert, also durch eine Kovarianzmatrix V beschrieben, „ersetze“ 1/σi

2 → V -1

(Inverse der Kovarianzmatrix) .

Allgemein in vektorieller Schreibweise

N Beobachtungen yi, Modellfunktion f bei Werten xi , k Parameter {p}

Spezialfall unkorrelierter Unsicherheiten:

Minimieren von S bzgl. liefert die Bestwerte

folgte einer χ2 -Verteilung mit nf = N - k Freiheitsgraden (wenn die Unsicherheiten gaußförmig sind)

Mittelwert von 10 Messungen yi mit Unsicherheiten σ

entspricht Anpassung einer konstanten Funktion f(x;c)=c

Beispiel mit einem Parameter

analytisch:

identisch zum „Mittelwert“

berechnen und grafisch darstellen

„numerisch“: Script PlotAverage-withChi2.py

Maximum Likelihood Methode

Literatur zum Theoretischen Hintergrund

Kleinste Quadrate & Maximum Likelihood

Messung

kleinster Abstand Messung ↔ Erwartungswert

Minimiere Abstandvom Sollwert

Maximale Wahrscheinlichkeit

Maximiere Höhe der pdf

Zwei Möglichkeiten, die am besten zur Messung passende Verteilung zu finden:

Likelihood-MethodeBeide Methoden bevorzugen in diesem Beispiel die durchgezogene Verteilung

Likelihood-Methode

Als Verteilungsdichte p( x; a ) ist positiv und normiert (bzgl. x, aber nicht bzgl. a !)

Mehrere unabhängige Messgrößen xi , i = 1, …, n einer Größe

folgen einer Verteilungsdichte p(x,a) mit Parametern ai.

„Likelihood“ ist das Produkt der Wahrscheinlichkeiten p(xi |a ) aller Messungen

Beispiel: 7 Messungen

Skript

Likelihood-pdf.py

[** Anmerkung Likelihood-Methode ]

Mit Hilfe der Likelihood-Methode können neben der Parameterabhängigkeit auch verschiedene Verteilungen verglichen werden:

Wichtig für „Hypothesentests“

Maximum Likelihood-PrinzipLikelihood-Funktion L : Produkt der Werte der Wahrscheinlichkeitsdichte P

i für

n unabhängige Messungen xi :

hängt nur noch von den Parametern p ab !

Maximum-Likelihood-Prinzip: Der beste Schätzwert für den Parametervektor ist derjenige, der die Likelihood-Funktion maximiert

negativer Logarithmus der Likelihood-Funktion:

Bedingung für Optimum:

Beispiel: Likelihood der Gaußverteilung

Gleichung einer Parabel in μ

Beispiele für Likelihood-Schätzungen

Erwartungswert gaußverteilter Messungen:

→

Bedingung für Extremum:

Formel für Mittelwert

Bekannte Formel für Standardabweichung (aber ohne Korrektur auf Verzerrung !)

neg. logLikelihood der Gaußverteilung

9 Zahlen aus Gaußverteilung mit μ=10 und σ= 0.1μ :

10.82259763 11.5802395 10.20363144 9.56501373 10.40566633 10.51476713 11.01537678 11.31607015 9.13313329

Darstellung des negativen Logarithmus derLikelihood-Funktion für1, 2, … , 9 Messungen

Skript nlLGauss.py

Parabeln, die mit steigender Zahlder Messungen immer schärferum den Mittelwert zentriert sind

Beispiele für Likelihood-Schätzungen

Erwartungswert gaußverteilter Messungen mit verschiedenen Unsicherheiten:

→

Bedingung für Extremum:

Mit 1 / σi 2 gewichtete Summe der Messwerte (auch altbekannt)

hängt nicht von μ ab

Beispiel: Likelihood beim MünzwurfErinnerung: Binomialverteilung beim Wurf einer Münze:

relative Häufigkeit des Auftretens des Ergebnisses „Kopf“

Für einige der Ergebnisse aus der Reihe von Münzwürfen oben ist nebenan die jeweilige Likelihood-Funktion gezeigt:

Mit zunehmender Zahl an Würfen wird der Parameter p durch die Likelihood-Funktion immer genauer eingegrenzt

ist eine Funktiondes Parameters p für gegebeneBeobachtung (N, k )

Skript nlLCoin.py

Beispiele für Likelihood-Schätzungen

Lebensdauer aus Exponentialverteilung:→

Bedingung für Extremum:

Mittelwert der gemessenen Lebensdauern (deshalb heißt τ ja auch „mittlere Lebensdauer“ )

s. Skript nlLExp.py

neg. logL-Kurven sind kein Parabeln !

Hineinzoomen ininteressantenBereich: → näherungsweise parabolisch

Parameterunsicherheiten mit Hilfe der Likelihood-Funktion

Maximum-Likelihood: Prameterunsicherheiten

Anschaulich:

Je schärfer das Minimum von -lnL(a), desto kleiner die Parameterfehler:

F(a)

scharfes Minimum: große Krümmung

Parameterunsicherheitenflaches Minimum: kleine KrümmungF(a)

Maximum-Likelihood: Prameterunsicherheiten

Mathematisch exakt: die angegebenen Fehlerabschätzungen sind Untergrenzen

Nur für Parabel-förmigenVerlauf von F(a) sind diebeiden Fehlerdefinitionenäquivalent

Varianz ≈ 1 / Krümmung 1/σ2 ≈ ∂2F / ∂a2

bei mehreren Parametern ai:

(cov-1)ij ≈ ∂2F / ∂ai ∂aj

±1σ - Intervall (=68%) aus ΔF = 0.5

Typischer Verlauf einer negativen log-Likelihood Funktion und ihrer 1. und 2. Ableitungen

F(a) näherungsweise quadratisch um das Minimum;

1. Ableitung näherungsweise linear, =0 am Minimum

2. Ableitung ~ konstant

Parabel ausKrümmung am Minimum

±1σ

Prameterunsicherheiten (2)

näherungsweise parabelförmig

Likelihood = exp(-F(a)) als Verteilungsdichte in a auffassen:

ist Gauß-Verteilung (mit Normierungsfaktor A) Standardabweichung gegeben durch

weiter gilt mit dieser Beziehung für σ:

Plausibilitätserklärung (kein Beweis, Stichwort „Cramer-Rao-Frechet Grenze“)

nur ein Parameter a, betrachten Taylor-Entwicklung von F(a) um Minimum:

Einschub: Parabel-Eigenschaften

Wenn F(a) eine negative Log-Likelihood Funktion ist, dann ist

allg. Darstellung einer Parabel

exakt nur für Gauß-Verteilungen

Beispiele für Likelihood-Schätzungen

gaußverteilter Messungen:

→

Bedingung für Extremum:

Bekannte Formel für den Mittelwert

Beispiel von eben: Unsicherheit auf den Erwartungswert

zweite Ableitung:

d.h. Unsicherheit des Mittelwerts: σ/ √N (Sie erinnern sich hoffentlich !?)

Prameterunsicherheiten (3)

zur Fehlerbestimmung aus F(a):

Log-Likelihood- Differenz bestimmt Fehler. Vorteil dieser Methode: invariant unter Variablentransformation a → a'(a):

F(a) – F(â) = F( a'(a) ) – F( a'(â) )

Fehlerbestimmung: | Δ (-ln L ) ___________________________

1σ | 0.5 2σ | 2.0 3σ | 4.5 n σ | n2/2

Wichtig, wenn –ln L nicht parabelförmig in der Nähe des Minimums: Angabe eines asymmetrischen Fehlerintervalls

Das so bestimme Unsicherheitsintervall entspricht±1σ-Bereich einer Gaußverteilung → 68% Konfidenz-Intervall

Zusammenhang -ln L und χ2

Fehlerbestimmung: |Δ (-ln L)| Δχ2

____________________________

1σ | 0.5 | 1 2σ | 2.0 | 4 3σ | 4.5 | 9 n σ | n2/2 | n2

Für Gauß-förmig um f(xi; a) verteilte Messungen yi ist die χ2 Methode äquivalent zur -lnL-Methode :

χ2

const. bzgl. a

Minimieren von -ln L ↔ Minimieren von χ2

∆(-ln L) = ½ ∆χ2

∂2(-ln L) / ∂ai∂aj = ½ ∂χ2 / ∂ai∂aj

Bei anderen als Gauß-förmigen Fehlerverteilungen ist χ2 eine eigenständige Methode; - bei unbekannter Fehlerverteilung haben wir keine bessere - χ2 ist optimal für die Anpassung von Linearkombinationen von Fit-Funktionen

Maximum Likelihood vs. Kleinste Quadrate

Maximum - Likelihood Kleinste Quadrate

Voraussetzung PDF exakt bekannt Mittelwert und Varianz bekannt

Methode Höhe der PDF Abweichung vom Mittelwert der PDF

Effizienz maximal maximal bei linearen Problemen

Komplexität aufwändig, meist nicht-linear oft linear und exakt lösbar

Robustheit nein - PDF muss exakt bekannt sein

nein („Ausreißer“)

korrelierte Datenfehler

u.U. kompliziert einfach über Kovarianzmatrix

Güte der Anpassung

nein ja: χ2-Wahrscheinlichkeit

Bias (dt. Verzerrung)

i.A. ja nein bei linearen Problemen (wenn Fehler der Daten unverzerrt sind)

Spezialfall identisch bei Gauß-förmigen Fehlern

Profile LikelihoodOft interessieren nur wenige der Parameter einer Anpassung:

● t = (a1, …, a

k )

die anderen sind „Störparameter“ (engl. nuisance parameters):

● r = (ak+1

, …, am

)

Bei mehreren Parmetern ti : zur Fehlerbestimmung von ti muss die Likelihood bzgl. aller anderen Parameter aj; j≠i minimiert werden („Profile Likelihood“) (MINOS-Verfahren in MINUIT)

Frage: Unsicherheit von t für alle möglichen Werte von r ? Antwort: Profile Likelihood

Verfahren:

● zunächst Minimierung bzgl. r für feste werte von ti

● 1-Intervall auf t bestimmt durch

Beispiel zur Profile Likelihood

Das Verfahren in der Praxis am Beispiel der Anpassung einer Exponentialfunktion an Zeitmessungen mit Untergrund im Wertebereich ti ∈ [0, b]:

von Interesse ist die Lebensdauer τ, der Untergrundanteil fb ist der Störparameter

Der Algorithmus:

• für feste Werte τi in der Nähe des Minimums wird bzgl. fb minimiert →

• das 68% CL - Intervall wird bei

abgelesen

68%Skript: Übungsaufgabe !

Beispiel zur Profile-Likelihood

– deutlicher Unterschied zwischen parabolischer Annahme und Profile- Likelihood

– Konfidenz-Konturen sind keine Ellipsen

Pofile-Likelihood in 2 Dimensionen zur Bestimmung von Konfidenzkonturen

-2 Δ

ln(L

)

erstellt mit kafe http://www.ekp.kit.edu/~quast/kafe

Sommerstudentenprogramme

http://www.ekp.kit.edu/~quast/kafe

Sommerstudentenprogramm

31-Jan-2019

https://home.cern/summer-student-programme

Sommerstudentenprogramme

https://summerstudents.desy.de/

top related

parameteranpassung mit der...

Documents

module 3.3 und 3.4 sommersemester 04 -...

interdisziplinäre therapie der hirntumore -...

vorlesungsfolien "stamp/stpa" zur vorlesung "sichere und...

03 geostatistik 2012 - hydrogm.uni-jena.de · • vergleich...

parameteranpassung mit der likelihood-methode...

pseude-likelihood-methode seminar: grundlagen der ......

© wandel.drive 04 das elaboration – likelihood - modell...

robert-koch-institut geschätzte erkrankungsfälle (absolut...

frei verwendbar / © siemens ag 2015. alle rechte...

brauerstr. 320 / 16321 bernau bei berlin mo. mi. fr. 9°° -...

wie schätzt man die zahl der fische in einem see?...

vorlesung: rechnernutzung in der physik -...

18.11.05 1 das elaboration- likelihood modell von petty &...

maximum-likelihood-methode (ml-methode) - lehrstab...

krankengeschichte i -...

forensischer stimmenvergleich: der likelihood-ratio-ansatz...

adobe illustrator teil 2 -...

generalised linear mixed models: likelihood and … › ......

modul 3.3 blut & knochenmark -...

klinisch-arzneitherapeutische konferenz: infektionen bei...