bigbigbackgroundbackgroundStatistische Methoden in der Hochenergiephysik
Sebastian Naumann
5. Februar 2005
v e r s u ss m a l ls m a l l
s i g n a l ss i g n a l s
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 2
Übersicht
• Allgemeines
• Root
• Einfache Schnitte
• Likelihood-Methode
• Neuronale Netze
• Range-Searching
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 3
Allgemeines
Statistik: mathematische Disziplin, die sich mit der Analyse von Daten und der Überprüfung von Hypothesen mit den Mitteln der Wahrscheinlich-
keitsrechnung beschäftig.
Die ersten statistischen Methoden wurden im Zusammenhang mit Glücksspielen entwickelt (Huygens, Bernoulli, Laplace, Pascal).
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 4
Allgemeines
Statistik
Theorie
Experiment
Modelle Hypothesen
PDF‘sMonte Carlo
Beobach- tungen
Messergebnisse
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 5
Allgemeines
Besondere Anforderungen an statistischeMethoden in der Hochenergiephysik:
• hohe Ereignisraten
• kleine Verzweigungsverhältnisse
Effizienz bzgl. Schnelligkeit, Datenvolumen und korrekter Signalklassifikation
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 6
Allgemeines
Beispiel: Messung in zwei Variablen
• Experiment:
• Theorie:
Aufgabe: Trenne Signal- von Untergrund-Ereignissen
BS
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 7
Allgemeines
• Signal-Effizienz:
• Signal-Reinheit:
• „Signal-over-noise“:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 8
Root
• ist ein „Framework“ für C++
• wird seit 1994 entwickelt, federführend am CERN
• wird an allen großen Einrichtungen der Kern- und Teilchenphysik genutzt, zunehmend auch in anderen Bereichen (Medizin, Wirtschaft)
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 9
Root
• Befehlszeilen-Interpreter undSkript-Prozessor
• Templates fürgraphischeBenutzer-oberflächen
• Tools für I/O, Histogramme, Fitting...
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 10
Einfache Schnitte
13 31
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 11
Einfache Schnitte
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 12
Likelihood-Methode
• Idee: schneide nicht direkt auf den einzelnen Variablen xi sondern auf einer Diskriminante
• Die Diskriminante bildet den Vektor (x1,...,xn) auf einen Skalar ab und ermöglicht die Trennung von Signal und Untergrund
• Verwende dazu Wahrscheinlichkeitsverteilungen (z.B. aus Monte Carlo):
Normierung:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 13
Likelihood-Methode
• Wahrscheinlichkeit, dass ein gemessener Wert xi aus der Klasse j{s,b} stammt:
• Likelihood-Funktion:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 14
Likelihood-Methode
Signal-Likelihood für das zweidimensionale Beispiel:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 15
Likelihood-Methode
Background-Likelihood für das zweidimensionale Beispiel:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 16
Likelihood-Methode
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 17
Likelihood-Methode
Klassische Schnitte Likelihood-Methode
Vergleich:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 18
Neuronale Netze
Nervenzelle: Modellneuron:
Leistungsmerkmale neuronaler Netwerke: Parallelität, Fehlertoleranz,Assoziation, Abstraktion, Mustererkennung, Lernfähigkeit...
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 19
Mathematische Beschreibung des Modellneurons:
• Eingabevektor:
• Gewichtsvektor:– ωi>0 exzitatorische Synapse (verstärkende Erregung)
– ωi<0 inhibitorische Synapse (hemmende Erregung)
• Schwelle:
• Aktivierung:
• Transferfunktion: (z.B. Heavyside-Stufenfkt.)
• Ausgabewert/Aktivität:
Neuronale Netze
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 20
Neuronale Netze
• Klassifikation nachNetz-Topologie
• Beispiel:das Feedforward-Netz
• Theorem von Kolmogorov:
Sofern die Zahl der Knoten (Neuronen) unbegrenzt ist, genügt schon eine versteckte Schicht, um beliebige stetige Funktionen n m zu realisieren
Mehrschicht-PerzeptronGewichtsmatrix
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 21
Neuronale Netze
Training (überwachtes Lernen):• Optimierung der Gewichte des Netzes auf
Grundlage von Beispielpaaren von Eingabe- und gewünschten Ausgabevektoren (Targetvektoren)
• Die Startwerte für die Gewichte werden häufig randomisiert
• Die Trainingsdaten (Trainingsmuster) stammen z.B. aus Monte Carlo-Simulationen
Nach erfolgreichem Training (bekannte Gewichte)kann ein neuronales Netz sogar in die Hardwareimplementiert werden ( Geschwindigkeit).
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 22
Neuronale Netze
Ein Feedforward-Netz mit 1 versteckten Schicht undeinem Ausgabeknoten kann 2 Klassen separieren.
Zweidimensionales XOR-Problem:
Eingabeschicht: nicht linear separierbar Ausgabeschicht: linear separierbar
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 23
Range-Searching
Die Idee der PDE-RS-Methode:
„Probability Density Estimation
based on Range-Searching“
• Zähle in der Nachbarschaft des zu klassifizierenden Events die Signal- und Untergrund-Ereignisse aus einer Monte Carlo-Simulation
• Durchsuche dabei ein kleines Volumen im n-dimensionalen Phasenraum:
• Berechne die Diskrimante:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 24
Range-Searching
Der PDE-RS-Algorithmus:
Die Events aus der Monte Carlo-Simulation werdenin je einem n-dimensionalen Tree für Signal undBackground abgelegt...
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 25
Range-Searching
Beispiel 1:
backgroundrejection:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 26
Range-Searching
Beispiel 2:
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 27
Range-Searching
Vergleich:Neuronale Netze Training des Netzwerks erforderlich Hardware-Implementierung möglichPDE-RS Großer Arbeitsspeicher erforderlich Transparente Methode (Fehlerabschätzung)
Die Ergebnisse sind (je nach Fall) für beideMethoden von vergleichbarer Qualität.
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 28
Zusammenfassung
• Die Hochenergiephysik stellt hohe Anforderungen an statistische Methoden
• Eine wichtige Aufgabe ist die Klassifizierung von Messwerten in Signal und Untergrund
• Eine bessere Möglichkeit als einfache Schnitte bietet die Likelihood-Diskriminante
• Insbesondere bei höher-dimensionalen Problemen sind leistungsfähige Methoden neuronale Netze sowie die PDE-RS-Technik
05.02.2005 S. Naumann - Statistische Methoden in der HEP Nr. 29
Quellen
• V. Blobel, E. Lohrmann: Statistische und numerische Methoden der Datenanalyse. Stuttgart, 1998
• G. Cowan: Statistical Data Analysis. Oxford, 1998
• S. Udluft: Untersuchungen zu Neuronalen Netzen als Vertextrigger im H1-Experiment bei HERA. München, 1996
• T. Carli, B. Koblitz: A Multi-variate Discrimination Technique Based on Range-Searching. In: NIM A (501), 2003
• http://root.cern.ch