einführung in die wahrscheinlichkeitstheorie - wt.iam.uni ... · pdf file12 importance...
Post on 06-Mar-2018
234 Views
Preview:
TRANSCRIPT
Einführung in die Wahrscheinlichkeitstheorie
Prof. Dr. Andreas Eberle
28. September 2010
Inhaltsverzeichnis
Inhaltsverzeichnis 2
1 Diskrete Zufallsvariablen 9
1.1 Ereignisse und ihre Wahrscheinlichkeit . . . . . . . . . . . . .. . . . . . . . . . 11
Ereignisse als Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . .. . . . . . 13
Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . .. . . . . . . . . 15
Spezielle Wahrscheinlichkeitsverteilungen . . . . . . . . . . .. . . . . . . . . . 18
1.2 Diskrete Zufallsvariablen und ihre Verteilung . . . . . . .. . . . . . . . . . . . 23
1.3 Simulation von Gleichverteilungen . . . . . . . . . . . . . . . . .. . . . . . . . 29
1.4 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37
Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38
Linearität und Monotonie des Erwartungswertes . . . . . . . . . .. . . . . . . . 40
2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit 44
2.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . .. . . . . . 44
Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung . . . . . . . . . 45
Bayessche Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2 Mehrstufige diskrete Modelle . . . . . . . . . . . . . . . . . . . . . . .. . . . . 48
Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . .. . . . . . 56
Verteilungen für unabhängige Ereignisse . . . . . . . . . . . . . . .. . . . . . . 58
2.4 Unabhängige Zufallsvariablen und Random Walk . . . . . . . . .. . . . . . . . 64
Unabhängigkeit von diskreten Zufallsvariablen . . . . . . . . .. . . . . . . . . 64
Der Random Walk aufZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.5 Simulationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 72
2
INHALTSVERZEICHNIS 3
Das direkte Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .72
Acceptance-Rejection-Verfahren . . . . . . . . . . . . . . . . . . . . . .. . . . 73
3 Konvergenzsätze und Monte Carlo Verfahren 76
3.1 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 77
3.2 Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . .. . . . . . 81
3.3 Monte Carlo-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 83
Varianzreduktion durch Importance Sampling . . . . . . . . . . . .. . . . . . . 86
3.4 Gleichgewichte von Markov-Ketten . . . . . . . . . . . . . . . . . .. . . . . . 89
Gleichgewichte und Stationarität . . . . . . . . . . . . . . . . . . . . .. . . . . 89
Metropolis-Algorithmus und Gibbs-Sampler . . . . . . . . . . . . .. . . . . . . 93
3.5 Konvergenz ins Gleichgewicht . . . . . . . . . . . . . . . . . . . . . .. . . . . 97
4 Stetige und Allgemeine Modelle 102
4.1 Unendliche Kombinationen von Ereignissen . . . . . . . . . . .. . . . . . . . . 102
4.2 Allgemeine Wahrscheinlichkeitsräume . . . . . . . . . . . . . .. . . . . . . . . 110
Beispiele von Wahrscheinlichkeitsräumen . . . . . . . . . . . . . . .. . . . . . 110
Konstruktion vonσ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen . . . . . . . . . 115
4.3 Allgemeine Zufallsvariablen und ihre Verteilung . . . . .. . . . . . . . . . . . . 119
Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .. . . 120
Verteilungen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . .. . . . . 122
4.4 Wahrscheinlichkeitsverteilungen aufR . . . . . . . . . . . . . . . . . . . . . . . 126
Eigenschaften der Verteilungsfunktion . . . . . . . . . . . . . . . .. . . . . . . 126
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 127
Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 129
Transformation von absolutstetigen Zufallsvariablen . . .. . . . . . . . . . . . . 134
4.5 Quantile und Inversionsverfahren . . . . . . . . . . . . . . . . . .. . . . . . . . 136
Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Konstruktion und Simulation reellwertiger Zufallsvariablen . . . . . . . . . . . . 139
4.6 Normalapproximation der Binomialverteilung . . . . . . . . .. . . . . . . . . . 143
Der Satz von De Moivre - Laplace . . . . . . . . . . . . . . . . . . . . . . . . .144
Approximative Konfidenzintervalle . . . . . . . . . . . . . . . . . . . .. . . . . 150
Universität Bonn Wintersemester 2009/2010
4 INHALTSVERZEICHNIS
5 Unabhängigkeit und Produktmodelle 153
5.1 Unabhängigkeit in allgemeinen Modellen . . . . . . . . . . . . .. . . . . . . . 153
Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . .. . . 153
Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . .. . . . . . 156
Konfidenzintervalle für Quantile . . . . . . . . . . . . . . . . . . . . . .. . . . 160
5.2 Gemeinsame Verteilungen und endliche Produktmodelle .. . . . . . . . . . . . 162
Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen . . . . . . . . . . 162
Absolutstetigkeit von multivariaten Verteilungen . . . . . .. . . . . . . . . . . . 165
Gemeinsame Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166
5.3 Unendliche Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . .. . . . 174
Konstruktion von unabhängigen Zufallsvariablen . . . . . . . .. . . . . . . . . 174
Unendliche Produktmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .179
5.4 Asymptotische Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 180
Das 0-1-Gesetz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . .. 182
Anwendungen auf Random Walks und Perkolationsmodelle . . . . .. . . . . . . 182
6 Erwartungswert und Varianz 187
6.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 187
Definition des Erwartungswerts . . . . . . . . . . . . . . . . . . . . . . . .. . . 187
Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . . . . . . .. . . . 191
Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.2 Berechnung von Erwartungswerten; Dichten . . . . . . . . . . . .. . . . . . . . 195
Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 196
Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .. . . 196
Zufallsvariablen mit Dichten . . . . . . . . . . . . . . . . . . . . . . . . .. . . 199
Existenz von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
6.3 Varianz, Kovarianz und lineare Regression . . . . . . . . . . . .. . . . . . . . . 204
Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . .. . . 204
Quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . . . .. . . . . . . . 206
Beste Prognosen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 209
Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
Unabhängigkeit und Unkorreliertheit . . . . . . . . . . . . . . . . . .. . . . . . 216
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
INHALTSVERZEICHNIS 5
7 Gesetze der großen Zahlen 218
7.1 Ungleichungen und Konvergenz von ZVn . . . . . . . . . . . . . . . .. . . . . 218
Konvergenzbegriffe für Zufallsvariablen . . . . . . . . . . . . . .. . . . . . . . 218
Die Markov-Cebyšev-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . 221
Die Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . .. 223
7.2 Starke Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . .. . . . . 225
Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . .. . . 226
Das starke Gesetz für quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . 227
VonL2 nachL1 mit Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 231
7.3 Empirische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 235
Schätzen von Kenngrößen einer unbekannten Verteilung . . . .. . . . . . . . . 235
Konvergenz der empirischen Verteilungsfunktionen . . . . . .. . . . . . . . . . 237
Histogramme und Multinomialverteilung . . . . . . . . . . . . . . . .. . . . . 239
7.4 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . .. . 242
Statistische Interpretation der Entropie . . . . . . . . . . . . . .. . . . . . . . . 245
Entropie und Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .246
8 Grenzwertsätze 249
8.1 Charakteristische und Momentenerzeugende Funktionen .. . . . . . . . . . . . 250
Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . .. . 250
Inversion der Fouriertransformation . . . . . . . . . . . . . . . . . .. . . . . . 254
8.2 Erste Anwendungen auf Grenzwertsätze . . . . . . . . . . . . . . .. . . . . . . 256
Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 257
Große Abweichungen vom Gesetz der großen Zahlen . . . . . . . . . .. . . . . 258
8.3 Verteilungskonvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 263
Schwache Konvergenz von Wahrscheinlichkeitsverteilungen . . . . . . . . . . . 264
Konvergenz der Verteilungen von Zufallsvariablen . . . . . . .. . . . . . . . . . 269
Existenz schwach konvergenter Teilfolgen . . . . . . . . . . . . . .. . . . . . . 272
Schwache Konvergenz über charakteristische Funktionen . .. . . . . . . . . . . 274
8.4 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 276
ZGS für Summen von i.i.d. Zufallsvariablen . . . . . . . . . . . . . .. . . . . . 277
Normalapproximationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .279
Heavy Tails, Konvergenz gegenα-stabile Verteilungen . . . . . . . . . . . . . . 282
Der Satz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . .. . 283
Universität Bonn Wintersemester 2009/2010
6 INHALTSVERZEICHNIS
8.5 Vom Random Walk zur Brownschen Bewegung . . . . . . . . . . . . . . . . .. 287
9 Multivariate Verteilungen und Statistik 288
9.1 Mehrstufige Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 288
Stochastische Kerne und der Satz von Fubini . . . . . . . . . . . . . .. . . . . 288
Wichtige Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 291
Bedingte Dichten und Bayessche Formel . . . . . . . . . . . . . . . . . . . .. . 292
9.2 Summen unabhängiger Zufallsvariablen, Faltung . . . . . .. . . . . . . . . . . 296
Verteilungen von Summen unabhängiger Zufallsvariablen . .. . . . . . . . . . . 297
Wartezeiten, Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . .. . . 299
9.3 Transformationen, Gaußmodelle und Parameterschätzung . . . . . . . . . . . . . 301
Der Dichtetransformationssatz . . . . . . . . . . . . . . . . . . . . . . .. . . . 301
Multivariate Normalverteilungen und multivariater ZGS . .. . . . . . . . . . . . 302
Parameterschätzung im Gaußmodell . . . . . . . . . . . . . . . . . . . . .. . . 306
Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
10 Bedingte Erwartungen 313
10.1 Bedingen auf diskrete Zufallsvariablen . . . . . . . . . . . . .. . . . . . . . . . 313
Bedingte Erwartungen als Zufallsvariablen . . . . . . . . . . . . . .. . . . . . . 313
Formel von der totalen Wahrscheinlichkeit . . . . . . . . . . . . . .. . . . . . . 315
Bedingte Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
Anwendung auf zufällige Summen . . . . . . . . . . . . . . . . . . . . . . . .. 317
Charakterisierende Eigenschaften der bedingten Erwartung. . . . . . . . . . . . 318
10.2 Erzeugende Funktionen, Verzweigungsprozesse, und Erneuerungen . . . . . . . 319
Erzeugende Funktionen von ganzzahligen Zufallsvariablen. . . . . . . . . . . . 319
Erzeugende Funktionen zufälliger Summen . . . . . . . . . . . . . . .. . . . . 320
Galton-Watson-Verzweigungsprozesse . . . . . . . . . . . . . . . . .. . . . . . 321
Rekurrente Ereignisse und Erneuerungsgleichung . . . . . . . . .. . . . . . . . 324
10.3 Bedingen auf allgemeine Zufallsvariablen . . . . . . . . . . .. . . . . . . . . . 327
Das Faktorisierungslemma . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 328
Definition allgemeiner bedingter Erwartungen . . . . . . . . . . .. . . . . . . . 329
Diskreter und absolutstetiger Fall . . . . . . . . . . . . . . . . . . . .. . . . . . 332
Reguläre bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . .. . . 334
10.4 Rechnen mit bedingten Erwartungen; Poissonprozess . . .. . . . . . . . . . . . 337
Eigenschaften der bedingten Erwartung . . . . . . . . . . . . . . . . .. . . . . 338
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
INHALTSVERZEICHNIS 7
Poissonprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Poissonscher Punktprozess . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 345
10.5 Bedingte Erwartung als besteL2-Approximation . . . . . . . . . . . . . . . . . 348
Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .349
Bedingte Erwartung als besteL2-Prognose . . . . . . . . . . . . . . . . . . . . . 350
Existenz der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . . .. . . 352
11 Markovketten 354
11.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .354
Zufällige dynamische Systeme als Markovketten, Beispiele .. . . . . . . . . . . 355
Endlichdimensionale Randverteilung eine Markovkette . . . .. . . . . . . . . . 360
Verteilung auf dem Pfadraum; kanonisches Modell . . . . . . . . .. . . . . . . 365
11.2 Markoveigenschaft und Differenzengleichungen . . . . .. . . . . . . . . . . . . 368
Die Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .369
Differenzengleichungen für Markovketten . . . . . . . . . . . . . .. . . . . . . 374
Dirichletproblem und Austrittsverteilung . . . . . . . . . . . . .. . . . . . . . . 378
Beispiele harmonischer Funktionen . . . . . . . . . . . . . . . . . . . . .. . . 380
Mittlere Aufenthaltszeiten und Greenfunktion . . . . . . . . . .. . . . . . . . . 383
11.3 Rekurrenz und Transienz . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 384
Starke Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 388
Rekurrenz und Transienz von einzelnen Zuständen . . . . . . . . . .. . . . . . 390
Kommunikationsklassen und globale Rekurrenz . . . . . . . . . . . .. . . . . . 393
11.4 Stationäre stochastische Prozesse . . . . . . . . . . . . . . . .. . . . . . . . . . 397
Stationarität und Reversibilität . . . . . . . . . . . . . . . . . . . . . .. . . . . 397
Rekurrenz von stationären Prozessen . . . . . . . . . . . . . . . . . . . .. . . . 399
Anwendung auf Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . .401
11.5 Ergodizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 403
Positive Rekurrenz und Gleichgewichte . . . . . . . . . . . . . . . . . .. . . . 403
Ein Gesetz der großen Zahlen für Markovketten . . . . . . . . . . . .. . . . . . 405
Allgemeinere Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 409
11.6 Zeitstetige Markovprozesse . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 411
Übergangskerne und Markovprozesse . . . . . . . . . . . . . . . . . . . .. . . 411
Zeitstetige Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 414
Vorwärts- und Rückwärtsgleichungen für Markovketten . . . . .. . . . . . . . . 418
Vorwärts- und Rückwärtsgleichung für die Brownsche Bewegung .. . . . . . . 422
Universität Bonn Wintersemester 2009/2010
8 INHALTSVERZEICHNIS
12 Importance Sampling und große Abweichungen 425
12.1 Relative Dichten und Importance Sampling . . . . . . . . . . . .. . . . . . . . 425
Relative Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
Seltene Ereignisse und Importance Sampling . . . . . . . . . . . . .. . . . . . 430
12.2 Exponentielle Familien und große Abweichungen . . . . . .. . . . . . . . . . . 436
Exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 436
Der Satz von Cramér . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
Asymptotische Effizienz von IS Schätzern . . . . . . . . . . . . . . . .. . . . . 444
12.3 Relative Entropie und statistische Unterscheidbarkeit . . . . . . . . . . . . . . . 446
Relative Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
Maßwechsel und untere Schranken für große Abweichungen . . .. . . . . . . . 449
Große Abweichungen für empirische Verteilungen . . . . . . . . .. . . . . . . 452
12.4 Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 454
Konsistenz von Maximum-Likelihood-Schätzern . . . . . . . . . .. . . . . . . 454
Asymptotische Macht von Likelihoodquotiententests . . . . .. . . . . . . . . . 457
12.5 Bayessche Modelle und MCMC Verfahren . . . . . . . . . . . . . . . . .. . . . 461
Stichwortverzeichnis 462
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
Kapitel 1
Diskrete Zufallsvariablen
Unser Ziel in diesem Kapitel ist die mathematische Modellierung vonZufallsvorgängen. Ein-
fache Beispiele für Zufallsvorgänge sind das Werfen eines Würfels oder Münzwürfe. Anhand
dieser Beispiele wollen wir zunächst einige grundlegende Begriffe der Wahrscheinlichkeitstheo-
rie veranschaulichen.
NOTATIONEN: |A| bezeichnet die Anzahl der Elemente einer MengeA, AC bezeichnet das
Komplement der MengeA innerhalb einer bestimmten MengeB, dieA enthält.
Beispiel(Werfen eines Würfels).
• Mögliche Fälle sind 1, 2, 3, 4, 5, 6. Mit Ω = 1, 2, 3, 4, 5, 6 wird die Menge aller mög-
lichen Fälle bezeichnet. EinElementarereignis ist ein möglicher Fall, also ein Element
ω ∈ Ω.
• Ereignissesind die Objekte, denen man eine Wahrscheinlichkeit zuordnen kann, zum Bei-
spiel:
»Augenzahl ist 3« 3»Augenzahl ist gerade« 2, 4, 6»Augenzahl istnicht gerade« 1, 3, 5 = 2, 4, 6C
»Augenzahl ist größer als 3« 4, 5, 6»Augenzahl ist geradeund größer als 3« 4, 6 = 2, 4, 6 ∩ 4, 5, 6»Augenzahl geradeoder größer als 3« 2, 4, 5, 6 = 2, 4, 6 ∪ 4, 5, 6
JedesEreignis kann durch eineTeilmengeA vonΩ dargestellt werden!
9
10 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
• Wahrscheinlichkeiten werden mitP (für »probability«) bezeichnet. Zum Beispiel sollte
für einen »fairen« Würfel gelten:
P [»3«] =1
6,
P [»Augenzahl gerade«] =Anzahl günstige FälleAnzahl mögliche Fälle
=|2, 4, 6|
|1, 2, 3, 4, 5, 6| =3
6=
1
2,
P [»Augenzahl gerade oder größer als 3«] =4
6=
2
3.
• Zufallsvariablen sind AbbildungenX : Ω → S, wobeiS eine beliebige Menge ist, zum
Beispiel:
X(ω) = ω, »Augenzahl des Wurfs«, oder
X(ω) =
1 falls ω ∈ 1, 2, 3, 4, 5,−5 falls ω ∈ 6,
»Gewinn bei einem fairen Spiel«.
Beispiel(Münzwürfe). a) EIN MÜNZWURF:
Die Menge der möglichen Fälle istΩ = 0, 1, wobei0 für »Kopf« und1 für »Zahl« steht.
Die Wahrscheinlichkeiten sind
P [1] = p und P [0] = 1− p mit 0 ≤ p ≤ 1.
Fürp = 12
ist der Münzwurf fair.
b) ENDLICH VIELE FAIRE MÜNZWÜRFE:
Die Menge der möglichen Fälle lautet
Ω = ω = (x1, . . . , xn) | xi ∈ 0, 1 =: 0, 1n.
Alle Ausgänge sind genau dann gleich wahrscheinlich, wennP [ω] = 2−n für alleω ∈ Ω
gilt. Dies wird im folgenden angenommen. Zufallsvariablenvon Interesse sind beispiels-
weise:
• Xi(ω) := xi, das Ergebnis desi-ten Wurfs. Das Ereignis »i-ter Wurf ist Kopf« wird
durch die MengeAi = ω ∈ Ω | Xi(ω) = 0 =: Xi = 0 beschrieben, und hat die
WahrscheinlichkeitP [Ai] =12.
• Sn(ω) :=∑n
i=1Xi(ω), die Anzahl der Einsen inn Münzwürfen. Das Ereignis »ge-
nauk-mal Zahl« wird durch die MengeA = ω ∈ Ω | Sn(ω) = k =: Sn = k be-
schrieben und hat die WahrscheinlichkeitP [A] =(nk
)2−n.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 11
c) UNENDLICH VIELE MÜNZWÜRFE:
Die Menge der möglichen Fälle ist nun
Ω = ω = (x1, x2, . . .) | xi ∈ 0, 1 = 0, 1N.
Diese Menge ist überabzählbar, da die Abbildung
Ω → [0, 1]
(x1, x2, . . .) 7→ 0.x1x2 . . .
surjektiv ist, (wobei das Einheitsintervall binär dargestellt wird). Die Definition von Er-
eignissen und Wahrscheinlichkeiten ist daher in diesem Fall aufwändiger. Wahrschein-
lichkeitsverteilungen auf überabzählbaren Mengen werdensystematisch in der Vorlesung
»Einführung in die Wahrscheinlichkeitstheorie« betrachtet.
In dieser Vorlesung ist die Menge der möglichen FälleΩ abzählbar. Solche Zufallsvorgänge wer-
dendiskret genannt.
1.1 Ereignisse und ihre Wahrscheinlichkeit
Ereignisse als Mengen
SeiΩ die Menge der möglichen Fälle undA ⊆ Ω ein Ereignis. Als Notationen für die MengeA
werden wir auch verwenden:
A = ω ∈ Ω | ω ∈ A = ω ∈ A = »A tritt ein«.
Wir wollen nunKombinationen von Ereignissenbetrachten.
SeienA,B,Ai, i ∈ I, Ereignisse. Was bedeuten Ereignisse wieAC ,A∪B,⋂
i∈I Ai anschaulich?
Um dies herauszufinden, betrachten wir einen möglichen Fallω und untersuchen, wann dieser
eintritt:
• A ∪ B:
ω ∈ A ∪B ⇔ ω ∈ A oderω ∈ B,
»A ∪ B tritt ein« ⇔ »A tritt ein oderB tritt ein«.
• ⋃i∈I Ai :
Universität Bonn Wintersemester 2009/2010
12 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
ω ∈ ⋃i∈I Ai ⇔ es gibt eini ∈ I mit ω ∈ Ai.
»⋃
i∈I Ai tritt ein« ⇔ »mindestens eines der EreignisseAi tritt ein«.
• WEITERE BEISPIELE:
A ∩ B ⇔ »A undB treten ein«,⋂
i∈I Ai ⇔ »jedes derAi tritt ein«,
AC = Ω ⇔ »A tritt nicht ein«,
A = ∅ ⇔ »unmögliches Ereignis« (tritt nie ein),
A = Ω ⇔ »sicheres Ereignis« (tritt immer ein),
A = ω ⇔ »Elementarereignis« (tritt nur im Fallω ein).
SeiA die Kollektion aller im Modell zugelassenen bzw. in Betrachtgezogenen Ereignisse.
A besteht aus Teilmengen vonΩ, d.h.
A ⊆ P(Ω), wobei
P(Ω) := A | A ⊆ Ω
die Potenzmenge vonΩ, d.h. die Menge aller Teilmengen vonΩ bezeichnet. Die KollektionAsollte unter den obigen Mengenoperationen, also abzählbaren Vereinigungen, Durchschnitten und
Komplementbildung abgeschlossen sein. Wir fordern daher:
Axiom. A ⊆ P(Ω) ist eineσ-Algebra, d.h.
(i) Ω ∈ A,
(ii) Für alle A ∈ A gilt: AC ∈ A,
(iii) Für A1, A2, . . . ∈ A gilt:⋃∞
i=1Ai ∈ A.
Bemerkung. Fürσ-Algebren gilt auch:
a) Nach (i) und (ii) ist∅ = ΩC ∈ A.
b) SindA,B ∈ A, so gilt nach (iii) und a): A ∪B = A ∪ B ∪ ∅ ∪ ∅ ∪ . . . ∈ A.
c) SindA1, A2, . . . ∈ A, so ist nach (ii) und (iii):⋂∞
i=1Ai = (⋃∞
i=1ACi )
C ∈ A.
Beispiel. Die PotenzmengeA = P(Ω) ist eineσ-Algebra.
Üblicherweise verwendet manA = P(Ω) bei diskreten Modellen, d.h. für abzählbareΩ. Bei
nichtdiskreten Modellen kann mannicht jede WahrscheinlichkeitsverteilungP auf einerσ-Algebra
A ⊂ P(Ω) zu einer Wahrscheinlichkeitsverteilung aufP(Ω) erweitern (siehe »Einführung in die
Wahrscheinlichkeitstheorie«).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 13
Wahrscheinlichkeitsverteilungen
SeiΩ eine nichtleere Menge undA ⊆ P(Ω) eineσ-Algebra. Wir wollen nun EreignissenA ∈ Aeine WahrscheinlichkeitP [A] zuordnen. Für EreignisseA,B ∈ A gilt:
A ∪ B tritt ein ⇔ A oderB tritt ein.
Angenommen,A undB treten nicht gleichzeitig ein, d.h.
A ∩ B = ∅, (A undB sind »disjunkt«).
Dann sollte »endliche Additivität« gelten:
P [A ∪B] = P [A] + P [B].
Axiom. Eine Abbildung
P : A → [0,∞]
A 7→ P [A]
ist eineWahrscheinlichkeitsverteilungauf (Ω,A), wenn gilt:
(i) P ist »σ-additiv«, d.h. für EreignisseA1, A2, . . . ∈ A mitAi ∩ Aj = ∅ für i 6= j gilt:
P[ ∞⋃
i=1
Ai
]=
∞∑
i=1
P [Ai].
(ii) P ist »normiert«, d.h.
P [Ω] = 1.
EinWahrscheinlichkeitsraum(Ω,A, P ) besteht aus einer MengeΩ, einerσ-AlgebraA ⊆ P(Ω),
und einer WahrscheinlichkeitsverteilungP auf (Ω,A).
Satz 1.1(Elementare Rechenregeln). Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum.
i) Es gilt P [∅] = 0,
ii) Für A,B ∈ A mitA ∩ B = ∅ gilt endliche Additivität:
P [A ∪B] = P [A] + P [B].
Universität Bonn Wintersemester 2009/2010
14 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
iii) Für A,B ∈ A mitA ⊆ B gilt:
P [B] = P [A] + P [B\A].
Insbesondere gilt:
P [A] ≤ P [B], »Monotonie«,
P [AC ] = 1− P [A], »Gegenereignis«,
P [A] ≤ 1.
iv) Für A,B ∈ A gilt:
P [A ∪ B] = P [A] + P [B]− P [A ∩ B] ≤ P [A] + P [B].
Beweis. i) Wegen derσ-Additivität vonP gilt
1 = P [Ω] = P [Ω ∪ ∅ ∪ ∅ ∪ . . .] = P [Ω]︸︷︷︸=1
+P [∅]︸︷︷︸≥0
+P [∅]︸︷︷︸≥0
+ . . . ,
und damit
P [∅] = 0.
ii) Für disjunkte EreignisseA,B folgt aus derσ-Additivität und mit i):
P [A ∪ B] = P [A ∪B ∪ ∅ ∪ ∅ ∪ . . .]= P [A] + P [B] + P [∅] + . . .
= P [A] + P [B].
iii) Falls A ⊆ B, istB = A ∪ (B\A). Da diese Vereinigung disjunkt ist, folgt mit ii):
P [B] = P [A] + P [B\A] ≥ P [A].
Insbesondere ist1 = P [Ω] = P [A] + P [AC ] und somitP [A] ≤ 1.
iv) Nach iii) gilt:
P [A ∪ B] = P [A] + P [(A ∪ B)\A]= P [A] + P [B\(A ∩ B)]
= P [A] + P [B]− P [A ∩B].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 15
Aussage iv) des Satzes lässt sich für endlich viele Ereignisse verallgemeinern. Nach iv) gilt für
die Vereinigung von drei Ereignissen:
P [A ∪ B ∪ C] = P [A ∪ B] + P [C]− P [(A ∪ B) ∩ C]= P [A ∪ B] + P [C]− P [(A ∩ C) ∪ (B ∩ C)]= P [A] + P [B] + P [C]− P [A ∩ B]− P [A ∩ C]− P [B ∩ C] + P [A ∩ B ∩ C].
Mit vollständiger Induktion folgt:
Korollar (Einschluss-/Ausschlussprinzip). Für n ∈ N mit EreignissenA1, . . . , An ∈ A gilt:
P [ A1 ∪ A2 ∪ . . . ∪ An︸ ︷︷ ︸»eines derAi tritt ein«
] =n∑
k=1
(−1)k−1∑
1≤i1<...<ik≤n
P [ Ai1 ∩ Ai2 ∩ . . . ∩ Aik︸ ︷︷ ︸»Ai1 , Ai2 , . . . undAik treten ein«
].
Das Einschluss-/Ausschlussprinzip werden wir auf eine elegantere Weise am Ende dieses Kapi-
tels beweisen (siehe Satz 1.9).
Diskrete Wahrscheinlichkeitsverteilungen
Als Beispiel für eine diskrete Wahrscheinlichkeitsverteilung haben wir den Münzwurf betrachtet:
Ω = 0, 1, A = ∅, 0, 1, 0, 1,P [1] = p, P [∅] = 0,
P [0] = 1− p, P [Ω] = 1.
ALLGEMEIN : Ist die Menge der möglichen FälleΩ endlich oder abzählbar unendlich, dann
setzen wir als zugehörigeσ-AlgebraA = P [Ω].
Satz 1.2. i) Sei0 ≤ p(ω) ≤ 1,∑
ω∈Ω p(ω) = 1 eineGewichtung der möglichen Fälle. Dann
ist durch
P [A] :=∑
ω∈Ap(ω), (A ⊆ Ω),
eineWahrscheinlichkeitsverteilungauf (Ω,A) definiert.
ii) Umgekehrt ist jede WahrscheinlichkeitsverteilungP auf (Ω,A) von dieser Form mit
p(ω) = P [ω] (ω ∈ Ω).
p : Ω → [0, 1] heißtMassenfunktion(»probability mass function«) der diskreten Wahr-
scheinlichkeitsverteilungP .
Universität Bonn Wintersemester 2009/2010
16 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Für den Beweis des Satzes brauchen wir einige Vorbereitungen.
Bemerkung (Vorbemerkung zu Summen mit positiven Summanden). Sei A eine abzählbare
Menge,p(ω) ≥ 0 für alleω ∈ A. Dann definieren wir
∑
ω∈Ap(ω) :=
∞∑
i=1
p(ωi),
wobeiω1, ω2, . . . eine beliebige Abzählung vonA ist.
Lemma 1.3. i)∑
ω∈A p(ω) ∈ [0,∞] und ist wohldefiniert (d.h. unabhängig von der Abzäh-
lung). Es gilt: ∑
ω∈Ap(ω) = sup
F⊆A
|F |<∞
∑
ω∈Fp(ω). (1.1.1)
Insbesondere giltMonotonie:
∑
ω∈Ap(ω) ≤
∑
ω∈Bp(ω), (A ⊆ B). (1.1.2)
ii) Ist A =⋃∞
i=1Ai eine disjunkte Zerlegung, dann gilt:
∑
ω∈Ap(ω) =
∞∑
i=1
∑
ω∈Ai
p(ω).
Beweis. i) Sei ω1, ω2, . . . eine beliebige Abzählung vonA. Aus p(ωi) ≥ 0 für alle i ∈ N
folgt, dass die Partialsummen∑n
i=1 p(ωi) monoton wachsend sind. Daraus folgt:
∞∑
i=1
p(ωi) = supn∈N
n∑
i=1
p(ωi).
Falls die Menge der Partialsummen von oben beschränkt ist, existiert dieses Supremum
in [0,∞). Andernfalls divergiert die Folge der Partialsummen bestimmt gegen+∞. Zu
zeigen bleibt:
supn∈N
n∑
i=1
p(ωi) = supF⊆A
|F |<∞
∑
ω∈Fp(ω) ist unabhängig von der Abzählung von A.
»≤«: Für allen ∈ N gilt:n∑
i=1
p(ωi) ≤ supF⊆A
|F |<∞
∑
ω∈Fp(ω),
da das Supremum auch überF = ω1, . . . , ωn gebildet wird. Damit folgt »≤«.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 17
»≥«: DaF ⊆ A endlich ist, gibt es einn ∈ N, so dassF ⊆ ω1, . . . , ωn . Also gilt:
∑
ω∈Fp(ω) ≤
n∑
i=1
p(ωi) ≤∞∑
i=1
p(ωi).
Damit folgt »≥«.
ii) • FallsA endlich ist, giltAi 6= ∅ nur für endlich vielei ∈ N und alleAi sind endlich.
Die Behauptung folgt dann aus dem Kommutativ- und dem Assoziativgesetz.
• Sei andernfallsA abzählbar unendlich.
»≤«: DaF ⊆ A endlich, istF =⋃∞
i F ∩ Ai. Da diese Vereinigung disjunkt ist, folgt
mit σ-Additivität und Gleichung (1.1.2):
P [F ] =∑
i∈NP [F ∩ Ai] ≤
∑
i∈NP [Ai].
Mit (i)) gilt auch:
P [A] = supF⊆A
|F |<∞
P [F ] ≤∑
i∈NP [Ai].
Damit folgt »≤«.
»≥«: SeienFi ⊆ Ai endlich. Da dieFi disjunkt sind, folgt mitσ-Additivität und Glei-
chung (1.1.2) für allen ∈ N:
n∑
i=1
P [Fi] = P
[n⋃
i=1
Fi
]≤ P
[ ∞⋃
i=1
Ai
]= P [A].
Mit (1.1.1) folgtn∑
i=1
P [Ai] ≤ P [A],
und fürn→ ∞ schließlich∞∑
i=1
P [Ai] ≤ P [A].
Damit folgt »≥«.
Beweis von Satz 1.2. i) Es istP [Ω] =∑
ω∈Ω p(ω) = 1 nach Voraussetzung.
SeienAi, (i ∈ N) disjunkt undA :=⋃∞
i=1Ai. Die σ-Additivität vonP folgt aus Lemma
1.3.ii):
P[ ∞⋃
i=1
Ai
]= P [A] =
∑
ω∈Ap(ω) =
∞∑
i=1
∑
ω∈Ai
p(ω) =∞∑
i=1
P [Ai]
Universität Bonn Wintersemester 2009/2010
18 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
ii) Aus derσ-Additivität vonP folgt:
P [A] = P[ ⋃
ω∈Aω
︸ ︷︷ ︸disjunkt
]=∑
ω∈AP [ω].
Spezielle Wahrscheinlichkeitsverteilungen
Gleichverteilungen / Laplace-Modelle
SeiΩ endlich und nichtleer,A = P(Ω) undp(ω) = 1|Ω| für alleω ∈ Ω. Dann ist
P [A] =|A||Ω| =
Anzahl »günstiger« FälleAnzahl aller Fälle
, (A ⊆ Ω),
die Wahrscheinlichkeitsverteilung zup und wirdGleichverteilung genannt.
Beispiele. a) n FAIRE MÜNZWÜRFE:
SeiΩ = 0, 1n undP die Gleichverteilung. Dann ist
p(ω) =1
2n.
b) ZUFÄLLIGE PERMUTATIONEN:
Sei Ω = Sn = ω : 1, 2, . . . , n → 1, 2, . . . , n bijektive Abbildungen und P die
Gleichverteilung. Dann ist
P [A] =|A|n!.
Beispiele für zufällige Permutationen sind das Mischen eines Kartenspiels, Vertauschen
von Hüten oder Umzug in die LWK, wobein Schlüssel zufällig vertauscht werden. Es gilt:
P [»derk-te Schlüssel passt auf Schlossi«] = P [ω ∈ Sn | ω(i) = k] = (n− 1)!
n!=
1
n.
Wie groß ist die Wahrscheinlichkeit, dass einer der Schlüssel sofort passt?
Das Ereignis »Schlüsseli passt« istAi = ω | ω(i) = i = »i ist Fixpunkt«. Die Wahr-
scheinlichkeit für das Ereignis »ein Schlüssel passt« ist nach dem Einschluss-/Ausschluss-
prinzip (Satz 1.9):
P [»es gibt mindestens einen Fixpunkt«] = P [A1 ∪ A2 ∪ . . . ∪ An]
=n∑
k=1
(−1)k+1∑
1≤i1<i2<...<ik≤n
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ]
=n∑
k=1
(−1)k+1∑
1≤i1<i2<...<ik≤n
(n− k)!
n!,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 19
wobei die innere Summe über allek-elementigen Teilmengen läuft. Es folgt:
=n∑
k=1
(−1)k+1
(n
k
)(n− k)!
n!
= −n∑
k=1
(−1)k
k!
Für das Gegenereignis erhalten wir:
P [»kein Schlüssel passt«] = P [»kein Fixpunkt«]− P [»mindestens ein Fixpunkt«]
= 1 +n∑
k=1
(−1)k
k!
=n∑
k=0
(−1)k
k!.
Die letzte Summe konvergiert fürn → ∞ gegene−1. Der Grenzwert existiert also und ist
weder0 noch1! Die Wahrscheinlichkeit hängt für großen nur wenig vonn ab.
Empirische Verteilungen
Seienx1, x2, . . . , xn ∈ Ω Beobachtungsdaten oder Merkmalsausprägungen, zum Beispieldas
Alter aller Einwohner von Bonn. Sei
N [A] := |i ∈ 1, . . . , n | xi ∈ A|, die Anzahl bzw. Häufigkeit der Werte inA, und
P [A] :=N [A]
n, die relative Häufigkeit der Werte inA.
Dann istP eine Wahrscheinlichkeitsverteilung auf(Ω,P(Ω)) mit Massenfunktion
p(ω) =N [ω]n
, der relativen Häufigkeit der Merkmalsausprägungen.
Beispiele. a) ABZÄHLUNG ALLER MÖGLICHEN FÄLLE :
Seix1, . . . , xn eine Abzählung der Elemente inΩ. Dann stimmt die empirische Verteilung
mit der Gleichverteilung überein.
b) EMPIRISCHEVERTEILUNG VON n ZUFALLSZAHLEN AUS 1, 2, 3, 4, 5, 6:
x=RandomChoice [ 1 , 2 , 3 , 4 , 5 , 6 , n ] ;
L i s t P l o t [ B inCounts [ x [ [ 1 ; ; n ] , 1 , 7 , 1 ] / n ,
F i l l i n g −> Axis , PlotRange −> 0 , 0 . 3 ,
P l o t S t y l e −> P o i n t S i z e[ Large ] ] , n , 1 , 100 , 1
Universität Bonn Wintersemester 2009/2010
20 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
• n = 100: 0 1 2 3 4 5 6
0.05
0.10
0.15
0.20
0.25
0.30
• n = 10000: 0 1 2 3 4 5 6
0.05
0.10
0.15
0.20
0.25
0.30
c) EMPIRISCHEVERTEILUNG DERBUCHSTABEN »A« BIS »Z«:
• in dem Wort »Eisenbahnschrankenwaerterhaeuschen«:
f r e q = Str ingCount [ " e i s e n b a h n s c h r a n k e n w a e r t e r h a e u s c h e n " , # ] & /@
CharacterRange[ " a " , " z " ] ;
r e l f r e q = f r e q /Tota l [ f r e q ] ;
L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e[ Large ] ]
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 21
5 10 15 20 25
0.05
0.10
0.15
0.20
• in einem englischen Wörterbuch:
f r e q = Length [ D i c t i ona ryLookup [# ~~ ___ ] ] & /@
CharacterRange[ " a " , " z " ] ;
r e l f r e q = f r e q /Tota l [ f r e q ] ;
L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e[ Large ] ]
5 10 15 20 25
0.02
0.04
0.06
0.08
0.10
0.12
d) BENFORDSCHESGESETZ:
Das Benfordsche Gesetz, auch Newcomb-Benford’s Law (NBL) beschreibt eine Gesetz-
mäßigkeit in der Verteilung der Ziffernstrukturen von Zahlen in empirischen Datensätzen,
zum Beispiel ihrer ersten Ziffern. Es lässt sich etwa in Datensätzen über Einwohnerzah-
len von Städten, Geldbeträge in der Buchhaltung, Naturkonstanten etc. beobachten. Kurz
gefasst besagt es:
Universität Bonn Wintersemester 2009/2010
22 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
»Je niedriger der zahlenmäßige Wert einer Ziffernsequenz bestimmter
Länge an einer bestimmten Stelle einer Zahl ist, umso wahrscheinlicher ist
ihr Auftreten. Für die Anfangsziffern in Zahlen des Zehnersystems gilt zum
Beispiel: Zahlen mit der Anfangsziffer 1 treten etwa 6,5-mal so häufig auf
wie solche mit der Anfangsziffer 9.«
1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und
im „American Journal of Mathematics“ publiziert. Er soll bemerkt haben, dass in den be-
nutzten Büchern mit Logarithmentafeln, die Seiten mit Tabellen mit Eins als erster Ziffer
deutlich schmutziger waren als die anderen Seiten, weil sieoffenbar öfter benutzt worden
seien. Die Abhandlung Newcombs blieb unbeachtet und war schon in Vergessenheit gera-
ten, als der Physiker Frank Benford (1883−1948) diese Gesetzmäßigkeit wiederentdeckte
und darüber 1938 neu publizierte. Seither war diese Gesetzmäßigkeit nach ihm benannt,
in neuerer Zeit wird aber durch die Bezeichnung »Newcomb-Benford’s Law« (NBL) dem
eigentlichen Urheber wieder Rechnung getragen. Bis vor wenigen Jahren war diese Ge-
setzmäßigkeit nicht einmal allen Statistikern bekannt. Erst seit der US-amerikanische Ma-
thematiker Theodore Hill versucht hat, die Benford-Verteilung zur Lösung praktischer Pro-
bleme nutzbar zu machen, ist ihr Bekanntheitsgrad gewachsen.(Quelle: »Wikipedia«)
HÄUFIGKEITSVERTEILUNG DERANFANGSZIFFERN VONZAHLEN :
Ist d die erste Ziffer einer Dezimalzahl, so tritt sie nach dem Benfordschen Gesetz in
empirischen Datensätzen näherungsweise mit folgenden relativen Häufigkeitenp(d) auf:
p(d) = log10 1 +1
d= log10 d+ 1− log10 d.
In der Grafik unten (Quelle: »Wolfram Demonstrations Project«) werden die relativen
Häufigkeiten der Anfangsziffern1 bis 9 in den Anzahlen der Telefonanschlüsse in allen
Ländern der Erde mit den nach dem Benfordschen Gesetz prognostizierten relativen Häu-
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 23
figkeiten verglichen.
1 2 3 4 5 6 7 8 90.00
0.05
0.10
0.15
0.20
0.25
0.30
1.2 Diskrete Zufallsvariablen und ihre Verteilung
Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum.
Definition. i) Einediskrete Zufallsvariable (ZV)ist eine Abbildung
X : Ω → S, S abzählbar,
so dass für allea ∈ S gilt:
X−1(a) := ω ∈ Ω | X(ω) = a ∈ A. (1.2.1)
Für X−1(a) (das Urbild vona unterX) schreiben wir im folgendenX = a.
ii) Die VerteilungvonX ist die WahrscheinlichkeitsverteilungµX auf S mit Gewichten
pX(a) := P [X = a], (a ∈ S).
Für P [X = a] schreiben wir im folgendenP [X = a].
Bemerkung. a) In der Tat istpX Massenfunktion einer Wahrscheinlichkeitsverteilung (siehe
Satz 1.2):
i) Für allea ∈ S gilt: pX(a) ≥ 0
ii) Da die EreignisseX = a disjunkt sind, folgt:∑
a∈SpX(a) =
∑
a∈SP [X = a] = P
[ ⋃
a∈SX = a
]= P [Ω] = 1.
Universität Bonn Wintersemester 2009/2010
24 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
b) FürB ⊆ S gilt:
X ∈ B := ω ∈ Ω|X(ω) ∈ B︸ ︷︷ ︸X−1(B)
=⋃
a∈BX = a︸ ︷︷ ︸
∈A
∈ A, sowie
P [X ∈ B] =∑
a∈BP [X = a] =
∑
a∈BpX(a) = µX(B).
Die VerteilungµX gibt also an, mit welchen Wahrscheinlichkeiten die ZufallsvariableX
Werte in bestimmten Mengen annimmt.
Beispiele(Zweimal würfeln). SeiΩ = ω = (ω1, ω2) | ωi ∈ 1, . . . , 6 und seiP die Gleich-
verteilung.
a)
SeiXi : Ω → S := 1, 2, 3, 4, 5, 6,X(ω) := ωi, die Augenzahl desi-ten Wurfs.
Xi ist eine diskrete Zufallsvariable mit VerteilungµXi. Die Gewichte vonµXi
sind
pXi(a) = P [Xi = a] =
6
36=
1
6für allea ∈ S,
d.h.Xi ist gleichverteilt.
b)
SeiY : Ω → S := 2, 3, . . . , 12Y (ω) := X1(ω) +X2(ω), die Summe der Augenzahlen.
Die Gewichte der Verteilung vonY sind
pY (a) = P [Y = a] =
136
falls a ∈ 2, 12,236
falls a ∈ 3, 11,. . .
.
d.h.Y ist nicht mehr gleichverteilt!
Allgemeiner:
Beispiel. SeiΩ = ω1, . . . , ωn endlich,P die Gleichverteilung,X : Ω → S eine Zufallsvariable
undxi := X(ωi). Dann ist
P [X = a] =|ω ∈ Ω | X(ω) = a|
|Ω| =|1 ≤ i ≤ n | xi = a|
n,
also istµx die empirische Verteilung vonx1, . . . , xn.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 25
Binomialverteilung
Beispiel(»Ziehen mit Zurücklegen«). Wir betrachten eine endliche Grundgesamtheit (Populati-
on, Zustandsraum)S, zum Beispiel Kugeln in einer Urne, Vögel im Wald, Einwohner in NRW.
Wir wollen nun die zufällige Entnahme vonn Einzelstichproben mit Zurücklegen ausS beschrei-
ben und setzen daher
Ω = Sn = ω = (x1, . . . , xn) | xi ∈ S.
Wir nehmen an, dass alle kombinierten Stichproben gleich wahrscheinlich sind, d.h.P sei die
Gleichverteilung aufΩ.
RELEVANTE ZUFALLSVARIABLEN UND EREIGNISSE:
• i-ter Stichprobenwert:
Xi(ω) = xi,
P [Xi = a] =|S|n−1
|Ω| =|S|n−1
|S|n =1
|S| , für allea ∈ S,
d.h.Xi ist gleichverteilt aufS.
SeiE ⊆ S eine bestimmte Merkmalsausprägung der Stichprobe, die wirim folgenden
als »Erfolg« bezeichnen (zum Beispiel schwarze Kugel, Beobachtung einer Amsel). Dann
können wir die Ereignisse
Xi ∈ E,»Erfolg beii-ter Stichprobe«,
betrachten. Es gilt:
P [Xi ∈ E] = µXi(E) =
|E||S| .
Wir setzen
q :=|E||S| , »Erfolgswahrscheinlichkeit«
• Häufigkeit von E / »Anzahl der Erfolge«:
Sei nun
N : Ω → 0, 1, 2, . . . , n,N(ω) := |1 ≤ i ≤ n | Xi(ω) ∈ E|
die Anzahl der Einzelstichproben mit MerkmalsausprägungE.
Universität Bonn Wintersemester 2009/2010
26 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Lemma 1.4. Für k ∈ 0, 1, . . . , n gilt:
P [N = k] =
(n
k
)pk (1− p)n−k.
Beweis.Es gilt
|ω ∈ Ω | N(ω) = k| =(n
k
)|E|k |S\E|n−k,
wobei(n
k
)=Anzahl der Möglichkeitenk Indizes aus1, . . . , n auszuwählen,
für die ein Erfolg eintritt,
|E|k =Anzahl der Möglichkeiten für jeden Erfolg,
|S\E|n−k =Anzahl der Möglichkeiten für jeden Misserfolg.
Also gilt:
P [N = k] =
(nk
)|E|k |S\E|n−k
|S|n =
(n
k
) ( |E||S|
)k ( |S\E||S|
)n−k
=
(n
k
)pk (1− p)n−k.
Definition. Sein ∈ N und p ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung auf0, 1, . . . , n mit
Massenfunktion
pn,p(k) =
(n
k
)pk (1− p)n−k
heißtBinomialverteilung mit Parameternn und p (kurz:Bin(n, p)).
Bemerkung. Dasspn,p eine Massenfunktion einer Wahrscheinlichkeitsverteilung ist, folgt aus
Lemma 1.3!
Bemerkung. EreignisseE1, . . . , En heißenunabhängig, falls
P [Ei1 ∩ Ei2 ∩ . . . ∩ Eik ] = P [Ei1 ] · P [Ei2 ] · · ·P [Eik ]
für allek ≤ n und1 ≤ i1 < i2 < . . . < ik ≤ n gilt.
SindE1, . . . , En unabhängig undP [Ei] = p, dann ist
P [»genauk derEi treten ein«] =
(n
k
)pk (1− p)n−k,
d.h. die Anzahl der Ereignisse, die eintreten, ist binomialverteilt. Der Beweis folgt weiter unten.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 27
Poissonverteilung
Beispiel (Warteschlange). Angenommen, die Kunden in einer Warteschlange kommenunab-
hängig voneinanderzuzufälligen (gleichverteilten) Zeitpunkten. Wie viele Kunden kommen in
einer Zeitspanne der Länget0 an? SeiN die Anzahl dieser Kunden undt0 = 1. Wir unterteilen
das Intervall[0, 1]:
Wir machen die folgende Annahme (die natürlich in zu modellierenden Anwendungsproblemen
zu überprüfen ist):
»Wennn sehr groß ist, dann kommt in einer Zeitspanne der Länge1n
fast immer
höchstens ein Kunde«.
Ei stehe für das Ereignis, dass ein Kunde im Zeitintervall[i−1n, in
]ankommt (1 ≤ i ≤ n).
Wir nehmen außerdem an, dass die Wahrscheinlichkeit unabhängig von i und näherungsweise
proportional zu1n
ist, also:
P [Ei] ≈λ
n, λ ∈ (0,∞).
Für das Ereignis, dass genauk Kunden im Zeitintervall[0, 1] ankommen, sollte dann gelten, dass
P [N = k] ≈ P [»genauk derEi treten ein«] ≈ pn,λn(k),
wobeipn,λn(k) das Gewicht vonk unter der Binomialverteilung mit Parameternn und λ
nist. Diese
Näherung sollte»für große n immer genauer werden«.
Satz 1.5(Poissonapproximation der Binomialverteilung). Seiλ ∈ (0,∞). Dann gilt:
limn→∞
pn,λn(k) =
λk
k!e−λ, k = 0, 1, 2, . . . .
Beweis.Es gilt:
pn,λn(k) =
n!
k!(n− k)!·(λ
n
)k
·(1− λ
n
)n−k
=λk
k!· n · (n− 1) · . . . · (n− k + 1)
nk︸ ︷︷ ︸→1
·(1− λ
n
)n
︸ ︷︷ ︸→e−λ
·(1− λ
n
)−k
︸ ︷︷ ︸→1
−→ λk
k!e−λ für n→ ∞.
Universität Bonn Wintersemester 2009/2010
28 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Definition. Die Wahrscheinlichkeitsverteilung auf0, 1, 2, . . . mit Massenfunktion
p(k) =λk
k!e−λ , k = 0, 1, 2, . . . ,
heißtPoissonverteilung mit Parameterλ.
Aufgrund des Satzes verwendet man die Poissonverteilung zur näherungsweisen Modellierung
der Häufigkeit seltener Ereignisse (zum Beispiel Tippfehlerin einem Buch, Schadensfälle bei
Versicherung, Zusammenbrüche des T-Mobile-Netzes, . . . ) und damit zur »Approximation« von
Binomialverteilungen mit kleiner Erfolgswahrscheinlichkeit p.
Für häufigere Ereignisse (zum Beispiel wenn Erfolgswahrscheinlichkeit p unabhängig vonn ist)
verwendet man hingegen besser eine Normalverteilung zur näherungsweisen Modellierung der
(geeignet reskalierten) relativen Häufigkeitkn
des Ereignisses für großen. Definition und Eigen-
schaften von Normalverteilungen werden wir später kennenlernen.
Die folgenden (mit »Maple« erstellten) Graphiken zeigen die Poisson- und Normalapproximati-
on (Poisson schwarz, Normalverteilung rot) der Binomialverteilung (blau) für unterschiedliche
Parameterwerte:
n = 100, p = 0, 35 n = 100, p = 0, 02
Hypergeometrische Verteilung
Beispiel (Ziehen ohne Zurücklegen). Wir betrachtenm Kugeln in einer Urne (Wähler, Fische
im See, . . . ), davonr rote undm − r schwarze. Gezogen wird eine zufällige Stichprobe vonn
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN 29
Kugeln, n ≤ min(r,m−r). Sind alle Stichproben gleich wahrscheinlich, dann ist eingeeignetes
Modell gegeben durch:
Ω = P(1, . . . ,m) = alle Teilmengen von1, . . . ,m der Kardinalitätn,
P = Gleichverteilung aufΩ.
Wir definieren eine ZufallsvariableN : Ω → 1, . . . ,m durch
N(ω) := Anzahl der roten Kugeln inω.
Für das Ereignis, dass genauk rote Kugeln in der Stichprobe sind, gilt:
P [N = k] =|ω ∈ Ω | N(ω) = k|
|Ω| =
(rk
)·(m−rn−k
)(mn
) , (k = 0, 1, . . . , n).
Diese Wahrscheinlichkeitsverteilung wirdhypergeometrische Verteilung mit Parameternm,
r und n genannt.
Bemerkung. Untersucht man die Asymptotik der hypergeometrischen Verteilung fürm→ ∞,
r → ∞, p = rm
fest undn fest, so gilt:
P [N = k] −→(n
k
)pk (1− p)k,
d.h. die hypergeometrische Verteilung nähert sich der Binomialverteilung an. Eine anschauliche
Erklärung dafür ist:
Befinden sich sehr viele Kugeln in der Urne, dann ist der Unterschied zwischen Ziehen mit und
ohne Zurücklegen vernachlässigbar, da nur sehr selten dieselbe Kugel zweimal gezogen wird.
1.3 Simulation von Gleichverteilungen
Ein (Pseudo-) Zufallszahlengenerator ist ein Algorithmus, der eine deterministische Folge
von ganzen Zahlenx1, x2, x3, . . .mit Werten zwischen0 und einem Maximalwertm− 1 erzeugt,
welche durch eine vorgegebene Klasse statistischer Tests nicht von einer Folge von Stichpro-
ben unabhängiger, auf0, 1, 2, . . . ,m− 1 gleichverteilter Zufallsgrößen unterscheidbar ist. Ein
Zufallszahlengenerator erzeugt also nicht wirklich zufällige Zahlen. Die von »guten« Zufalls-
zahlengeneratoren erzeugten Zahlen haben aber statistische Eigenschaften, die denen von echten
Zufallszahlen in vielerlei (aber nicht in jeder) Hinsicht sehr ähnlich sind.
Universität Bonn Wintersemester 2009/2010
30 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Konkret werden die Pseudozufallszahlen üblicherweise über eine deterministische Rekurrenzre-
lation vom Typ
xn+1 = f (xn−k+1, xn−k+2, . . . , xn) , n = k, k + 1, k + 2, . . . ,
ausSaatwertenx1, x2, . . . , xk erzeugt. In vielen Fällen hängt die Funktionf nur von der letzten
erzeugten Zufallszahlxn ab. Wir betrachten einige Beispiele:
Lineare Kongruenzgeneratoren (LCG)
Bei linearen Kongruenzgeneratoren ist die Rekurrenzrelation vom Typ
xn+1 = (axn + c) mod m, n = 0, 1, 2, . . . .
Hierbei sinda, c undm geeignet zu wählende positive ganze Zahlen, zum Beispiel:
ZX81-Generator: m = 216 + 1, a = 75, c = 0.
RANDU, IBM 360/370: m = 231, a = 65539, c = 0.
Marsaglia-Generator: m = 232, a = 69069, c = 1.
Langlands-Generator: m = 248, a = 142412240584757, c = 11.
Um einen ersten Eindruck zu erhalten, wie die Qualität der erzeugten Pseudozufallszahlen vona,
c undm abhängt, implementieren wir die Generatoren mit »Mathematica«:
f [ x_ ] := Mod [ a x + c , m]
Beispiel. Wir beginnen zur Demonstration mit dem Beispiel eines ganz schlechten LCG:
a = 11 ; c = 0 ; m = 63 ;
pseudorandomdata =Nes tL i s t [ f , 1 , 3 0 0 ] ;
L i s t P l o t [ pseudorandomdata ]
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN 31
50 100 150 200 250 300
10
20
30
40
50
60
Die Folge von Zufallszahlen ist in diesem Fall periodisch mit einer Periode, die viel kleiner ist
als die maximal mögliche (63). Dies rechnet man auch leicht nach.
Periodizität mit Periode kleiner als m kann man leicht ausschließen. Es gilt nämlich:
Satz(Knuth). Die Periode eines LCG ist gleichm genau dann, wenn
i) c undm teilerfremd sind,
ii) jeder Primfaktor vonm ein Teiler vona− 1 ist, und
iii) falls 4 ein Teiler vonm ist, dann auch vona− 1.
Beweis.sieheD. Knuth: »The art of computer programming, Vol. 2.«
Beispiel (ZX 81-Generator). Hier ergibt sich ein besseres Bild, solange wir nur die Verteilung
der einzelnen Zufallszahlen betrachten:
a = 75 ; c = 0 ; m = 2^16 + 1 ;
pseudorandomdata =Nes tL i s t [ f , 1 , 30000 ] ;
L i s t P l o t [ pseudorandomdata ]
Universität Bonn Wintersemester 2009/2010
32 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
5000 10 000 15 000 20 000 25 000 30 000
10 000
20 000
30 000
40 000
50 000
60 000
Fassen wir jedoch Paare(xi, xi+1) von aufeinanderfolgenden Pseudozufallszahlen als Koordina-
ten eines zweidimensionalen Pseudozufallsvektors auf, und betrachten die empirische Verteilung
dieser Vektoren, so ergibt sich keine besonders gute Approximation einer zweidimensionalen
Gleichverteilung:
b l o c k s = P a r t i t i o n [ pseudorandomdata , 2 ] ;L i s t P l o t [ b l o c k s ]
10 000 20 000 30 000 40 000 50 000 60 000
10 000
20 000
30 000
40 000
50 000
60 000
Beispiel (RANDU). Hier scheinen sowohl die einzelnen Pseudozufallszahlenxi als auch die
Vektoren(xi, xi+1) näherungsweise gleichverteilt zu sein:
a = 65539; c = 0 ; m = 2^31 ;
pseudorandomdata =Nes tL i s t [ f , 1 , 30000 ] ;
L i s t P l o t [ pseudorandomdata ]
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN 33
5000 10 000 15 000 20 000 25 000 30 000
5.0´ 108
1.0´ 109
1.5´ 109
2.0´ 109
b l o c k s = P a r t i t i o n [ pseudorandomdata , 2 ] ;L i s t P l o t [ b l o c k s ]
5.0´ 108 1.0´ 109 1.5´ 109 2.0´ 109
5.0´ 108
1.0´ 109
1.5´ 109
2.0´ 109
Fassen wir aber jeweils drei aufeinanderfolgende Pseudozufallszahlen als Koordinaten eines Vek-
tors
(xi, xi+1, xi+2) im Z3auf, dann ist die empirische Verteilung dieser Pseudozufallsvektoren keine
Gleichverteilung mehr, sondern konzentriert sich auf nur15 zweidimensionalen Hyperebenen:
b locks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ; L i s t P o i n t P l o t 3 D [ b locks3 ]
Universität Bonn Wintersemester 2009/2010
34 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
0
5.0´ 1081.0´ 109
1.5´ 1092.0´ 109
0
5.0´ 108
1.0´ 109
1.5´ 109
2.0´ 109
0
5.0´ 108
1.0´ 109
1.5´ 109
2.0´ 10
Beispiel (Marsaglia-Generator). Der von Marsaglia 1972 vorgeschlagene LCG besteht dagegen
alle obigen Tests (und einige weitere):
a = 60069; c = 1 ; m = 2^32 ;
pseudorandomdata =Nes tL i s t [ f , 1 , 30000 ] ;
L i s t P l o t [ pseudorandomdata ]
5000 10 000 15 000 20 000 25 000 30 000
1´ 109
2´ 109
3´ 109
4´ 109
b l o c k s = P a r t i t i o n [ pseudorandomdata , 2 ] ;
L i s t P l o t [ b l o c k s ]
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.3. SIMULATION VON GLEICHVERTEILUNGEN 35
1´ 109 2´ 109 3´ 109 4´ 109
1´ 109
2´ 109
3´ 109
4´ 109
b locks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ;
L i s t P o i n t P l o t 3 D [ b locks3 ]
0
1´ 109
2´ 109
3´ 109
4´ 109
01´ 1092´ 1093´ 1094´ 109
0
1´ 10
2´ 109
3´ 109
4´ 109
Dies bedeutet natürlich nicht, daß die vom Marsaglia-Generator erzeugte Folge eine füralle
Zwecke akzeptable Approximation einer Folge von unabhängigen Stichproben von der Gleich-
verteilung ist. Da die Folge in Wirklichkeit deterministisch ist, kann man einen Test konstruieren,
der sie von einer echten Zufallsfolge unterscheidet.
Shift-Register-Generatoren
Bei Shift-Register-Generatoren interpretiert man eine Zahlxn∈ 0,1,. . . ,2k − 1
zunächst als
Binärzahl bzw. als Vektor aus0, 1k, und wendet dann eine gegebene MatrixT darauf an, um
xn+1 zu erhalten:
xn+1 = Txn, n = 0, 1, 2, . . . .
Universität Bonn Wintersemester 2009/2010
36 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Kombination von Zufallszahlengeneratoren
Zufallszahlengeneratoren lassen sich kombinieren, zum Beispiel indem man die von mehreren
Zufallszahlengeneratoren erzeugten Folgen von Pseudozufallszahlen aus0,1,. . . ,m − 1 mo-
dulom addiert. Auf diese Weise erhält man sehr leistungsfähige Zufallszahlengeneratoren, zum
Beispiel den Kiss-Generator von Marsaglia, der einen LCG und zwei Shift-Register-Generatoren
kombiniert, Periode295 hat, und umfangreiche statistische Tests besteht.
Zufallszahlen aus [0,1)
Ein Zufallszahlengenerator kann natürlich nicht wirklichreelle Pseudozufallszahlen erzeugen,
die die Gleichverteilung auf dem Intervall[0, 1) simulieren, denn dazu würden unendlich vie-
le »zufällige« Nachkommastellen benötigt. Stattdessen werden üblicherweise (pseudo-)zufällige
Dezimalzahlen vom Typ
un =xnm, xn ∈ 0, 1, . . . ,m− 1,
erzeugt, wobeim vorgegeben ist (zum Beispiel Darstellungsgenauigkeit des Computers), undxn
eine Folge ganzzahliger Pseudozufallszahlen aus0, 1, . . . , m - 1 ist. In »Mathematica« kann
man mit
RandomReal[spec,WorkingPrecision→ k
]
pseudozufällige Dezimalzahlen mit einer beliebigen vorgegebenen Anzahlk von Nachkommas-
tellen erzeugen.
Zufallspermutationen
Der folgende Algorithmus erzeugt eine (pseudo-)zufälligePermutation ausSn :
Algorithmus 1.6 (RPERM).
rperm [ n_ ] :=
Module [ x = Range[ n ] , k , a , Beginn mit Liste 1,2,...,n
Do[
k = RandomInteger [ i , n ] ;
a = x [ [ i ] ] ; x [ [ i ] ] = x [ [ k ] ] ; x [ [ k ] ] = a ; (Vertausche x[[i]] undx[[k]])
, i , n − 1 ] ; (Schleife,i läuft von1 bisn− 1)
x (Ausgabe vonx) ]
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.4. ERWARTUNGSWERT 37
rperm [ 1 7 ]
12 , 5 , 13 , 8 , 17 , 9 , 10 , 6 , 1 , 7 , 16 , 15 , 14 , 4 , 2 , 3 , 11
ÜBUNG:
SeiΩn = 1, 2, . . . , n × 2, 3, . . . , n × · · · × n− 1, n.
a) Zeigen Sie, daß die AbbildungX(ω) = τn−1,ωn−1 · · · τ2,ω2 τ1,ω1 eine Bijektion vonΩn
nachSn ist (τi,j bezeichnet die Transposition von i und j).
b) Folgern Sie, daß der Algorithmus oben tatsächlich eine Stichprobe einer gleichverteilten
Zufallspermutation ausSn simuliert.
1.4 Erwartungswert
Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum,S ⊆ R abzählbar undX : Ω → S eine Zufallsvaria-
ble auf(Ω,A, P ).
Definition. Der ErwartungswertvonX bzgl.P ist definiert als
E[X] :=∑
a∈Sa · P [X = a] =
∑
a∈Sa · pX(a),
sofern die Summe auf der rechten Seite wohldefiniert ist (d.h.unabhängig von der Abzählung von
S).
Bemerkung. a) FallsX(ω) ≥ 0 für alleω ∈ Ω gilt, sind alle Summanden der Reihe nichtne-
gativ und der ErwartungswertE[X] ∈ [0,∞] wohldefiniert.
b) Falls die Reihe absolut konvergiert, d.h. falls∑
a∈S |a| · P [X = a] endlich ist, ist der
ErwartungswertE[X] ∈ R wohldefiniert.
E[X] kann als derPrognosewertoder(gewichteter) Mittelwert für X(ω) interpretiert werden.
Beispiel(Indikatorfunktion eines EreignissesA ∈ A). Sei
X(ω) = IA(ω) :=
1 falls ω ∈ A,
0 falls ω ∈ AC .
Dann ist der Erwartungswert
E[X] = 1 · P [X = 1] + 0 · P [X = 0] = P [A].
Universität Bonn Wintersemester 2009/2010
38 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Ein Beispiel dafür ist ein elementarer Versicherungskontrakt mit Leistung
Y =
c falls ω ∈ A, »Schadensfall«,
0 sonst.
Dann gilt:
Y = c · IA und E[Y ] = c · P [A].Beispiel (Poissonverteilung). SeiX Poisson-verteilt mit Parameterλ. Dann ist der Erwartungs-
wert
E[X] =∞∑
k=0
k · P [X = k] =∞∑
k=0
k · λk
k!e−λ = λ ·
∞∑
k=1
λk−1
(k − 1)!e−λ = λ ·
∞∑
k=0
λk
(k)!e−λ = λ.
Wir können daher den Parameterλ als Erwartungswert oder die mittlere Häufigkeit des Ereignis-
ses interpretieren.
Transformationssatz
Sei nunS eine beliebige abzählbare Menge,g : S → R eine Funktion undX : Ω → S eine
Zufallsvariable. Wir definieren
g(X) : Ω → R,
ω 7→ g(X(ω)).
g(X) ist einereellwertige Zufallsvariable.
Satz 1.7(Transformationssatz). Es gilt
E[g(X)] =∑
a∈Sg(a) · P [X = a],
falls die Summe wohldefiniert ist (zum Beispiel fallsg nichtnegativ ist oder die Summe absolut
konvergiert).
Beweis.Es gilt mit Verwendung derσ-Additivität
E[g(X)] =∑
b∈g(S)b · P [g(X) = b] =
∑
b∈g(S)b · P
[ ⋃
a∈g−1(b)
X = a]
=∑
b∈g(S)b ·
∑
a∈g−1(b)
P [X = a]
=∑
b∈g(S)
∑
a∈g−1(b)
g(a) · P [X = a]
=∑
a∈Sg(a) · P [X = a].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.4. ERWARTUNGSWERT 39
Bemerkung. a) Insbesondere gilt:
E[|X|] =∑
a∈S|a| · P [X = a].
IstE[|X|] endlich, dann konvergiertE[X] =∑a · P [X = a] absolut.
b) IstΩ abzählbar, dann folgt fürX : Ω → R:
E[X] = E[X idΩ] =∑
ω∈ΩX(ω) · P [ω] =
∑
ω∈ΩX(ω) p(ω),
wobeiidΩ die identische Abbildung aufΩ bezeichnet. Der Erwartungswert ist dasgewich-
tete Mittel . IstP die Gleichverteilung aufΩ, folgt weiter:
E[X] =1
|Ω|∑
ω∈ΩX(ω).
Der Erwartungswert ist in diesem Spezialfall dasarithmetische Mittel .
Beispiel(Sankt-Petersburg-Paradoxon). Wir betrachten ein Glücksspiel mit fairen Münzwürfen
X1, X2, . . ., wobei sich der Gewinn in jeder Runde verdoppelt bis zum ersten Mal »Kopf« fällt,
dann ist das Spiel beendet.Wie hoch wäre eine faire Teilnahmegebühr für dieses Spiel?
Der Gewinn ist
G(ω) = 2T (ω), mit
T (ω) := minn ∈ N | Xn(ω) = 1, der Wartezeit auf »Kopf«.
Für den erwarteten Gewinn ergibt sich
E[G] =∞∑
k=1
2k · P [T = k] =∞∑
k=1
2k · P [X1 = · · · = Xk−1 = 1, Xk = 0] =∞∑
k=1
2k 2−k
= ∞.
Das Spiel sollte also auf den ersten Blick bei beliebig hoher Teilnahmegebühr attraktiv sein –
dennoch wäre wohl kaum jemand bereit, einen sehr hohen Einsatz zu zahlen.
Eine angemessenere Beschreibung – vom Blickwinkel des Spielers aus betrachtet – erhält man,
wenn man eine (üblicherweise als monoton wachsend und konkav vorausgesetzte) Nutzenfunk-
tion u(x) einführt, die den Nutzen beschreibt, den der Spieler vom Kapital x hat. Für kleinex
könnte etwau(x) = x gelten, aber für großex wäre plausibleru(x) < x. Dann istc ein fairer
Einsatz aus Sicht des Spielers, wennu(c) = E[u(G)] gilt.
Universität Bonn Wintersemester 2009/2010
40 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
Linearität und Monotonie des Erwartungswertes
Satz 1.8(Linearität des Erwartungswerts). SeienX : Ω → SX ⊆ R undY : Ω → SY ⊆ R
diskrete reellwertige Zufallsvariablen auf(Ω,A, P ), für die E[|X|] und E[|Y |] endlich sind,
dann gilt:
E[λX + µY ] = λE[X] + µE[Y ] für alle λ, µ ∈ R.
Beweis.Wir definiereng : SX ×SY → R, (x, y) 7→ λx+µ y. Dann istg(X, Y ) = λX +µY
eine Zufallsvariable mit Werten inSX × SY . Mit dem Transformationssatz folgt:
E[λX + µY ] = E[g(X, Y )]
=∑
a∈SX
∑
b∈SY
g(a, b)P [X = a, Y = b] (1.4.1)
=∑
a∈SX
∑
b∈SY
(λ a+ µ b)P [X = a, Y = b]
= λ∑
a∈SX
a∑
b∈SY
P [X = a, Y = b] + µ∑
b∈SY
b∑
a∈SX
P [X = a, Y = b]
= λ∑
a∈SX
aP [X = a] + µ∑
b∈SY
b P [Y = b]
= λE[X] + µE[Y ].
Hierbei konvergiert die Reihe in (1.4.1) absolut, da
∑
a∈SX
∑
b∈SY
|λ a+ µ b|P [X = a, Y = b] ≤ |λ|∑
a∈SX
|a|P [X = a] + |µ|∑
b∈SY
|b|P [Y = b]
= |λ|E[|X|] + |µ|E[|Y |]
nach Voraussetzung endlich ist.
Korollar (Monotonie des Erwartungswerts). Seien die Voraussetzungen von Satz 1.8 erfüllt. Sei
zusätzlichX(ω) ≤ Y (ω) für alle ω ∈ Ω, dann gilt:
E[X] ≤ E[Y ].
Beweis.Nach Voraussetzung gilt(Y −X)(ω) ≥ 0 für alleω ∈ Ω, weshalb der Erwartungswert
E[Y −X] nichtnegativ ist. Aufgrund der Linearität des Erwartungswerts folgt:
0 ≤ E[Y −X] = E[Y ]− E[X].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.4. ERWARTUNGSWERT 41
Beispiele(Unabhängige0-1-Experimente). SeienA1, A2, . . . , An ∈ A unabhängige Ereignisse
mit Wahrscheinlichkeitp, und sei
Xi = IAi, die Indikatorfunktion des EreignissesAi, i = 0, . . . , n.
a) Die ZufallsvariablenXi sindBernoulli-verteilt mit Parameter p, d.h.
Xi =
1 mit Wahrscheinlichkeitp,
0 mit Wahrscheinlichkeit1− p.
Also gilt:
E[Xi] = E[IAi] = P [Ai] = p,
analog zu Beispiel 1.4.
b) Die Anzahl
Sn = X1 +X2 + · · ·+Xn
der Ereignisse, die eintreten, ist binomialverteilt mit Parameternn und p (siehe Übung),
d.h.
P [Sn = k] =
(n
k
)pk (1− p)n−k.
Den Erwartungswert kann man daher wie folgt berechnen:
E[Sn] =n∑
k=0
k · P [Sn = k] =n∑
k=0
k
(n
k
)pk (1− p)n−k
= . . . = n p.
Einfacher benutzt man aber die Linearität des Erwartungswerts, und erhält
E[Sn] = E
[n∑
i=1
Xi
]=
n∑
i=1
E[Xi] = n p,
sogarohne Verwendung der Unabhängigkeit!
Beispiel (Abhängige0-1-Experimente). Wir betrachten eine Population ausm Objekten, davon
r rote, aus der eine Zufallsstichprobe ausn Objekten ohne Zurücklegen entnommen wird,n ≤min(r,m− r). SeiAi das Ereignis, dass dasi-te Objekt in der Stichprobe rot ist, undXi = IAi
.
Die Anzahl
Sn = X1 + · · ·+Xn
Universität Bonn Wintersemester 2009/2010
42 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN
der roten Objekte in der Zufallsstichprobe ist dann hypergeometrisch verteilt mit Parameternm,
r undn. Als Erwartungswert dieser Verteilung erhalten wir analogzum letzten Beispiel:
E[Sn] =n∑
i=1
E[Xi] =n∑
i=1
P [Ai] = nr
m.
Beispiel(Inversionen von Zufallspermutationen). SeienΩ = Sn die Menge aller Permutationen
ω : 1, . . . , n → 1, . . . , n, P die Gleichverteilung aufΩ, und
N(ω) = |(i, j) | i < j undω(i) > ω(j)|,
die Anzahl der Inversionen einer Permutationω ∈ Ω. Dann gilt
N =∑
1≤i<j≤n
IAi,j, wobei
Ai,j = ω ∈ Sn | ω(i) > ω(j)
das Ereignis ist, dass eine Inversion voni undj auftritt. Es folgt:
E[N ] =∑
i<j
E[IAi,j] =
∑
i<j
P [ω ∈ Sn | ω(i) > ω(j)] =∑
i<j
1
2=
1
2
(n
2
)=n (n− 1)
4.
ANWENDUNG: Beim Sortieralgorithmus »Insertion Sort« wird der Wertω(i) einer Liste
ω(1), ω(2), . . . , ω(n) beim Einfügen vonω(j) genau dann verschoben, wennω(j) < ω(i)
gilt. Ist die Anfangsanordnung eine Zufallspermutation der korrekten Anordnung, dann ist die
mittlere Anzahl der Verschiebungen, die der Algorithmus vornimmt, also gleichn (n−1)4
.
Satz 1.9(Einschluss-/Ausschlussprinzip). Für n ∈ N und EreignisseA1, . . . , An ∈ A gilt:
P [A1 ∪ A2 ∪ . . . ∪ An] =n∑
k=1
(−1)k−1∑
1≤i1<...<ik≤n
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] .
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
1.4. ERWARTUNGSWERT 43
Beweis.Wir betrachten zunächst das Gegenereignis, und drücken dieWahrscheinlichkeiten als
Erwartungswerte von Indikatorfunktionen aus. Unter Ausnutzung der Linearität des Erwartungs-
werts erhalten wir:
P[(A1 ∪ · · · ∪ An)
C]= P
[AC
1 ∩ · · · ∩ ACn
]= E
[IAC
1 ∩···∩ACn
]
= E[ n∏
i=1
IACi
]= E
[ n∏
i=1
(1− IAi)]
=n∑
k=0
(−1)k∑
1≤i1<...<ik≤n
E[IAi1
· · · · · IAik
]
=n∑
k=0
(−1)k∑
1≤i1<...<ik≤n
E[IAi1
∩···∩Aik
]
=n∑
k=0
(−1)k∑
1≤i1<...<ik≤n
P[Ai1 ∩ · · ·Aik
].
Es folgt:
P [A1 ∪ · · · ∪ An] = 1− P[(A1 ∪ · · · ∪ An)
C]
=n∑
k=1
(−1)k−1∑
1≤i1<...<ik≤n
P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] .
Universität Bonn Wintersemester 2009/2010
Kapitel 2
Bedingte Wahrscheinlichkeiten und
Unabhängigkeit
2.1 Bedingte Wahrscheinlichkeiten
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum undA,B ∈ A Ereignisse. Was ist die Wahrschein-
lichkeit dafür, dassA eintritt, wenn wir schon wissen, dassB eintritt?
Relevante Fälle: ω ∈ B
Davon günstige Fälle: ω ∈ A ∩B
Definition. SeiP [B] 6= 0. Dann heißt
P [A|B] :=P [A ∩ B]
P [B]
diebedingte Wahrscheinlichkeit vonA gegebenB.
Bemerkung. a) P [ • |B] : A 7→ P [A|B] ist eine Wahrscheinlichkeitsverteilung auf(Ω,A),
diebedingte Verteilung gegebenB . Der Erwartungswert
E[X|B] =∑
a∈Sa · P [X = a|B]
einer diskreten ZufallsvariableX : Ω → S bzgl. der bedingten Verteilung heißtbedingte
Erwartung von X gegebenB.
b) IstP die Gleichverteilung auf einer endlichen MengeΩ, dann gilt:
P [A|B] =|A ∩ B|/|Ω||B|/|Ω| =
|A ∩ B||B| für alleA,B ⊆ Ω.
44
2.1. BEDINGTE WAHRSCHEINLICHKEITEN 45
Beispiele. a) Wir betrachten eine Familie mit 2 Kindern, und stellen dieFrage nach dem
Geschlecht der Kinder. Sei daher
Ω = JJ, JM,MJ,MM.
Angenommen, alle Fälle wären gleich wahrscheinlich. Dann gilt:
P [»beide Mädchen«| »eines Mädchen«] =|MM|
|MM,JM,MJ| =1
3,
P [»beide Mädchen«| »das erste ist Mädchen«] =|MM|
|MM,MJ| =1
2.
In Wirklichkeit sind die KombinationenJJ undMM wahrscheinlicher.
b) Bei 20 fairen Münzwürfen fällt 15-mal »Zahl«. Wie groß ist die Wahrscheinlichkeit, dass
die ersten 5 Würfe »Zahl« ergeben haben? Sei
Ω = ω = (x1, . . . x20) | xi ∈ 0, 1, und
Xi(ω) = xi, der Ausgang desi-ten Wurfs.
Es gilt:
P[X1 = . . . = X5 = 1
∣∣20∑
i=1
Xi = 15]=
P[X1 = . . . = X5 = 1 und
20∑i=6
Xi = 10]
P[ 20∑i=1
Xi = 15]
=2−5 · 2−15
(1510
)
2−20(2015
) =15 · 14 · · · · · 1120 · 19 · · · · · 16 ≈ 1
5.
Dagegen istP [X1 = . . . = X5 = 1] = 132
.
Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung
SeiΩ =⋃Hi eine disjunkte Zerlegung vonΩ in abzählbar viele Fälle (»Hypothesen«)Hi , i ∈
I.
Satz 2.1(Formel von der totalen Wahrscheinlichkeit). Für alle A ∈ A gilt:
P [A] =∑
i∈IP [Hi]6=0
P [A|Hi] · P [Hi]
Universität Bonn Wintersemester 2009/2010
46 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beweis.Es istA = A ∩ (⋃i∈IHi) =
⋃i∈I
(A ∩ Hi) eine disjunkte Vereinigung, also gilt nachσ-
Additivität:
P [A] =∑
i∈IP [A ∩Hi] =
∑
i∈IP [A ∩Hi]︸ ︷︷ ︸
=0, fallsP [Hi]=0
=∑
i∈I,P [Hi]6=0
P [A|Hi] · P [Hi].
Beispiel. Urne 1 enthalte2 rote und3 schwarze Kugeln, Urne 2 enthalte3 rote und4 schwarze
Kugeln. Wir legen eine KugelK1 von Urne 1 in Urne 2 und ziehen eine KugelK2 aus Urne 2.
Mit welcher Wahrscheinlichkeit istK2 rot?
P [K2 rot] = P [K2 rot | K1 rot] · P [K1 rot] + P [K2 rot | K1 schwarz] · P [K1 schwarz]
=4
8· 25+
3
8· 35=
17
40.
Beispiel(Simpson-Paradoxon). Bewerbungen in Berkeley:
BEWERBUNGEN INBERKELEY
Statistik 1: Männer angenommen (A) Frauen angenommen (A)
2083 996 1067 349
Empirische
Verteilung:P [A|M ] ≈ 0, 48 P [A|F ] ≈ 0, 33
GENAUERE ANALYSE DURCH UNTERTEILUNG IN 4 FACHBEREICHE
Statistik 2: Männer angenommen (A) Frauen angenommen (A)
Bereich 1 825 511 62% 108 89 82%
Bereich 2 560 353 63% 25 17 68%
Bereich 3 325 110 34% 593 219 37%
Bereich 4 373 22 6% 341 24 7%
Sei PM [A] := P [A|M ] die empirische Verteilung unter Männern undPF [A] := P [A|F ] die
empirische Verteilung unter Frauen, angenommen zu werden.Die Aufgliederung nach Fachbe-
reichen ergibt folgende Zerlegung in Hypothesen:
PM [A] =4∑
i=1
PM [A|Hi]PM [Hi], PF [A] =4∑
i=1
PF [A|Hi]PF [Hi].
Im Beispiel istPF [A|Hi] > PM [A|Hi] für alle i, aberdennochPF [A] < PM [A]. Die erste Statis-
tik vermischt verschiedene Populationen und legt deshalb eventuell eine falsche Schlussfolgerung
nahe.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.1. BEDINGTE WAHRSCHEINLICHKEITEN 47
Bayessche Regel
Wie wahrscheinlich sind die HypothesenHi? Ohne zusätzliche Information istP [Hi] die Wahr-
scheinlichkeit vonHi. In der Bayesschen Statistik interpretiert manP [Hi] als unsere subjektive
Einschätzung (aufgrund von vorhandenem oder nicht vorhandenem Vorwissen) über die vorlie-
gende Situation (»a priori degree of belief«).
Angenommen, wir wissen nun zusätzlich, dass ein EreignisA ∈ A mit P [A] 6= 0 eintritt, und
wir kennen die bedingte Wahrscheinlichkeit (»likelihood«) P [A|Hi] für das Eintreten vonA unter
der HypotheseHi für jedesi ∈ I mit P [Hi] 6= 0. Wie sieht dann unsere neue Einschätzung der
Wahrscheinlichkeiten derHi (»a posteriori degree of belief«) aus?
Korollar (Bayessche Regel). Für A ∈ A mit P [A] 6= 0 gilt:
P [Hi|A] =P [A|Hi] · P [Hi]∑
j∈IP [Hj ]6=0
P [A|Hj] · P [Hj]für alle i ∈ I mit P [Hi] 6= 0, d.h.
P [Hi|A] = c · P [Hi] · P [A|Hi],
wobei c eine voni unabhängige Konstante ist.
Beweis.Es gilt:
P [Hi|A] =P [A ∩Hi]
P [A]=
P [A|Hi] · P [Hi]∑j∈I
P [Hj ]6=0
P [A|Hj] · P [Hj].
Beispiel. Von 10.000 Personen eines Alters habe einer die KrankheitK. Ein Test sei positiv (+)
bei 96% der Kranken und 0,1% der Gesunden.
A priori: P [K] = 110000
. P [KC ] = 999910000
.
Likelihood: P [+|K] = 0, 96. P [+|KC ] = 0, 001.
A posteriori:
P [K|+] =P [+|K] · P [K]
P [+|K] · P [K] + P [+|KC ] · P [KC ]
=0, 96 · 10−4
0, 96 · 10−4 + 10−3 · 0, 9999 ≈ 1
11.
Daraus folgt insbesondere:P [KC |+] ≈ 1011
, d.h. ohne zusätzliche Informationen muss man davon
ausgehen, dass1011
der positiv getesteten Personen in Wirklichkeit gesund sind!
Universität Bonn Wintersemester 2009/2010
48 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
2.2 Mehrstufige diskrete Modelle
Wir betrachten einn-stufiges Zufallsexperiment. SindΩ1, . . . ,Ωn abzählbare Stichprobenräume
der Teilexperimente, dann können wir
Ω = Ω1 × . . .× Ωn = (ω1, . . . , ωn) | ωi ∈ Ωi
als Stichprobenraum des Gesamtexperiments auffassen und setzenA = P(Ω). Fürω ∈ Ω und
k = 1, . . . , n sei
Xk(ω) = ωk, der Ausgang desk-ten Teilexperiments.
Angenommen, wir kennen
P [X1 = x1] = p1(x1), für allex1 ∈ Ω1, (2.2.1)
die Verteilung (Massenfunktion) vonX1, sowie
P [Xk = xk | X1 = x1, . . . , Xk−1 = xk−1] = pk(xk | x1, . . . , xk−1), (2.2.2)
die bedingte Verteilung vonXk gegebenX1, . . . , Xk−1 für k = 2, . . . n, xi ∈ Ωi mit P [X1 =
x1, . . . , Xk−1 = xk−1] 6= 0.
Wie sieht die gesamte WahrscheinlichkeitsverteilungP aufΩ aus?
Satz 2.2.Seienp1 und pk( • | x1, . . . , xk−1) für jedesk = 2, . . . , n undx1 ∈ Ω1, . . . , xk−1 ∈Ωk−1 die Massenfunktion einer WahrscheinlichkeitsverteilungaufΩk. Dann existiert genau eine
WahrscheinlichkeitsverteilungP auf (Ω,A) mit (2.2.1)und (2.2.2). Diese ist bestimmt durch die
Massenfunktion
p(x1, . . . , xn) = p1(x1) p2(x2 | x1) p3(x3 | x1, x2) · · · pn(xn | x1, . . . , xn−1).
Beweis.
• EINDEUTIGKEIT:
Wir behaupten, dass für eine VerteilungP mit (2.2.1) und (2.2.2) gilt:
P [X1 = x1, . . . , Xk = xk] = p1(x1)·p2(x2 | x1) · · · pk(xk | x1, . . . , xk−1), k = 1, . . . , n.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE 49
Der Induktionsanfang folgt aus Bedingung (2.2.1). Sei die Induktionsbehauptung fürk− 1
wahr, dann folgt nach Induktionsannahme und (2.2.2):
P [X1 = x1, . . . , Xk = xk] =P [X1 = x1, . . . , Xk−1 = xk−1]
· P [X1 = x1, . . . , Xk = xk | X1 = x1, . . . , Xk−1 = xk−1]
=p1(x1) · p2(x2 | x1) · · · pk−1(xk−1 | x1, . . . , xk−2)
· pk(xk | x1, . . . , xk−1),
falls P [X1 = x1, . . . , Xk−1 = xk−1] 6= 0. Andernfalls verschwinden beide Seiten und die
Behauptung folgt. Fürk = n erhalten wir als Massenfunktion vonP :
p(x1, . . . , xn) = P [X1 = x1, . . . , Xn = xn] = p1(x1) · · · pn(xn | x1, . . . , xn−1).
• EXISTENZ:
p ist Massenfunktion einer WahrscheinlichkeitsverteilungP aufΩ1 × · · · × Ωn, denn:
∑
x1∈Ω1
. . .∑
xn∈Ωn
p(x1, . . . , xn) =∑
x1∈Ω1
p1(x1)∑
x2∈Ω2
p2(x2 | x1) . . .∑
xn∈Ωn
pn(xn | x1, . . . , xn)︸ ︷︷ ︸
=1
= 1.
FürP gilt:
P [X1 = x1, . . . Xk = xk] =∑
xk+1∈Ωk+1
. . .∑
xn∈Ωn
p(x1, . . . , xn)
= p1(x1) p2(x2 | x1) · · · pk(xk | x1, . . . , xk−1), k = 1, . . . , n.
Damit folgen (2.2.1) und (2.2.2).
Beispiel. Wie groß ist die Wahrscheinlichkeit, dass beim Skat jeder Spieler genau einen der vier
Buben erhält? Sei
Ω = (ω1, ω2, ω3) | ωi ∈ 0, 1, 2, 3, 4,Xi(ω) = ωi = Anzahl der Buben von Spieleri.
Universität Bonn Wintersemester 2009/2010
50 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
a
p1(a)
aap2(a|a)aaa
p3(a|aa)
aabp3(b|aa)
abp2(b|a)aba
p3(a|ab)
abbp3(b|ab)
bp1(b)
bap2(a|b)baa
p3(a|ba)
babp3(b|ba)
bbp2(b|b)bba
p3(a|bb)
bbbp3(b|bb)
c
p1(c) cap2(a|c)caa
p3(a|ca)
cabp3(b|ca)
cbp2(b|c)cba
p3(a|cb)
cbbp3(b|cb)
Abbildung 2.1: Baumdarstellung der Fallunterscheidungen
Es gilt:
p1(x1) =
(4x1
)(28
10−x1
)(3210
) , hypergeometrische Verteilung,
p2(x2 | x1) =(4−x1
x2
)(18+x1
10−x2
)(2210
)
p3(x3 | x1, x2) =
(4−x1−x2x3
)(18+x1+x210−x3
)(1210)
falls 2 ≤ x1 + x2 + x3 ≤ 4,
0 sonst.
Damit folgt:
p(1, 1, 1) = p1(1) p2(1 | 1) p3(1 | 1, 1) ≈ 5, 56%.
Im folgenden betrachten wir zwei fundamentale Klassen von mehrstufigen Modellen, Produkt-
modelle und Markov-Ketten.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE 51
Produktmodelle
Angenommen, der Ausgang desi-ten Experiments hängt nicht vonx1, . . . , xi−1 ab. Dann sollte
gelten:
pi(xi | x1, . . . , xi−1) = pi(xi)
mit einer vonx1, . . . , xi−1 unabhängigen Massenfunktionpi einer Wahrscheinlichkeitsverteilung
Pi aufΩi. Die WahrscheinlichkeitsverteilungP aufΩ hat dann die Massenfunktion
p(x1, . . . , xn) =n∏
i=1
pi(xi), x ∈ Ω. (2.2.3)
Definition. Die WahrscheinlichkeitsverteilungP auf Ω = Ω1 × . . . × Ωn mit Massenfunktion
(2.2.3)heißtProduktvonP1, . . . , Pn und wird mitP1 ⊗ . . .⊗ Pn notiert.
Beispiel(n-dimensionale Bernoulli-Verteilung). Wir betrachtenn unabhängige0-1-Experimente
mit Erfolgswahrscheinlichkeitp:
Ω1 = . . . = Ωn = 0, 1, pi(1) = p, pi(0) = 1− p, i = 1, . . . , n.
Seik =∑n
i=1 xi die Anzahl der Einsen. Dann ist
p(x1, . . . , xn) =n∏
i=1
pi(xi) = pk (1− p)n−k
dien-dimensionale Bernoulli-Verteilung.
Bemerkung. Sind die MengenΩi, i = 1, . . . , n endlich, und istPi die Gleichverteilung aufΩi,
dann istP1 ⊗ . . . ⊗ Pn die Gleichverteilung aufΩ1 × . . .× Ωn.
Die Multiplikativität im Produktmodell gilt nicht nur für die Massenfunktion, sondern allgemei-
ner für die Wahrscheinlichkeiten, dass in den Teilexperimenten bestimmte EreignisseA1, . . . ,
An eintreten:
Satz 2.3.Im Produktmodell gilt für beliebige EreignisseAi ⊆ Ωi, i = 1, . . . , n:
P [X1 ∈ A1, . . . , Xn ∈ An] =n∏
i=1
P [Xi ∈ Ai] (2.2.4)
|| ||
P [A1 × . . .× An]n∏
i=1
Pi[Ai]
(d.h.X1, . . . , Xn sindunabhängigeZufallsvariablen, siehe nächsten Abschnitt).
Universität Bonn Wintersemester 2009/2010
52 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beweis.Es gilt:
P [X1 ∈ A1, . . . , Xn ∈ An] = P [(X1, . . . , Xn) ∈ A1 × · · · × An] = P [A1 × · · · × An]
=∑
x∈A1×···×An
p(x) =∑
x1∈A1
. . .∑
xn∈An
n∏
i=1
pi(xi)
=n∏
i=1
∑
xi∈Ai
pi(xi) =n∏
i=1
Pi[Ai].
Insbesondere gilt:
P [Xi ∈ Ai] = P [X1 ∈ Ω, . . . , Xi−1 ∈ Ω, Xi ∈ Ai, Xi+1 ∈ Ω, . . . , Xn ∈ Ω] = Pi[Ai].
Markov-Ketten
Zur Modellierung einer zufälligen zeitlichen Entwicklungmit abzählbarem ZustandsraumS be-
trachten wir den Stichprobenraum
Ω = Sn+1 = (x0, x1, . . . , xn) | xi ∈ S.
Oft ist es naheliegend anzunehmen, dass die Weiterentwicklung des Systems nur vom gegen-
wärtigen Zustand, aber nicht vom vorherigen Verlauf abhängt (»kein Gedächtnis«), d.h. es sollte
gelten:
pk(xk | x0, . . . , xk−1) = pk(xk−1, xk)︸ ︷︷ ︸»Bewegungsgesetz«
, (2.2.5)
wobeipk : S × S → [0, 1] folgende Bedingungen erfüllt:
i) pk(x, y) ≥ 0 für allex, y ∈ S
ii)∑
y∈S pk(x, y) = 1 für allex ∈ S
d.h.pk(x, •) ist für jedesx ∈ S die Massenfunktion einer WahrscheinlichkeitsverteilungaufS.
Definition. Eine Matrix pk(x, y) (x, y ∈ S) mit i) und ii) heißtstochastische Matrix(oder
stochastischer Kern) aufS.
Im Mehrstufenmodell folgt aus Gleichung (2.2.5):
p(x0, x1, . . . , xn) = p0(x0)︸ ︷︷ ︸»Startverteilung«
p1(x0, x1) p2(x1, x2) · · · pn(xn−1, xn), für x0, . . . , xn ∈ S.
Den Fall, in dem der Übergangsmechanismuspk(x, y) = p(x, y) unabhängig vonk ist, nennt
manzeitlich homogen.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE 53
Beispiele. a) PRODUKTMODELL (siehe oben):
pk(x, y) = pk(y) ist unabhängig vonx.
b) ABHÄNGIGE MÜNZWÜRFE:
S = 0, 1, ε ∈[− 1
2,1
2
].
p =
(12+ ε 1
2− ε
12− ε 1
2+ ε
).
c) SELBSTBEFRUCHTUNG VONPFLANZEN:
p =
1 0 014
12
14
0 0 1
d) RANDOM WALK AUF S = Zd, (d ∈ N):
Universität Bonn Wintersemester 2009/2010
54 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
p(x, y) =
12d
falls |x− y| = 1,
0 sonst.
e) URNENMODELL VON P. UND T. EHRENFEST(Austausch von Gasmolekülen in zwei Be-
hältern):
Es seienN Kugeln auf zwei Urnen verteilt. Zu jedem Zeitpunktt ∈ N wechselt eine
zufällig ausgewählte Kugel die Urne.
MAKROSKOPISCHESMODELL:
S = 0, 1, 2, . . . , n.
x ∈ S beschreibt die Anzahl Kugeln in der ersten Urne.
p(x, y) =
xn
falls y = x− 1,
n−xn
falls y = x+ 1,
0 sonst.
M IKROSKOPISCHESMODELL:
S = 0, 1n = (σ1, . . . , σn) | σi ∈ 0, 1.
Es istσi = 1 genau dann, wenn sich diei-te Kugel in Urne 1 befindet.
p(σ, σ) =
1N
falls∑n
i=1 |σi − σi| = 1,
0 sonst.
Die resultierende Markov-Kette ist ein Random Walk auf dem Hyperwürfel0, 1n, d.h.
sie springt in jedem Schritt von einer Ecke des Hyperwürfelszu einer zufällig ausgewählten
benachbarten Ecke.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.2. MEHRSTUFIGE DISKRETE MODELLE 55
Berechnung von Wahrscheinlichkeiten
Satz 2.4(Markov-Eigenschaft). Für alle 0 ≤ k < l ≤ n und x0, . . . , xl ∈ S mit P [X0 =
x0, . . . , Xk = xk] 6= 0 gilt:
P [Xl = xl | X0 = x0, . . . , Xk = xk] = P [Xl = xl | Xk = xk]
= (pk+1 pk+2 · · · pl)(xk, xl),
wobei
(p q)(x, y) :=∑
z∈Sp(x, z) q(z, y)
das Produkt der Matrizenp undq ist.
Bemerkung. a) MARKOV-EIGENSCHAFT:
Die Weiterentwicklung hängt jeweils nur vom gegenwärtigenZustandxk ab, und nicht vom
vorherigen Verlaufx0, x1, . . . , xk−1.
b) n-SCHRITT-ÜBERGANGSWAHRSCHEINLICHKEITEN:
P [Xn = y | X0 = x] = (p1 p2 · · · pn)(x, y)= pn(x, y) falls zeitlich homogen, d.h.pi ≡ p.
Beweis.
P [Xl = xl | X0 = x0, . . . , Xk = xk] =P [X0 = x0, . . . , Xk = xk, Xl = xl]
P [X0 = x0, . . . , Xk = xk]
=
∑xk+1,...,xl−1
p0(x0) p1(x0, x1) · · · pl(xl−1, xl)
p0(x0) p1(x0, x1) · · · pk(xk−1, xk)
=∑
xk+1
. . .∑
xl−1
pk+1(xk, xk+1) pk+2(xk+1, xk+2) · · · pl(xl−1, xl)
= (pk+1 pk+2 · · · pl)(xk, xl).
P [Xl = xl | Xk = xk] =P [Xk = xk, Xl = xl]
P [Xk = xk]
=
∑x1,...,xk−1
∑xk+1,...,xl−1
p0(x0) p1(x0, x1) · · · pl(xl−1, xl)∑x1,...,xk−1
p0(x0) p1(x0, x1) · · · pk(xk−1, xk)
= (pk+1 pk+2 · · · pl)(xk, xl).
Universität Bonn Wintersemester 2009/2010
56 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Beispiel.
S = 0, 1, 0 < α, β ≤ 1.
Für allen ∈ N gilt:
pn(0, 0) = pn−1(0, 0) · p(0, 0) + pn−1(0, 1) · p(1, 0)= pn−1(0, 0) · (1− α) + (1− pn−1(0, 0)) · β= (1− α− β) · pn−1(0, 0) + β.
Daraus folgt mit Induktion:
pn(0, 0) =β
α + β+
α
α + β(1− α− β)n, und
pn(0, 1) = 1− pn(0, 0).
Analoge Formeln erhält man fürpn(1, 0) undpn(1, 1) durch Vertauschung vonα undβ. Für die
n-Schritt-Übergangsmatrix ergibt sich:
pn =
(β
α+βα
α+ββ
α+βα
α+β
)
︸ ︷︷ ︸Gleiche Zeilen
+ (1− α− β)n
(α
α+β−αα+β
−βα+β
βα+β
)
︸ ︷︷ ︸−→ 0 exponentiell schnell,
falls α < 1 oderβ < 1
.
Insbesondere giltpn(0, ·) ≈ pn(1, ·) für großen ∈ N. Die Kette »vergisst« also ihren Startwert
exponentiell schnell (»Exponentieller Gedächtnisverlust«)!.
2.3 Unabhängigkeit von Ereignissen
Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum. Hängen zwei EreignisseA,B ∈ A nicht voneinan-
der ab, dann sollte gelten:
P [A|B] = P [A], fallsP [B] 6= 0,
sowie
P [B|A]︸ ︷︷ ︸P [B∩A]P [A]
= P [B], fallsP [A] 6= 0,
also insgesamt
P [A ∩ B] = P [A] · P [B]. (2.3.1)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 57
Definition. i) Zwei EreignisseA,B ∈ A heißenunabhängig(bzgl. P), falls(2.3.1)gilt.
ii) Eine beliebige KollektionAi, i ∈ I, von Ereignissen heißtunabhängig(bzgl. P), falls
P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ] =n∏
k=1
P [Aik ]
für alle n ∈ N und alle paarweise verschiedeneni1, . . . , in ∈ I gilt.
Beispiele. a) FallsP [A] ∈ 0, 1 gilt, ist A unabhängig vonB für alleB ∈ A.
b) Wir betrachten das Modell fürZWEI FAIRE MÜNZWÜRFE, alsoΩ = 0, 12 undP sei die
Gleichverteilung. Die Ereignisse
A1 = (1, 0), (1, 1), »erster Wurf Zahl«,
A2 = (0, 1), (1, 1), »zweiter Wurf Zahl«,
A3 = (0, 0), (1, 1), »beide Würfe gleich«,
sindpaarweise unabhängig, denn es gilt:
P [Ai ∩ Aj] =1
4= P [Ai] · P [Aj ] für alle i 6= j.
Allerdings ist die KollektionA1, A2, A3 nicht unabhängig, denn es gilt
P [A1 ∩ A2 ∩ A3] =1
46= P [A1] · P [A2] · P [A3].
Lemma 2.5. Seien die EreignisseA1, . . . , An ∈ A unabhängig,Bj = Aj oderBj = ACj für alle
j = 1, . . . , n. Dann sind die EreignisseB1, . . . , Bn unabhängig.
Beweis.Sei ohne Beschränkung der Allgemeinheit:
B1 = A1, . . . , Bk = Ak, Bk+1 = ACk+1, . . . , Bn = AC
n
. Dann gilt unter Verwendung der Linearität des Erwartungswerts und der Unabhängigkeit von
A1, . . . , An:
P [B1 ∩ . . . ∩ Bn] = P[A1 ∩ . . . ∩ Ak ∩ AC
k+1 ∩ . . . ACn
]
= E[IA1 · · · IAk
· (1− IAk+1) · · · (1− IAn)
]
= E[IA1 · · · IAk
·∑
J⊆k+1,...,n(−1)|J |
∏
j∈JIAj
]
=∑
J⊆k+1,...,n(−1)|J |P
[A1 ∩ . . . ∩ Ak ∩
⋂
j∈JAj
]
=∑
J⊆k+1,...,n(−1)|J |P [A1] · · ·P [Ak] ·
∏
j∈JP [Aj]
= P [A1] · · ·P [Ak] · (1− P [Ak+1]) . . . (1− P [An]) = P [B1] · · ·P [Bn].
Universität Bonn Wintersemester 2009/2010
58 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Verteilungen für unabhängige Ereignisse
SeienA1, A2, . . . ∈ A unabhängige Ereignisse (bzgl.P ) mit P [Ai] = p ∈ [0, 1]. Die Existenz
von unendlich vielen unabhängigen Ereignissen auf einem geeigneten Wahrscheinlichkeitsraum
setzen wir hier voraus – ein Beweis wird erst in der Vorlesung »Einführung in die Wahrschein-
lichkeitstheorie« gegeben.
Geometrische Verteilung
Die Wartezeit auf das erste Eintreten eines der Ereignisseist
T (ω) = infn ∈ N | ω ∈ An, wobei min ∅ := ∞.
Mit Lemma 2.5 folgt:
P [T = n] = P [AC1 ∩ AC
2 ∩ . . . ∩ ACn−1 ∩ An]
= P [An] ·n−1∏
i=1
P [ACi ]
= p · (1− p)n−1.
Definition. Seip ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung aufN mit Massenfunktion
p(n) = p · (1− p)n−1
heißtgeometrische Verteilung zum Parameterp.
Bemerkung. a) Fürp 6= 0 gilt:
∞∑
n=1
p · (1− p)n−1 = 1,
d.h. die geometrische Verteilung ist eine Wahrscheinlichkeitsverteilung auf den natürlichen
Zahlen, und
P [T = ∞] = 0.
b) Allgemein gilt:
P [T > n] = P[AC
1 ∩ . . . ∩ ACn
]= (1− p)n.
c) Es gilt:
E[T ] =∞∑
n=0
P [T > n] =1
1− (1− p)=
1
p,
(siehe Übung).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 59
Binomialverteilung
Die Anzahl der Ereignisse unterA1, . . . , An, die eintreten, ist
Sn(ω) = |1 ≤ i ≤ n | ω ∈ Ai| =n∑
i=1
IAi(ω).
Es gilt:
P [Sn = k] =∑
I⊆1,...,n|I|=k
P[⋂
i∈IAi ∩
⋂
i∈1,...,n\IAC
i
]
=∑
I⊆1,...,n|I|=k
∏
i∈IP [Ai] ·
∏
i∈ICP [AC
i ]
=∑
I⊆1,...,n|I|=k
∏
i∈Ip ·∏
i∈IC(1− p)
=∑
I⊆1,...,n|I|=k
p|I| · (1− p)|IC |
=
(n
k
)pk (1− p)n−k,
d.h.Sn ist Binomialverteilt mit Parametern n und p.
Satz 2.6(»Law of Averages«, Bernstein-Ungleichung). Für alle ε > 0 undn ∈ N gilt:
P
[Sn
n≥ p+ ε
]≤ e−2ε2n, und
P
[Sn
n≤ p− ε
]≤ e−2ε2n.
Insbesondere gilt:
P
[∣∣∣∣Sn
n− p
∣∣∣∣ > ε
]≤ 2 e−2ε2n,
d.h. die Wahrscheinlichkeit für eine Abweichung des Mittelwerts Sn
nvom Erwartungswertp um
mehr alsε fällt exponentiell inn.
Bemerkung. a) Satz 2.6 ist eine erste Version des »Gesetzes der großen Zahlen«.
b) Der Satz liefert eine nachträgliche Rechtfertigung der frequentistischen Interpretation der
Wahrscheinlichkeit als asymptotische relative Häufigkeit.
Universität Bonn Wintersemester 2009/2010
60 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
c) Anwendung auf Schätzen vonp:
p ≈ Sn
n= relative Häufigkeit des Ereignisses bein unabhängigen Stichproben.
d) Anwendung auf näherungsweise Monte Carlo-Berechnung vonp:
Simulieren unabhängige Stichproben,p ∼ relative Häufigkeit.
Beweis.Seiq := 1− p, Sn ∼ Bin(n, p). Dann gilt fürλ > 0:
P [Sn ≥ n (p+ ε)] =∑
k≥np+nε
(n
k
)pk qn−k
≤∑
k≥np+nε
(n
k
)eλk pk qn−k e−λ(np+nε)
≤n∑
k=0
(n
k
)(p eλ)kqn−k e−λnp e−λnε
=(p eλ + q
)ne−λnp e−λnε ≤
(p eλq + q e−λp
)ne−λnε.
Wir behaupten:
p eλq + q e−λp ≤ eλ2
8 .
Damit folgt:
P [Sn ≥ n (p+ ε)] ≤ en (λ2
8−λε).
Der Exponent ist minimal fürλ = 4ε. Für diese Wahl vonλ folgt schließlich
P [Sn ≥ n (p+ ε)] ≤ e−2nε2 .
Beweis der Behauptung:
f(λ) := log(p eλq + q e−λp
)= log
(e−λ p (p eλ + q)
)= −λ p+ log
(p eλ + q
).
Zu zeigen ist nun
f(λ) ≤ λ2
8für alleλ ≥ 0.
Es gilt:
f(0) = 0,
f ′(λ) = −p+ p eλ
p eλ + q= −p+ p
p+ q e−λ, f ′(0) = 0,
f ′′(λ) =p q e−λ
(p+ q e−λ)2≤ 1
4.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 61
Die letzte Ungleichung folgt aus::
(a+ b)2 = a2 + b2 + 2 a b ≥ 4 a b
Damit folgt
f(λ) = f(0) +
∫ λ
0
f ′(x) dx
=
∫ λ
0
∫ x
0
f ′′(y) dy dx ≤∫ λ
0
x
4dx ≤ λ2
8für alleλ ≥ 0.
Beispiel. Im letzten Satz wurde gezeigt:
Sn =n∑
i=1
IAi, Ai unabhängig mitP [Ai] = p =⇒ P
[∣∣∣∣Sn
n− p
∣∣∣∣ ≥ ε
]−→ 0 für n→ ∞.
Zur Demonstration simulieren wir den Verlauf vonSn und Sn
nmehrfach (m-mal):
VERLAUF VON Sn
m = 30; nmax = 1000; p = 0 . 7 ;
(Wir erzeugenm× nmax Bernoulli-Stichproben mit Wahrscheinlichkeit p)
x = RandomChoice [ 1− p , p −> 0 , 1 , nmax , m ] ; s = Accumulate [ x ] ;
Das Feld s enthält m Verläufe vonsn = x1 + . . .+ xn, n = 1, . . . , nmax
Man ipu la te [Show[
L i s t L i n e P l o t [Transpose[ s [ [ 1 ; ; n ] ] ] ] ,
L i s t L i n e P l o t [ p∗Range[ n ] , P l o t S t y l e −> Black , Th ick ] ]
, n , 50 , 1 , nmax , 1 ]
(Vergleich derm Verläufe vonsn mit np)
• n = 50:
10 20 30 40 50
10
20
30
40
Universität Bonn Wintersemester 2009/2010
62 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
• n = 500:
100 200 300 400 500
50
100
150
200
250
300
350
VERLAUF VON Sn
n
mean = s /Range[ nmax ] ;
(Das Feld mean enthält m Verläufe der Werte vonsn
n)
Man ipu la te [Show[
L i s t L i n e P l o t [Transpose[ mean [ [ 1 ; ; n ] ] ] ] ,
L i s t L i n e P l o t [ Cons tan tA r ray [ p , n ] , P l o t S t y l e −> Black , Th ick ] ] , n ,
50 , 1 , nmax , 1 ]
• n = 50:
10 20 30 40 50
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 63
• n = 500:
100 200 300 400 500
0.65
0.70
0.75
0.80
VERTEILUNG VON Sn
Man ipu la te [
L i s t P l o t [ Table [ k , PDF[ B i n o m i a l D i s t r i b u t i o n [ n , p ] , k ] , k , 0 , n ] ,
PlotRange −> Al l , F i l l i n g −> Axis ]
, n , 50 , 1 , nmax , 1 ]
• n = 50:
10 20 30 40 50
0.02
0.04
0.06
0.08
0.10
0.12
Universität Bonn Wintersemester 2009/2010
64 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
• n = 500:
100 200 300 400 500
0.01
0.02
0.03
0.04
2.4 Unabhängige Zufallsvariablen und Random Walk
Unabhängigkeit von diskreten Zufallsvariablen
SeienXi : Ω → Si , i = 1, . . . , n, diskrete Zufallsvariablen auf dem Wahrscheinlichkeitsraum
(Ω,A, P ). Dann ist(X1, . . . , Xn) eine Zufallsvariable mit Werten im ProduktraumS1×· · ·×Sn.
Definition. Die VerteilungµX1,...,Xn des Zufallsvektors(X1, . . . , Xn) heißtgemeinsame Vertei-
lung der ZufallsvariablenX1, . . . , Xn. Die Massenfunktion der gemeinsamen Verteilung lautet
pX1,...,Xn(a1, . . . , an) = P [X1 = a1, . . . , Xn = an].
Definition. Die diskreten ZufallsvariablenX1, . . . , Xn heißenunabhängig, falls gilt:
P [X1 = a1, . . . , Xn = an] =n∏
i=1
P [Xi = ai] für alle ai ∈ Si, i = 1, . . . , n.
Die gemeinsame Verteilung enthält Informationen über den Zusammenhang zwischen den Zu-
fallsgrößenXi.
Satz 2.7.Die folgenden Aussagen sind äquivalent:
(i) X1, . . . , Xn sind unabhängig.
(ii) pX1,...,Xn(a1, . . . , an) =∏n
i=1 pXi(ai).
(iii) µX1,...,Xn =⊗n
i=1 µXi.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 65
(iv) Die EreignisseX1 ∈ A1, . . . , Xn ∈ An sind unabhängig für alleAi ⊆ Si, i =
1, . . . , n.
(v) Die EreignisseX1 = a1, . . . , Xn = an sind unabhängig für alleai ∈ Si, i = 1, . . . , n.
Beweis.
• (i) ⇔ (ii) nach Definition vonpX1,...,Xn .
• (ii) ⇔ (iii) nach Definition von⊗n
i=1 µXi.
• (iii) ⇒ (iv):
Seien1 ≤ i1 < i2 < . . . < im ≤ n undAik ⊆ Sik , (k = 1, . . . ,m). Wir setzenAi := Ω für
i /∈ i1, . . . , im. Mit (iii) folgt dann nach Satz 2.2:
P [Xi1 ∈ Ai1 , . . . , Xim ∈ Aim ] = P [X1 ∈ A1, . . . , Xn ∈ An]
= P [(X1, . . . , Xn) ∈ A1 × . . .× An]
= µX1,...,Xn(A1 × . . .× An)
=n∏
i=1
µXi(Ai) =
n∏
i=1
P [Xi ∈ Ai]
=m∏
i=1
P [Xik ∈ Aik ].
• (iv) ⇒ (v) ⇒ (i) ist klar.
Definition. Eine beliebige KollektionXi : Ω → Si, i ∈ I, von diskreten Zufallsvariablen heißt
unabhängig, falls die EreignisseXi = ai, i ∈ I, für alle ai ∈ Si unabhängig sind.
Der Random Walk auf Z
SeienX1, X2, . . . unabhängige identisch verteilte (»i.i.d.« – independent and identically distribu-
ted) Zufallsvariablen auf dem Wahrscheinlichkeitsraum(Ω,A, P ) mit
P [Xi = +1] = p, P [Xi = −1] = 1− p, p ∈ (0, 1).
Universität Bonn Wintersemester 2009/2010
66 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Die Existenz von unendlich vielen unabhängigen identisch verteilten Zufallsvariablen auf einem
geeigneten Wahrscheinlichkeitsraum (unendliches Produktmodell) wird in der Vorlesung »Ein-
führung in die Wahrscheinlichkeitstheorie« gezeigt. Seia ∈ Z ein fester Startwert. Wir betrachten
die durch
S0 = a,
Sn+1 = Sn +Xn+1,
definierte zufällige Bewegung (»Irrfahrt« oder »Random Walk«) aufZ. Als Position zur Zeitn
ergibt sich:
Sn = a+X1 +X2 + · · ·+Xn.
Irrfahrten werden unter anderem in primitiven Modellen fürdie Kapitalentwicklung beim Glücks-
spiel oder an der Börse (Aktienkurs), sowie die Brownsche Molekularbewegung (im Skalierungs-
limes Schrittweite→ 0) eingesetzt.
Beispiel(Symmetrischer Random Walk,p = 12).
z u f a l l = RandomChoice [−1 , 1 , 10000 ] ;
randomwalk = Fo ldL i s t [ Plus , 0 , z u f a l l ] ;
Man ipu la te [
L i s t L i n e P l o t [ randomwalk [ [ 1 ; ; nmax ] ] ] , nmax , 10 , 10000 ,10 ]
• nmax = 50:
10 20 30 40 50
-8
-6
-4
-2
2
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 67
• nmax = 500:
100 200 300 400 500
10
20
30
• nmax = 5000:
1000 2000 3000 4000 5000
20
40
60
80
100
Lemma 2.8(Verteilung vonSn). Für k ∈ Z gilt
P [Sn = a+ k] =
0 falls n+ k ungerade oder|k| > n,(
nn+k2
)p
n+k2 (1− p)
n−k2 sonst.
Beweis.Es gilt:
Sn = a+ k ⇔ X1 + · · ·+Xn = k ⇔
Xi = 1 genaun+k
2-mal,
Xi = −1 genaun−k2
-mal.
Beispiel(Rückkehrwahrscheinlichkeit zum Startpunkt). Mithilfe der Stirlingschen Formel
n! ∼√2πn
(ne
)nfür n→ ∞.
Universität Bonn Wintersemester 2009/2010
68 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
folgt:
P [S2n+1 = a] = 0,
P [S2n = a] =
(2n
n
)pn(1− p)n =
(2n)!
(n!)2pn (1− p)n
∼√4πn
2πn
(2ne)2n
(ne)2n
pn (1− p)n =1√πn
(4p (1− p))n für n→ ∞,
wobei zwei Folgenan undbn asymptotisch äquivalentheißen(an ∼ bn), falls limn→∞anbn
= 1
gilt.
• Fallsp 6= 12
gilt 4 p (1− p) < 1 undP [S2n = a] konvergiert exponentiell schnell gegen0.
• Fallsp = 12
konvergiertP [S2n = a] ∼ 1√πn
nur langsam gegen0.
Symmetrischer Random Walk
Ab jetzt betrachten wir densymmetrischenRandom Walk, d.h.p = 12.
Seiλ ∈ Z. Wir wollen die Verteilung der Zufallsvariable
Tλ(ω) := infn ∈ N | Sn(ω) = λ, (min ∅ := ∞),
bestimmen. Fürλ 6= a ist Tλ die ersteTrefferzeit von λ, für λ = a ist es die ersteRückkehrzeit
nach a. Beschreibt der Random Walk beispielsweise die Kapitalentwicklung in einem Glücks-
spiel, dann kann manT0 als Ruinzeitpunkt interpretieren.
Sein ∈ N. Wir wollen nun die Wahrscheinlichkeit
P [Tλ ≤ n] = P
[n⋃
i=1
Si = λ]
berechnen. Da das EreignisTλ ≤ n von mehreren Positionen des Random Walks abhängt
(S1, S2, . . . , Sn), benötigen wir diegemeinsameVerteilung dieser Zufallsvariablen. Sei also
S(ω) := (S0(ω), S1(ω), . . . , Sn(ω))
derBewegungsverlauf bis zur Zeitn . Dann istS eine Zufallsvariable mit Werten im Raum
Ω(n)a := (s0, s1, . . . , sn) | s0 = a, si ∈ Z, so dass:|si − si−1| = 1 für alle i ∈ 1, . . . , n
der möglichen Pfade des Random Walk. Seiµa die gemeinsame Verteilung vonS unterP .
Lemma 2.9. µa ist dieGleichverteilungauf dem PfadraumΩ(n)a .
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 69
Beweis.Es gilt
µa((s0, . . . , sn)) = P [S0 = s0, . . . , Sn = sn]
= P [S0 = s0, X1 = s1 − s0, . . . , Xn = sn − sn−1]
=
0 falls s0 6= a oder|si − si−1| 6= 1 für ein i ∈ 1, . . . , n,(d.h.(s0, . . . , sn) /∈ Ω
(n)a ),
2−n sonst, d.h. falls(s0, . . . , sn) ∈ Ω(n)a .
Satz 2.10(Reflektionsprinzip). Seienλ, b ∈ Z. Es gelte entweder(a < λ und b ≤ λ), oder
(a > λ undb ≥ λ). Dann gilt:
P [Tλ ≤ n, Sn = b] = P [Sn = b⋆],
wobeib⋆ := λ+ (λ− b) = 2λ− b dieSpiegelungvonb anλ ist.
Beweis.Es gilt:
P [Tλ ≤ n, Sn = b] = µa[
=:A︷ ︸︸ ︷(s0, . . . , sn) | sn = b, si = λ für ein i ∈ 1, . . . , n],
P [Sn = b⋆] = µa[(s0, . . . , sn) | sn = b⋆︸ ︷︷ ︸=:B
].
Die im Bild dargestellte Transformation (Reflektion des Pfades nach Treffen vonλ) definiert eine
Bijektion vonA nachB. Also gilt |A| = |B|. Daµa die Gleichverteilung aufΩ(n)a ist, folgt:
µa(A) =|A|∣∣∣Ω(n)a
∣∣∣=
|B|∣∣∣Ω(n)a
∣∣∣= µa(B).
Korollar (Verteilung der Trefferzeiten). Es gilt:
i)
P [Tλ ≤ n] =
P [Sn ≥ λ] + P [Sn > λ], falls λ > a,
P [Sn ≤ λ] + P [Sn < λ], falls λ < a.
Universität Bonn Wintersemester 2009/2010
70 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
2
4
−2
2 4 6 8 10 12 14
λ
Tλ
Abbildung 2.2: Spiegelung des Random Walks anλ = 3
ii)
P [Tλ = n] =
12P [Sn−1 = λ− 1]− 1
2P [Sn−1 = λ+ 1], falls λ > a,
12P [Sn−1 = λ+ 1]− 1
2P [Sn−1 = λ− 1], falls λ < a.
=
λ−an
(n
n+λ−a2
)2−n falls λ > a,
a−λn
(n
n+λ−a2
)2−n falls λ < a.
Beweis.Wir beweisen die Aussagen fürλ > a, der andere Fall wird jeweils analog gezeigt.
i)
P [Tλ ≤ n] =∑
b∈ZP [Tλ ≤ n, Sn = b]︸ ︷︷ ︸
=
P [Sn = b] falls b ≥ λ,
P [Sn = b⋆] falls b < λ.
=∑
b≥λ
P [Sn = b] +∑
b<λ
P [Sn = b⋆]
︸ ︷︷ ︸=
∑b>λ
P [Sn=b]
= P [Sn ≥ λ] + P [Sn > λ].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 71
ii)
P [Tλ = n] = P [Tλ ≤ n]− P [Tλ ≤ n− 1]
Mit i) folgt
=
=:I︷ ︸︸ ︷P [Sn ≥ λ︸ ︷︷ ︸
=:A
]− P [Sn−1 ≥ λ︸ ︷︷ ︸=:B
] +
=:II︷ ︸︸ ︷P [Sn ≥ λ+ 1]− P [Sn−1 ≥ λ+ 1]
Wegen
P [A]− P [B] = P [A\B] + P [A ∩ B]− P [B\A]− P [B ∩ A] = P [A\B]− P [B\A]
erhalten wir für den ersten Term:
I = P [Sn ≥ λ, Sn−1 < λ]− P [Sn−1 ≥ λ, Sn < λ]
= P [Sn−1 = λ− 1, Sn = λ]− P [Sn−1 = λ, Sn = λ− 1]
=1
2P [Sn−1 = λ− 1]− 1
2P [Sn−1 = λ].
Hierbei haben wir benutzt, dass
|(s0, . . . , sn) ∈ Ω(n)a | sn−1 = λ− 1|
= |(s0, . . . , sn) | sn−1 = λ− 1 undsn = λ|+|(s0, . . . , sn) | sn−1 = λ− 1 undsn = λ− 2|
= 2 · |(s0, . . . , sn)|sn−1 = λ− 1, sn = λ
gilt. Mit einer analogen Berechnung für den zweiten Term erhalten wir insgesamt:
P [Tλ = n] = I + II
=1
2(P [Sn−1 = λ− 1]− P [Sn−1 = λ]
+P [Sn−1 = (λ+ 1)− 1]− P [Sn−1 = λ+ 1])
=1
2(P [Sn−1 = λ− 1]− P [Sn−1 = λ+ 1]).
SeiMn := max(S0, S1, . . . , Sn).
Korollar (Verteilung des Maximums). Für λ > a gilt:
P [Mn ≥ λ] = P [Tλ ≤ n] = P [Sn ≥ λ] + P [Sn > λ].
Universität Bonn Wintersemester 2009/2010
72 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
2.5 Simulationsverfahren
Die Simulation von Stichproben verschiedener Wahrscheinlichkeitsverteilungen geht von auf
[0, 1] gleichverteilten Pseudo-Zufallszahlen aus. In Wirklichkeit simuliert ein Zufallszahlengene-
rator natürlich nur aufkm−1 | k = 0, 1, . . . ,m− 1 gleichverteilte Zufallszahlen, wobeim−1
die Darstellungsgenauigkeit des Computers ist. Dieser Aspekt wird im folgenden ignoriert. Um
Simulationsverfahren zu analysieren, benötigen wir noch den Begriff einer auf[0, 1] gleichverteil-
ten reellwertigen Zufallsvariablen. Die Existenz solcherZufallsvariablen auf einem geeigneten
Wahrscheinlichkeitsraum wird hier vorausgesetzt, und kann erst in der Vorlesung »Analysis III«
bzw. in der »Einführung in die Wahrscheinlichkeitstheorie« gezeigt werden.
Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum, undU : Ω → [0, 1] eine Abbildung.
Definition. i) U ist einereellwertige Zufallsvariable, falls gilt:
ω ∈ Ω | U(ω) ≤ y ∈ A für alle y ∈ R.
ii) Eine reellwertige ZufallsvariableU : Ω → [0, 1] ist gleichverteilt auf[0, 1], falls
P [U ≤ y] = y für alle y ∈ [0, 1].
Wir notieren dies im folgenden als(U ∼ Unif[0, 1]).
iii) Reellwertige ZufallsvariablenUi : Ω → R, i ∈ I, heißenunabhängig, falls die Ereignisse
Ui ≤ yi, i ∈ I, für alle yi ∈ R unabhängig sind.
Ein Zufallszahlengeneratorsimuliert Stichprobenu1 = U1(ω), u2 = U2(ω), . . . von auf[0, 1]
gleichverteilten unabhängigen Zufallsvariablen. Wie erzeugt man daraus Stichproben von diskre-
ten Verteilungen?
Das direkte Verfahren
SeiS = a1, a2, . . . endlich oder abzählbar unendlich, undµ eine Wahrscheinlichkeitsverteilung
aufS mit Gewichtenpi = p(ai). Wir setzen
sn :=n∑
i=1
pi, n ∈ N, »kumulative Verteilungsfunktion«.
SeiU : Ω → [0, 1) eine gleichverteilte Zufallsvariable. Wir setzen
X(ω) := ai, falls si−1 < U(ω) ≤ si, i ∈ N.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.5. SIMULATIONSVERFAHREN 73
Lemma 2.11.FallsU ∼ Unif[0, 1), gilt X ∼ µ.
Beweis.Für allei ∈ N gilt:
P [X = ai] = P [si−1 < U ≤ si] = P [U ≤ si]− P [U ≤ si−1] = si − si−1 = pi.
Algorithmus 2.12 (Direkte Simulation einer diskreten Verteilung).INPUT: Gewichtep1, p2, . . . ,
OUTPUT: Pseudozufallsstichprobex vonµ.
n := 1
s := p1
erzeuge Zufallszahlu ∼ Unif[0, 1)
while u > s do
n := n+ 1
s := s+ pn
end while
return x := an
Bemerkung. a) Die mittlere Anzahl von Schritten des Algorithmus ist∞∑
n=1
n pn = Erwartungswert von Wahrscheinlichkeitsverteilung(pn) aufN.
b) Für große ZustandsräumeS ist das direkte Verfahren oft nicht praktikabel, siehe Übung.
Acceptance-Rejection-Verfahren
Sei S eine endliche oder abzählbare Menge,µ eine Wahrscheinlichkeitsverteilung aufS mit
Massenfunktionp(x), undν eine Wahrscheinlichkeitsverteilung aufS mit Massenfunktionq(x).
Angenommen, wir können unabhängige Stichproben vonν erzeugen. Wie können wir daraus
Stichproben vonµ erhalten? IDEE: Erzeuge Stichprobex von ν, akzeptiere diese mit Wahr-
scheinlichkeit proportional zup(x)q(x)
, sonst verwerfe die Stichprobe und wiederhole.
ANNAHME :
es gibt einc ∈ [1,∞) : p(x) ≤ c q(x) für allex ∈ S.
Aus der Annahme folgt:p(x)
c q(x)≤ 1 für allex ∈ S,
d.h. wir könnenp(x)c q(x)
alsAkzeptanzwahrscheinlichkeitwählen.
Universität Bonn Wintersemester 2009/2010
74 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT
Algorithmus 2.13 (Acceptance-Rejection-Verfahren).INPUT: Gewichtep(y), q(y), c (y ∈ S),
OUTPUT: Stichprobex vonµ.
repeat
erzeuge Stichprobex ∼ ν
erzeuge Stichprobeu ∼ Unif[0, 1]
until p(x)c q(x)
≥ u akzeptiere mit Wahrscheinlichkeitp(x)c q(x)
return x
ANALYSE DES ALGORITHMUS
Für die verwendeten Zufallsvariablen gilt:
X1, X2, . . . ∼ ν, (Vorschläge),
U1, U2, . . . ∼ Unif[0, 1].
Es gilt Unabhängigkeit, d.h.
P [X1 = a1, . . . , Xn = an, U1 ≤ y1, . . . , Un ≤ qn] =n∏
i=1
P [Xi = ai] ·n∏
i=1
P [Ui ≤ yi]
für allen ∈ N, ai ∈ S undyi ∈ R.
Seien
T = minn ∈ N
∣∣ p(Xn)c q(Xn)
≥ Un
die »Akzeptanzzeit«, und
XT (ω) = XT (ω)(ω) die ausgegebene Stichprobe.
des Acceptance-Rejection-Verfahrens. Wir erhalten:
Satz 2.14. i) T ist geometrisch verteiltmit Parameter1/c,
ii) XT ∼ µ.
Bemerkung. Insbesondere ist die mittlere Anzahl von Schritten bis Akzeptanz:
E[T ] = c.
Beweis. i) Sei
An :=
p(Xn)
c q(Xn)≥ Un
.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
2.5. SIMULATIONSVERFAHREN 75
Aus der Unabhängigkeit der ZufallsvariablenX1, U1, X2, U2, . . . folgt, dass auch die Er-
eignisseA1, A2, . . . unabhängig sind. Dies wird in der Vorlesung »Einführung in die Wahr-
scheinlichkeitstheorie« bewiesen. Zudem gilt wegen der Unabhängigkeit vonXn undUn:
P [An] =∑
a∈SP
[Un ≤ p(a)
c q(a)
∩ Xn = a
]
=∑
a∈SP
[Un ≤ p(a)
c q(a)
]· P [Xn = a]
=∑
a∈S
p(a)
c q(a)· q(a) = 1
c.
Also ist
T (ω) = minn ∈ N | ω ∈ An
geometrisch verteilt mit Parameter1/c.
ii)
P [XT = a] =∞∑
n=1
P [XT = a ∩ T = n]
=∞∑
n=1
P [Xn = a ∩ An ∩ AC1 ∩ . . . AC
n−1]
=∞∑
n=1
P [Xn = a ∩p(a)
c q(a)≥ Un
∩ AC
1 ∩ . . . ACn−1]
=∞∑
n=1
q(a)p(a)
c q(a)
(1− 1
c
)n−1
=p(a)
c
∞∑
n=1
(1− 1
c
)n−1
=p(a)
c
1
1− (1− 1c)= p(a).
Universität Bonn Wintersemester 2009/2010
Kapitel 3
Konvergenzsätze und Monte Carlo
Verfahren
Seiµ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren MengeS, undf : S → R eine
reellwertige Zufallsvariable. Angenommen, wir wollen denErwartungswert
θ := Eµ[f ] =∑
x∈Sf(x)µ(x)
berechnen, aber die MengeS ist zu groß, um die Summe direkt auszuführen. In einemMonte
Carlo-Verfahren simuliert man eine große Anzahl unabhängiger StichprobenX1(ω), . . . , Xn(ω)
vonµ, und approximiert den Erwartungswertθ durch denMonte Carlo-Schätzer
θn(ω) :=1
n
n∑
i=1
f(Xi(ω)).
Wir wollen nun Methoden entwickeln, mit denen der Approximationsfehler|θn − θ| abgeschätzt
werden kann, und die Asymptotik des Approximationsfehlersfür n → ∞ untersuchen. Nach
dem Transformationssatz (1.7) und der Linearität des Erwartungswerts (1.8) gilt:
E[θn] =1
n
n∑
i=1
E[f(Xi)] =1
n
n∑
i=1
∑
x∈Sf(x)µ(x) = Eµ[f ] = θ,
d.h.θn ist einerwartungstreuer Schätzer fürθ. Der mittlere quadratische Fehler (»MSE« – mean
squared error) des Schätzers ist daher:
MSE= E[|θn − θ|2] = E[|θn − E[θn]|2].
76
3.1. VARIANZ UND KOVARIANZ 77
3.1 Varianz und Kovarianz
Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum undX : Ω → S eine Zufallsvariable auf(Ω,A, P ),so dassE[|X|] endlich ist.
Definition.
Var(X) := E[(X − E[X])2
]
heißtVarianzvonX und liegt in[0,∞].
σ(X) :=√Var(X)
heißtStandardabweichungvonX.
Die Varianz bzw. Standardabweichung kann als Kennzahl für die Größe der Fluktuationen (Streu-
ung) der ZufallsvariablenX um den ErwartungswertE[X] und damit als Maß für das Risiko bei
Prognose des AusgangsX(ω) durchE[X] interpretiert werden.
Bemerkung. (a) Die Varianz hängt nur von der Verteilung vonX ab:
Var(X) =∑
a∈S(a−m)2 pX(a), wobei m = E[X] =
∑
a∈Sa pX(a).
(b) Es gilt
Var(X) = 0 genau dann, wenn P [X = E[X]] = 1.
Bemerkung (Rechenregeln). i)
Var(X) = E[X2]− E[X]2.
Insbesondere ist die Varianz von X genau dann endlich, wennE[X2] endlich ist.
ii)
Var(aX + b) = Var(aX) = a2Var(X) für allea, b ∈ R.
Beweis. i) Nach der Linearität des Erwartungswerts gilt
Var(X) = E[X2 − 2X · E[X] + E[X]2
]= E
[X2]− E[X]2.
ii) Wiederholte Anwendung der Linearität des Erwartungswerts liefert
Var(aX + b) = E[(aX + b− E[aX + b])2
]= E
[(aX − E[aX])2
]= a2 Var(X).
Universität Bonn Wintersemester 2009/2010
78 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Beispiele. a) SeiX = 1 mit Wahrscheinlichkeitp undX = 0 mit Wahrscheinlichkeit1− p.
Dann ist der Erwartungswert vonX:
E[X2]= E[X] = p,
und die Varianz vonX:
Var(X) = p− p2 = p (1− p).
b) SeiT geometrisch verteilt (T ∼ Geom(p)) mit Parameterp ∈ (0, 1]. Der Erwartungswert
vonT beträgt:
E[T ] =∞∑
k=1
k (1− p)k−1 p = −p p
dp
∞∑
k=0
(1− p)k = −p p
dp
1
p=
1
p.
Außerdem gilt:
E[T (T + 1)] =∞∑
k=1
k (k + 1) (1− p)k−1 p
=∞∑
k=1
k (k − 1) (1− p)k−2 p = pd2
dp2
∞∑
k=0
(1− p)k =2
p2.
Die Varianz vonT ist somit:
Var(T ) = E[T 2]− E[T ]2 =
2
p2− 1
p− 1
p2=
1− p
p2.
Definition.
L2(Ω,A, P ) := X : Ω → R | X ist diskrete Zufallsvariable mitE[X2]<∞
Lemma 3.1. i) Für ZufallsvariablenX, Y ∈ L2 gilt:
E[|XY |] ≤√E [X2]
√E [Y 2] <∞.
ii) L2 ist ein Vektorraum, und
(X, Y )L2 := E[X Y ]
ist einepositiv semidefinite symmetrische Bilinearform(»Skalarprodukt«) aufL2.
Bemerkung. i) Insbesondere gilt dieCauchy-Schwarz-Ungleichung:
E[X Y ]2 ≤ E[|X Y |] ≤ E[X2]E[Y 2]
für alleX, Y ∈ L2.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.1. VARIANZ UND KOVARIANZ 79
ii) Für eine ZufallsvariableX ∈ L2 gilt
E[|X|] ≤√E [X2]
√E [12] <∞.
Beweis. i) Nach der Cauchy-Schwarz-Ungleichung gilt:
E[|X Y |] =∑
a∈X(Ω)
b∈Y (Ω)
|a b|P [X = a, Y = b]
=∑
a∈X(Ω)
b∈Y (Ω)
|a|√P [X = a, Y = b] |b|
√P [X = a, Y = b]
≤√∑
a,b
a2 P [X = a, Y = b]
√∑
a,b
b2 P [X = a, Y = b]
=
√∑
a
a2 P [X = a]
√∑
b
b2 P [Y = b]
=√E [X2]
√E [Y 2].
ii) SeienX, Y ∈ L2, a ∈ R. Dann istaX + Y eine diskrete Zufallsvariable, für die nach
Monotonie und der Linearität des Erwartungswerts gilt:
E[(aX + Y )2
]= E
[a2X2 + 2aX Y + Y 2
]≤ 2a2E
[X2]+ 2E
[Y 2]<∞.
(X, Y )L2 = E[X Y ] ist bilinear, daE[ • ] linear und symmetrisch ist, und positiv semide-
finit, aufgrund von:
(X,X)L2 = E[X2]≥ 0 für alleX ∈ L2.
Definition. SeienX, Y ∈ L2.
i)
Cov(X, Y ) := E[(X − E[X]) (Y − E[Y ])] = E[X Y ]− E[X]E[Y ]
heißtKovarianzvonX undY .
ii) Gilt σ(X), σ(Y ) 6= 0, so heißt
(X, Y ) :=Cov(X, Y )
σ(X) σ(Y )
KorrelationskoeffizientvonX undY .
Universität Bonn Wintersemester 2009/2010
80 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
iii) X undY heißenunkorreliert, fallsCov(X, Y ) = 0, d.h.
E[X Y ] = E[X] · E[Y ].
Bemerkung. Cov : L2 × L2 → R ist eine symmetrische Bilinearform mit:
Cov(X,X) = Var(X) ≥ 0 für alleX ∈ L2.
Satz 3.2(Zusammenhang von Unabhängigkeit und Unkorreliertheit). SeienX : Ω → S und
Y : Ω → T diskrete Zufallsvariablen auf(Ω,A, P ). Dann sind äquivalent:
(i) X undY sind unabhängig, d.h.
P [X ∈ A, Y ∈ B] = P [X ∈ A]P [Y ∈ B] für alleA,B ∈ A.
(ii) f(X) und g(Y ) sind unkorreliert für alle Funktionenf : S → R und g : T → R mit
f(X), g(Y ) ∈ L2.
Beweis. • (i)⇒ (ii): SeienX undY unabhängig, dann gilt:
E[f(X)g(Y )] =∑
a∈S
∑
b∈Tf(a) g(b)P [X = a, Y = b]
=∑
a∈Sf(a)P [X = a]
∑
b∈Tg(b)P [Y = b] = E[f(X)]E[g(Y )]
Somit folgt:
Cov(f(X), g(Y )) = 0.
• (ii)⇒ (i): Aus (ii) folgt für alle a ∈ S, b ∈ T :
P [X = a, Y = b] = E[Ia(X) Ib(Y )]
= E[Ia(X)]E[Ib(Y )] = P [X = a]P [Y = b].
Beispiel. SeiX = +1, 0,−1 jeweils mit Wahrscheinlichkeit13, undY = X2. Dann sindX und
Y nicht unabhängig, aber unkorreliert:
E[X Y ] = 0 = E[X]E[Y ].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.2. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN 81
Satz 3.3(Varianz von Summen). Für X1, . . . , Xn ∈ L2 gilt:
Var(X1 + · · ·+Xn) =n∑
i=1
Var(Xi) + 2n∑
i,j=1
i<j
Cov(Xi, Xj).
FallsX1, . . . , Xn unkorreliert sind, folgt insbesondere:
Var(X1 + · · ·+Xn) =n∑
i=1
Var(Xi).
Beweis.Nach Bilinearität der Kovarianz gilt:
Var(X1 + · · ·+Xn) = Cov(n∑
i=1
Xi,
n∑
j=1
Xj)
=n∑
i,j=1
Cov(Xi, Xj) =n∑
i=1
Var(Xi) + 2n∑
i,j=1
i<j
Cov(Xi, Xj).
Beispiel(Varianz der Binomialverteilung). Sei
Sn =n∑
i=1
Xi, Xi =
1 mit Wahrscheinlichkeitp,
0 mit Wahrscheinlichkeit1− p,
mit unabhängigen ZufallsvariablenXi. Mit Satz 3.2 folgt:
Var(Sn) =n∑
i=1
Var(Xi) = n p (1− p).
Analog gilt für den Random Walk:
σ(Sn) = O(√n).
3.2 Das schwache Gesetz der großen Zahlen
SeienX1, X2, . . . : Ω → R Zufallsvariablen, die auf einem gemeinsamen Wahrscheinlichkeits-
raum (Ω,A, P ) definiert sind (z.B. wiederholte Ausführungen desselben Zufallsexperiments),
und sei
Sn(ω) = X1(ω) + · · ·+Xn(ω).
Universität Bonn Wintersemester 2009/2010
82 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Wir betrachten die empirischen Mittelwerte
Sn(ω)
n=
X1(ω) + . . .+Xn(ω)
n,
d.h. die arithmetischen Mittel der erstenn BeobachtungswerteX1(ω), . . . , Xn(ω). Gesetze der
großen Zahlen besagen, dass sich unter geeigneten Voraussetzungen die zufälligen „Fluktuatio-
nen“ derXi für großen wegmitteln, d.h. in einem noch zu präzisierenden Sinn gilt
Sn(ω)
n≈ E
[Sn
n
]für großen,
bzw.Sn
n− E[Sn]
n
n→∞−→ 0.
Ist insbesondereE[Xi] = m für alle i, dann sollten die empirischen MittelwerteSn/n gegenm
konvergieren. Das folgende einfache Beispiel zeigt, dass wir ohne weitere Voraussetzungen an
die ZufallsvariablenXi kein Gesetz der großen Zahlen erwarten können.
Beispiel. Sind die ZufallsvariablenXi alle gleich, d.h.X1 = X2 = . . ., so giltSn
n= X1 für alle
n. Es gibt also kein Wegmitteln des Zufalls, somit kein Gesetzgroßer Zahlen.
Andererseits erwartet man ein Wegmitteln des Zufalls beiunabhängigenWiederholungen des-
selben Zufallsexperiments.
Wir werden nun zeigen, dass sogar Unkorreliertheit und beschränkte Varianzen der Zufallsva-
riablenXi genügen, um ein Gesetz der großen Zahlen zu erhalten. Dazu nehmen wir an, dass
X1, X2, . . . diskrete Zufallsvariablen ausL2(Ω,A, P ) sind, die folgende Voraussetzungen erfül-
len:
ANNAHMEN :
(i) Die Zufallsvariablen sind unkorreliert:
Cov(Xi, Xj) = 0 für alle i 6= j.
(ii) Die Varianzen sind beschränkt:
v := supi∈N
Var(Xi) < ∞.
Es wirdkeine Unabhängigkeit vorausgesetzt!
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN 83
Satz 3.4(Schwaches Gesetz der großen Zahlen). Unter den Voraussetzungen (i) und (ii) gilt für
alle ε > 0:
P
[∣∣∣∣Sn
n− E[Sn]
n
∣∣∣∣ ≥ ε
]≤ v
ε2 n−→0 für n→ ∞.
Gilt außerdemE[Xi] = m für alle i ∈ N, folgt E[Sn]n
= m und Sn
nkonvergiert stochastischgegen
m.
Zum Beweis benötigen wir:
Lemma 3.5(Cebyšev-Ungleichung). Für X ∈ L2 undc > 0 gilt:
P [|X − E[X]| ≥ c] ≤ 1
c2Var(X).
Beweis.Es gilt
I|X−E[X]|≥c ≤1
c2(X − E[X])2
1c2(X − E[X])2 ist überall nichtnegativ und≥ 1 auf |X − E[X]| ≥ c. Durch Bilden des
Erwartungswerts folgt:
P [|X − E[X]| ≥ c] = E[I|X−E[X]|≥c
]≤ E[
1
c2(X − E[X])2] =
1
c2E[(X − E[X])2
]
Beweis von Satz 3.4.Nach derCebyšev-Ungleichung und den Annahmen (i) und (ii) gilt fürε >
0:
P
[∣∣∣∣Sn
n− E[Sn]
n
∣∣∣∣ ≥ ε
]≤ 1
ε2Var
(Sn
n
)=
1
n2 ε2Var(
n∑
i=1
Xi) =1
n2 ε2
n∑
i=1
Var(Xi) ≤v
n ε2.
Bemerkung (Starkes Gesetz der großen Zahlen).
Sn(ω)
n−→ m mit Wahrscheinlichkeit1.
Dies wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« bewiesen.
3.3 Monte Carlo-Verfahren
SeiS eine abzählbare Menge undµ eine Wahrscheinlichkeitsverteilung aufS. Wir bezeichnen
im folgenden die Massenfunktion ebenfalls mitµ, d.h.
µ(x) := µ(x).
Universität Bonn Wintersemester 2009/2010
84 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Seif : S → R eine reellwertige Funktion mit:
Eµ[f2] =
∑
x∈Sf(x)2 µ(x) <∞.
Wir wollen den Erwartungswert
θ := Eµ[f ] =∑
x∈Sf(x)µ(x)
näherungsweise berechnen bzw. schätzen. Dazu approximieren wir θ durch dieMonte Carlo-
Schätzer
θn :=1
n
n∑
i=1
f(Xi), n ∈ N,
wobeiX1, X2, . . . unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum(Ω,A, P )mit Verteilungµ sind. Nach der Abschätzung aus dem Gesetz der großen Zahlen ergibt sich:
Korollar.
P [|θn − θ| ≥ ε] ≤ 1
n ε2Varµ[f ] −→ 0 für n→ ∞,
d.h. θn ist einekonsistente Schätzfolgefür θ.
Beweis.Da die ZufallsvariablenXi unabhängig sind, sindf(Xi), i ∈ N, unkorreliert. Zudem gilt
E[f(Xi)] =∑
x∈Sf(x)µ(x) = Eµ[f ] = θ, und
Var[f(Xi)] =∑
x∈S(f(x)− θ)2 µ(x) = Varµ[f ] <∞
nach Voraussetzung. Die Behauptung folgt nun aus Satz 3.4.
Bemerkung. a) θn ist einerwartungstreuer Schätzerfür θ:
E[θn] =1
n
n∑
i=1
E[f(Xi)] = Eµ[f ] = θ.
b) Für den mittleren quadratischen Fehler des Schätzers ergibt sich nach a):
E[|θn − θ|2
]= Var(θn) =
1
nVarµ[f ].
Insbesondere gilt:
‖θn − θ‖L2 =
√E[|θn − θ|2] = O(1/
√n).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN 85
Beispiele. a) MONTE CARLO-SCHÄTZUNG VON θ =∫[0,1]d
f(x) dx:
Das mehrdimensionale Integral ist folgendermaßen definiert:
∫
[0,1]df(x) dx :=
∫ 1
0
. . .
∫ 1
0
f(x1, . . . , xd) dx1 . . . dxd.
Der Wert vonθ kann mit dem folgenden Algorithmus geschätzt werden.
erzeuge Pseudozufallszahlenu1, u2, . . . , und ∈ (0, 1)
x(1) := (u1, . . . , ud)
x(2) := (ud+1, . . . , u2d)
. . .
x(n) := (u(n−1)d+1, . . . , und)
θn = 1n
∑ni=1 f(x
(i)) ist Schätzwert fürθ.
b) MONTE CARLO-SCHÄTZUNG VON WAHRSCHEINLICHKEITEN:
SeiS abzählbar,B ⊆ S. Wir suchen:
p = µ(B) = Eµ[IB]
Ein Monte Carlo-Schätzer ist
pn =1
n
n∑
i=1
IB(Xi), Xi unabhängig mit Verteilungµ.
FEHLERKONTROLLE:
• Mithilfe der Cebyšev-Ungleichung (Lemma 3.5) ergibt sich:
P [|pn − p| ≥ ε] ≤ 1
ε2Var(pn) =
1
nε2Varµ(IB) =
p (1− p)
nε2≤ 1
4nε2.
Gilt beispielsweisen ≥ 5ε2
, dann erhalten wir:
P [p /∈ (pn − ε, pn + ε)] ≤ 5%, unabhängig vonp,
d.h. das zufällige Intervall(pn − ε, pn + ε) ist ein95%-Konfidenzintervall für den
gesuchten Wertp.
• Mithilfe der Bernstein-Ungleichung (Chernoff-Abschätzung) erhalten wir fürδ > 0
undSn :=∑n
i=1 IB(Xi):
P [p /∈ (pn−ε, pn+ε)] = P[∣∣ 1nSn−p
∣∣ ≥ ε]≤ 2e−2nε2 ≤ δ, falls n ≥ log(2/δ)
2ε2.
Universität Bonn Wintersemester 2009/2010
86 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Für kleineδ ist die erhaltene Bedingung ann wesentlich schwächer als eine entspre-
chende Bedingung, die man durch Anwenden derCebyšev-Ungleichung erhält. Für
denrelativen Schätzfehler(pn − p)/p ergibt sich:
P [|pn − p| ≥ εp] ≤ 2e−2nε2p2 ≤ δ, falls n ≥ log(2/δ)
2ε2p2.
Die benötigte Anzahl von Stichproben für eine(ε, δ)-Approximation vonp ist al-
so polynomiell inε, log(1/δ) und 1/p. Mit einer etwas modifizierten Abschätzung
kann man statt der OrdnungO( 1p2) sogarO(1
p) erhalten, sieheMitzenmacher und
Upfal: »Probability and Computing«.
Beispiel. Wie viele Stichproben sind nötig, damit derrelative Fehler mit 95% Wahrscheinlich-
keit unterhalb von10% liegt? Mithilfe derCebyšev-Ungleichung (Lemma 3.5) ergibt sich:
P [|pn − p| ≥ 0, 1 p] ≤ p (1− p)
n (0, 1 p)2=
100 (1− p)
n p≤ 0, 05, falls n ≥ 2000 (1− p)
p.
So sind zum Beispiel fürp = 10−5 ungefährn ≈ 2 108 Stichproben ausreichend. Dies ist nur ei-
ne obere Schranke, aber man kann zeigen, dass die tatsächlich benötigte Stichprobenzahl immer
noch sehr groß ist. Für solch kleine Wahrscheinlichkeiten ist das einfache Monte Carlo-Verfahren
ineffektiv, da die meisten Summanden vonθn dann gleich0 sind. Wir brauchen daher ein alter-
natives Schätzverfahren mit geringerer Varianz.
Varianzreduktion durch Importance Sampling
Seiν eine weitere Wahrscheinlichkeitsverteilung aufS mit Massenfunktionν(x) = ν(x). Es
gelteν(x) > 0 für allex ∈ S. Dann können wir den gesuchten Wertθ auch als Erwartungswert
bzgl.ν ausdrücken:
θ = Eµ[f ] =∑
x∈Sf(x)µ(x) =
∑
x∈Sf(x)
µ(x)
ν(x)ν(x) = Eν [f ],
wobei
(x) =µ(x)
ν(x)
der Quotient der beiden Massenfunktionen ist. Ein alternativer Monte Carlo-Schätzer fürθ ist
daher
θn =1
n
n∑
i=1
f(Yi) (Yi),
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.3. MONTE CARLO-VERFAHREN 87
v we2
e1
e3
Abbildung 3.1: kleiner Beispielgraph für Perkolation
wobei dieYi unabhängige Zufallsvariablen mit Verteilungν sind. Auchθn ist erwartungstreu:
Eν [θn] = Eν [f ] = θ.
Für die Varianz erhalten wir:
Varν(θn) =1
nVarν(f ) =
1
n
(∑
x∈Sf(x)2(x)2ν(x)− θ2
).
Bei geeigneter Wahl vonν kann die Varianz vonθn deutlich kleiner sein als die des Schätzersθn.
Faustregel für eine gute Wahl vonν : ν(x) sollte groß sein, wenn|f(x)| groß ist.
»Importance Sampling«: Mehr Gewicht für die wichtigenx!
Beispiel(Zuverlässigkeit von Netzwerken; Perkolation). Gegeben sei ein endlicher Graph(V,E),
wobeiV die Menge der Knoten undE die Menge der Kanten bezeichnet. Wir nehmen an, dass
die Kanten unabhängig voneinander mit Wahrscheinlichkeitε ≪ 1 ausfallen. Seienv, w ∈ E
vorgegebene Knoten. Wir wollen die Wahrscheinlichkeit
p = P [»v nicht verbunden mitw durch intakte Kanten«]
approximativ berechnen. Sei
S = 0, 1E = (xe)e∈E | xe ∈ 0, 1
die Menge der Konfigurationen von intakten(xl = 0) bzw. defekten(xl = 1) Kanten undµ die
Wahrscheinlichkeitsverteilung aufS mit Massenfunktion
µ(x) = εk(x)(1− ε)|E|−k(x), k(x) =∑
e∈Exe.
Universität Bonn Wintersemester 2009/2010
88 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Sei
A = x ∈ S | v, w nicht verbunden durch Kantene mit xe = 0.Dann ist
p = µ(A) = Eµ[IA].
Der »klassische Monte Carlo-Schätzer« fürp ist
pn =1
n
n∑
i=1
IA(Xi), Xi unabhängig mit Verteilungµ.
Fordern wir nun zum Beispiel
σ(pn) =
√p(1− p)
n
!
≤ p
10,
dann benötigen wir eine Stichprobenanzahl
n ≥ 100 (1− p)
p,
um diese Bedingung zu erfüllen. Die Größenordnung vonp für das in der obigen Graphik darge-
stellte Netzwerk mitε = 1% lässt sich wie folgt abschätzen:
10−6 = µ(»e1, e2, e3 versagen«) ≤ p ≤ µ(»mindestens 3 Kanten versagen«)
=
(22
3
)· 10−6 ≈ 1, 5 · 10−3.
Es sind also eventuell mehrere Millionen Stichproben nötig!
Um die benötigte Stichprobenanzahl zu reduzieren, wenden wir ein Importance Sampling-Verfahren
an. Sei
ν(x) = t−k(x) (1− t)|E|−k(x), k(x) =∑
e∈Exe,
die Verteilung bei Ausfallwahrscheinlichkeitt := 322
. Da unterν im Schnitt 3 Kanten defekt sind,
ist der Ausfall der Verbindung bzgl.ν nicht mehr selten. Für den Schätzer
pn =1
n
n∑
i=1
IA(Yi)µ(Yi)
ν(Yi), Yi unabhängig mit Verteilungν,
erhalten wir im Beispiel von oben:
Var(pn) =1
n
(∑
x∈SIA(x)
2µ(x)2
ν(x)− p2
)
≤ 1
n
22∑
k=3
(|E|k
) (ε2
t
)k ((1− ε)2
1− t
)|E|−k
≤ 0, 0053p
n.
Diese Abschätzung ist etwa um den Faktor 200 besser als die für den einfachen Monte Carlo-
Schätzer erhaltene Abschätzung der Varianz.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 89
3.4 Gleichgewichte von Markov-Ketten
SeiS eine abzählbare Menge,ν eine Wahrscheinlichkeitsverteilung aufS, undp(x, y), (x, y ∈S), einestochastische Matrixbzw.Übergangsmatrix, d.h.p(x, y) erfüllt die folgenden Bedin-
gungen:
(i) p(x, y) ≥ 0 für allex, y ∈ S,
(ii)∑
y∈S p(x, y) = 1 für allex ∈ S.
Hier und im folgenden bezeichnen wir diskrete Wahrscheinlichkeitsverteilungen und die entspre-
chenden Massenfunktionen mit demselben Buchstaben, d.h.ν(x) := ν(x).
Definition. Eine FolgeX0, X1, . . . : Ω → S von Zufallsvariablen auf einem Wahrscheinlichkeits-
raum(Ω,A, P ) heißtzeitlich homogene Markov-Kettemit Startverteilungν und Übergangsma-
trix p, falls die folgenden Bedingungen erfüllt sind:
(i) Für alle x0 ∈ S gilt:
P [X0 = x0] = ν(x0)
(ii) Für alle n ∈ N undx0, . . . , xn+1 ∈ S mit P [X0 = x0, . . . , Xn = xn] 6= 0 gilt:
P [Xn+1 = xn+1 | X0 = x0, . . . , Xn = xn] = p(xn, xn+1).
Bemerkung. Die Bedingungen (i) und (ii) sind äquivalent zu:
P [X0 = x0, . . . , Xn = xn] = ν(x0) p(x0, x1) · · · p(xn−1, xn) für allen ∈ N, xi ∈ S.
Gleichgewichte und Stationarität
Für eine Wahrscheinlichkeitsverteilungµ mit Massenfunktionµ(x) = µ(x) und eine stochas-
tische Matrixp aufS setzen wir
(µ p)(y) :=∑
x∈Sµ(x) p(x, y), (y ∈ S),
d.h.µ p ist der Zeilenvektor, den wir erhalten, wenn wir den Zeilenvektor(µ(x))x∈S von links an
die Matrixp multiplizieren.
Lemma 3.6. i) Die Verteilung zur Zeitn einer Markov-Kette mit Startverteilungν und Über-
gangsmatrixp ist ν pn.
Universität Bonn Wintersemester 2009/2010
90 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
ii) Gilt ν p = ν, dann folgtXn ∼ ν für alle n ∈ N. (»Stationarität«)
Beweis. i) Wie im Beweis von Satz 2.4 erhalten wir
P [Xn = y | X0 = x] = pn(x, y)
für allen ∈ N undx, y ∈ S mit P [X0 = x] 6= 0, und damit:
P [Xn = y] =∑
x∈SP [X0=x]6=0
P [Xn = y | X0 = x]P [X0 = x]
=∑
x∈Sν(x) 6=0
pn(x, y) ν(x) = (ν pn)(y).
ii) Aus ν p = ν folgt ν pn = ν für allen ∈ N.
Definition. i) Eine Wahrscheinlichkeitsverteilungµ auf S heißt Gleichgewichtsverteilung
(oderstationäre Verteilung) der Übergangsmatrixp, fallsµ p = µ, d.h. falls:
∑
x∈Sµ(x) p(x, y) = µ(y) für alle y ∈ S.
ii) µ erfüllt dieDetailed Balance-Bedingungbzgl. der Übergangsmatrixp, falls gilt:
µ(x) p(x, y) = µ(y) p(y, x) für alle x, y ∈ S (3.4.1)
Satz 3.7.Erfüllt µ die Detailed Balance-Bedingung(3.4.1), dann istµ eine Gleichgewichtsver-
teilung vonp.
Beweis.Aus der Detailed Balance-Bedingung folgt:
∑
x∈Sµ(x) p(x, y) =
∑
x∈Sµ(y) p(y, x) = µ(y).
Bemerkung. Bei Startverteilungµ gilt:
µ(x) p(x, y) = P [X0 = x,X1 = y], »Fluss vonx nachy«.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 91
DETAILED BALANCE: µ(x) p(x, y) = µ(y) p(y, x)
»Fluss vonx nachy« = »Fluss vony nachx«
GLEICHGEWICHT:∑
x∈S µ(x) p(x, y) =∑
x∈S µ(y) p(y, x)
»Gesamter Fluss nachy« »Gesamter Fluss vony«.
Beispiele. a) MARKOV-KETTE AUF S = 0, 1:
Seienα, β ∈ [0, 1] und
p =
(1− α α
β 1− β
).
Dann ist die Gleichgewichtsbedingungµ p = µ äquivalent zu den folgenden Gleichungen:
µ(0) = µ(0) (1− α) + µ(1) β,
µ(1) = µ(0)α + µ(1) (1− β).
Daµ eine Wahrscheinlichkeitsverteilung ist, sind beide Gleichungen äquivalent zu
β (1− µ(0)) = αµ(0).
Die letzte Gleichung ist äquivalent zur Detailed Balance-Bedingung (3.4.1). Fallsα+β > 0
gilt, ist µ =(
βα+β
, αα+β
)die eindeutige Gleichgewichtsverteilung und erfüllt die Detailed
Balance-Bedingung. Fallsα = β = 0 gilt, ist jede Wahrscheinlichkeitsverteilungµ eine
Gleichgewichtsverteilung mit Detailed Balance-Bedingung.
b) ZYKLISCHER RANDOM WALK : SeiS = Z/nZ ein diskreter Kreis, und
p(k, k + 1) = p, p(k, k − 1) = 1− p.
Die Gleichverteilungµ(x) = 1n
ist ein Gleichgewicht. Die Detailed Balance-Bedingung ist
dagegen nur fürp = 12, d.h. im symmetrischen Fall, erfüllt.
c) EHRENFEST-MODELL:
SeiS = 0, 1, . . . , n,
p(k, k − 1) =k
n, p(k, k + 1) =
n− k
n.
Universität Bonn Wintersemester 2009/2010
92 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Man kann erwarten, dass sich im Gleichgewicht jede Kugel mitWahrscheinlichkeit12
in
jeder der beiden Urnen befindet. Tatsächlich erfüllt die Binomialverteilungµ(k) =(nk
)2−n
mit Parameterp = 12
die Detailed Balance-Bedingung:
µ(k − 1) p(k − 1, k) = µ(k) p(k, k − 1) k = 1, . . . , n
ist äquivalent zu
2−n n!
(k − 1)!(n− (k − 1))!
n− (k − 1)
n= 2−n n!
k!(n− k)!
k
nk = 1, . . . , n
d) RANDOM WALKS AUF GRAPHEN:
Sei(V,E) ein endlicher Graph,S = V die Menge der Knoten.
• Sei
p(x, y) =
1deg(x)
falls x, y ∈ E,
0 sonst.
Die Detailed Balance-Bedingung lautet in diesem Fall:
µ(x) p(x, y) = µ(y) p(y, x).
Sie ist erfüllt, falls
µ(x) = c deg(x)
gilt, wobeic eine Konstante ist. Damitµ eine Wahrscheinlichkeitsverteilung ist, muss
c so gewählt werden, dass gilt:
∑
x∈Bdeg(x) = 2 |E|.
Somit ist die Gleichgewichtsverteilung:
µ(x) =deg(x)
2|E| .
• Sei := maxx∈V deg(x),
p(x, y) =
1 falls x, y ∈ E,
1− deg(x) sonst.
Es gilt p(x, y) = p(y, x) und somit ist die Gleichverteilung aufV die stationäre Ver-
teilung.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 93
Ist deg(x) konstant, dann stimmen die Random Walks in beiden Beispielen überein, und
die Gleichverteilung ist ein Gleichgewicht.
Im nächsten Abschnitt zeigen wir:
Satz(Konvergenzsatz für Markov-Ketten). IstS endlich, undp eine irreduzible und aperiodische
stochastische Matrix mit Gleichgewichtµ, dann gilt für alle Wahrscheinlichkeitsverteilungenν
aufS:
limn→∞
(ν pn)(x) = µ(x) für alle x ∈ S.
Aufgrund des Konvergenzsatzes können wir Stichproben von einer Wahrscheinlichkeitsvertei-
lung µ näherungsweise erzeugen, indem wir eine Markov-KetteXn mit Gleichgewichtµ simu-
lieren, und für großesn auswerten. Wie findet man eine Markov-Kette mit einer vorgegebenen
stationären Verteilung?
Metropolis-Algorithmus und Gibbs-Sampler
Die Metropolis-Kette
Sei q(x, y) eine symmetrische stochastische Matrix, d.h.q(x, y) = q(y, x) für alle x, y ∈ S.
Dann erfüllt die Gleichverteilung die Detailed Balance-Bedingung (3.4.1). Sei nunµ eine be-
liebige Wahrscheinlichkeitsverteilung aufS mit µ(x) > 0 für alle x ∈ S. Wie können wir die
Übergangsmatrixq so modifizieren, dass die Detailed Balance-Bedingung bzgl.µ erfüllt ist?
Algorithmus 3.8 (Metropolis-Algorithmus (Updatex→ y)). schlage Übergangx → y mit
Wahrscheinlichkeitq(x, y) vor
akzeptiere Übergang mit Wahrscheinlichkeitα(x, y) ∈ [0, 1]
sonst verwerfe Vorschlag und bleibe beix
ÜBERGANGSMATRIX:
p(x, y) :=
α(x, y) q(x, y) für y 6= x,
1−∑y 6=x α(x, y) q(x, y) für y = x.
Die Detailed Balance-Bedingung lautet:
µ(x)α(x, y) = µ(y)α(y, x) für allex, y ∈ S.
Sie ist äquivalent dazu, dass
b(x, y) := µ(x)α(x, y)
Universität Bonn Wintersemester 2009/2010
94 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
symmetrisch inx undy ist. Was ist die größtmögliche Wahl vonb(x, y)?
Ausα(x, y) ≤ 1 folgen
b(x, y) ≤ µ(x),
b(x, y) = b(y, x) ≤ µ(y),
und somit
b(x, y) ≤ min(µ(x), µ(y)).
Der größtmögliche Wertb(x, y) = min(µ(x), µ(y)) entspricht gerade
α(x, y) = min(1,µ(y)
µ(x)
)=
1 falls µ(y) ≥ µ(x),
µ(y)µ(x)
falls µ(x) ≥ µ(y).
Definition. Die Markov-Kette mit Übergangsmatrix
p(x, y) = min
(1,µ(y)
µ(x)
)· q(x, y) für y 6= x
heißtMetropolis-Kettemit Vorschlagsverteilungq(x, y) und Gleichgewichtµ.
Satz 3.9.µ erfüllt die Detailed Balance-Bedingung bzgl.p.
Beweis.siehe oben.
Der Gibbs-Sampler
SeiS = S1 × · · · ×Sd ein endlicher Produktraum,µ(x1, . . . , xd) eine Wahrscheinlichkeitsvertei-
lung aufS und
µi(xi | x1, . . . , xi−1, xi+1, . . . , xd) :=µ(x1, . . . , xd)∑
z∈Siµ(x1, . . . , xi−1, z, xi+1, . . . , xd)
die bedingte Verteilung deri-ten Komponente gegeben die übrigen Komponenten.
Algorithmus 3.10 (Gibbs-Sampler (Updatex→ y)). y := x
for i := 1, . . . d do
updateyi ∼ µi( • | y1, . . . yi−1, yi+1, . . . , yd)
end for
return y
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 95
ÜBERGANGSMATRIX:
p = pd pd−1 · · · p1,
wobei
pi(x, y) =
µi(yi | y1, . . . , yi−1, yi+1, . . . , yd) falls yk = xk für allek 6= i,
0 sonst.
Satz 3.11. i) µ erfüllt die Detailed Balance-Bedingung bzgl.pi für alle i = 1, . . . , d.
ii) µ ist ein Gleichgewicht vonp.
Beweis. i) Der Beweis der ersten Aussage ist eine Übungsaufgabe.
ii) Nach der ersten Aussage istµ ein Gleichgewicht vonpi für alle i. Also gilt auch
µ p = µ pd pd−1 · · · p1 = µ.
Bemerkung. Zur Simulation vonYn, n ≥ 0, genügt es, die Massenfunktionµ(x) bis auf eine
multiplikative Konstante zu kennen:
ausµ(x) = C f(X) folgt
α(x, y) = min(1,f(y)
f(x)
)unabhängig vonC.
Beispiel(Rucksackproblem). Gegeben:
ω1, . . . , ωd ∈ R, »Gewichte«,
v1, . . . , vd ∈ R, »Werte«.
Rucksack mit maximalem Gewichtb > 0, packe soviel Wert wie möglich ein.
S = 0, 1d, alle Konfigurationen,
Sb = (z1, . . . , zd) ∈ S :∑d
i=1 ziwi ≤ b, zulässige Konfigurationen,
zi = 1 : i-ter Gegenstand im Rucksack.
RUCKSACKPROBLEM:
maximiereV (z) =∑d
i=1 zi vi unter Nebenbedingungz ∈ Sb.
Universität Bonn Wintersemester 2009/2010
96 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Das Rucksackproblem istNP-vollständig, insbesondere ist keine Lösung inO(dk) Schritten für
eink ∈ N bekannt.
STOCHASTISCHERZUGANG: SIMULATED ANNEALING
Fürβ > 0 betrachten wir die Wahrscheinlichkeitsverteilung
µβ(z) =
1Zβeβ V (z) für z ∈ Sb,
0 für z ∈ S\Sb,
aufS, wobeiZβ =∑
z∈Sbeβ V (z) eine Konstante ist, dieµ zu einer Wahrscheinlichkeitsverteilung
normiert. Fürβ = 0 ist µβ die Gleichverteilung aufSb. Für β → ∞ konvergiertµβ gegen die
Gleichverteilung auf der Menge der globalen Maxima vonV , denn:
µβ(z) =eβ V (z)
Zβ
=1∑
y∈Sbeβ (V (y)−V (z))
−→
0 falls V (z) 6= maxV,
1|y | V (y)=maxV | falls V (z) = maxV.
IDEE: Simuliere Stichprobez von µβ für β groß (β → ∞). Dann istV (z) wahrscheinlich
nahe dem Maximalwert.
METROPOLIS-ALGORITHMUS: Seix+ := max(x, 0) der Positivteil vonx. Wir wählen als
Vorschlagsmatrix die Übergangsmatrix
q(z, w) :=
1d
falls zi 6= wi für genau eini ∈ 1, . . . , d,0 sonst,
des Random Walks auf0, 1d. Für die Akzeptanzwahrscheinlichkeit ergibt sich
αβ(z, w) = min
(1,µβ(w)
µβ(z)
)=
e−β (V (z)−V (w)) für z, w ∈ Sb,
0 für z ∈ Sb, w /∈ Sb.
Der Vorschlagw wir also mit Wahrscheinlichkeit1 akzeptiert, wennV (w) ≥ V (z) gilt – andern-
falls wird der Vorschlag nur mit Wahrscheinlichkeitexp−β (V (z)− V (w)) akzeptiert.
Algorithmus 3.12 (Simulation einer Markov-Kette mit Gleichgewichtµβ). initialisierez(0) ∈Sb
for n = 1, 2, . . . do
z(n) := w := z(n−1)
erzeugei ∼ Unif1, . . . , dwi := 1− wi
if w ∈ Sb then
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.5. KONVERGENZ INS GLEICHGEWICHT 97
erzeugeu ∼ Unif(0, 1)
if u ≤ αβ(z, w) then
z(n) := w
end if
end if
end for
Algorithmus 3.13 (Simulated Annealing). Wie Algorithmus 3.12 aber mitβ = β(n) → ∞ für
n→ ∞.
Bemerkung. a) PHYSIKALISCHE INTERPRETATIONEN:
µβ ist die Verteilung im thermodynamischen Gleichgewicht fürdie EnergiefunktionH(z) =
−V (z) bei der TemperaturT = 1/β. Der Grenzwertβ → ∞ entsprichtT → 0 (»simulier-
tes Abkühlen«).
b) Die beim Simulated Annealing-Verfahren simulierte zeitlich inhomogene Markov-Kette
findet im allgemeinen nicht das globale Maximum vonV , sondern kann in lokalen Maxi-
ma »steckenbleiben«. Man kann zeigen, dass die Verteilung der Markov-Kette zur Zeitn
gegen die Gleichverteilung auf den Maximalstellen konvergiert, fallsβ(n) nur sehr lang-
sam (logarithmisch) gegen+∞ geht. In praktischen Anwendungen wird der Algorithmus
aber in der Regel mit einem schnelleren »Cooling schedule«β(n) verwendet. Das Auf-
finden eines globalen Maximums ist dann nicht garantiert – trotzdem erhält man ein oft
nützlichesheuristischesVerfahren.
3.5 Konvergenz ins Gleichgewicht
SeiS = x1, . . . , xm eine endliche Menge, und
WV(S) := µ = (µ(x1), . . . , µ(xm)) | µ(xi) ≥ 0,m∑
i=1
µ(xi) = 1 ⊆ Rm
die Menge aller Wahrscheinlichkeitsverteilungen aufS. Geometrisch istWV(S) ein Simplex im
Rm. Wir führen nun einen Abstandsbegriff aufWV(S) ein:
Definition. Die Variationsdistanzzweier Wahrscheinlichkeitsverteilungenµ, ν aufS ist:
dTV (µ, ν) :=1
2‖µ− ν‖1 =
1
2
∑
x∈S|µ(x)− ν(x)|.
Universität Bonn Wintersemester 2009/2010
98 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Bemerkung. a) Für alleµ, ν ∈ WV(S) gilt:
dTV (µ, ν) ≤1
2
∑
x∈S(µ(x) + ν(x)) = 1.
b) Seienµ, ν Wahrscheinlichkeitsverteilungen undA := x ∈ S | µ(x) ≥ ν(x). Dann gilt:
dTV (µ, ν) =∑
x∈A(µ(x)− ν(x)) = max
A⊆S|µ(A)− ν(A)|.
Der Beweis dieser Aussage ist eine Übungsaufgabe.
Wir betrachten im folgenden eine stochastische Matrixp(x, y), (x, y ∈ S), mit Gleichgewicht
µ. Die Verteilung einer Markov-Kette mit Startverteilungν und Übergangsmatrixp zur Zeitn ist
ν pn. Um Konvergenz ins Gleichgewicht zu zeigen, verwenden wir die folgende Annahme:
M INORISIERUNGSBEDINGUNG: Es gibt einδ ∈ (0, 1] und einr ∈ N, so dass für allex, y ∈ S
gilt:
pr(x, y) ≥ δ · µ(y). (3.5.1)
Satz 3.14.Gilt die Minorisierungsbedingung(3.5.1), dann konvergiertν pn für jede Startvertei-
lungν exponentiell schnell gegenµ. Genauer gilt für allen ∈ N undν ∈ WV(S):
dTV (ν pn, µ) ≤ (1− δ)⌊n/r⌋.
Bemerkung. Insbesondere istµ daseindeutigeGleichgewicht: Betrachte eine beliebige Wahr-
scheinlichkeitsverteilungν mit ν p = ν. Dann folgt fürn→ ∞:
dTV (ν, µ) = dTV (ν pn, µ) −→ 0,
alsodTV (µ, ν) = 0, und somitµ = ν.
Beweis. 1. Durch die Zerlegung
pr(x, y) = δ µ(y) + (1− δ) q(x, y)
der r-Schritt-Übergangswahrscheinlichkeiten wird einestochastischeMatrix q definiert,
denn
(i) Aus der Minorisierungsbedingung (3.5.1) folgtq(x, y) ≥ 0 für allex, y ∈ S.
(ii) Aus∑
y∈S pr(x, y) = 1,
∑y∈S µ(y) = 1 folgt
∑y∈S q(x, y) = 1 für allex ∈ S.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.5. KONVERGENZ INS GLEICHGEWICHT 99
Wir setzen im folgendenλ := 1− δ. Dann gilt für alleν ∈ WV(S):
ν pr = (1− λ)µ+ λ ν q. (3.5.2)
2. Wir wollen mit vollständiger Induktion zeigen:
ν pkr = (1− λk)µ+ λk ν qk für allek ≥ 0, ν ∈ WV(S). (3.5.3)
Fürk = 0 ist die Aussage offensichtlich wahr. Gilt (3.5.3) für eink ≥ 0, dann erhalten wir
durch Anwenden von Gleichung (3.5.2) aufν pr mit ν = ν qk:
ν p(k+1)r = ν pkr pr
= ((1− λk)µ+ λk ν qk︸︷︷︸=ν
) pr
= (1− λk) µ pr︸︷︷︸=µ
+(1− λ)λkµ+ λk+1 ν qk q
= (1− λk+1)µ+ λk+1 ν qk+1.
3. Fürn ∈ N, n = k r + i, (k ∈ N, 0 ≤ i < r), folgt:
ν pn = ν pkr pi = (1− λk) µ pi︸︷︷︸=µ
+λk ν qk pi,
also
ν pn − µ = λk (ν qk pi − µ) für alleν ∈ WV(S),
und damit
dTV (ν pn, µ) =
1
2‖ν pn − µ‖1 = λk dTV (ν q
k pi, µ) ≤ λk
nach der letzten Bemerkung.
Welche Übergangsmatrizen erfüllen die Minorisierungsbedingung?
Definition. i) Die stochastische Matrixp heißt irreduzibel, falls es für allex, y ∈ S ein
n ∈ N gibt, so dasspn(x, y) > 0 gilt.
ii) Die Periodevonx ∈ S ist definiert als
Periode(x) := ggT(n ∈ N | pn(x, x) > 0︸ ︷︷ ︸=:R(x)
).
Universität Bonn Wintersemester 2009/2010
100 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN
Lemma 3.15. i) Falls p irreduzibel ist, giltPeriode(x) = Periode(y) für alle x, y ∈ S.
ii) Falls p irreduzibel und aperiodisch (d.h.Periode(x) = 1 für alle x ∈ S) ist, gibt es ein
r > 0, so dasspr(x, y) > 0 für alle x, y ∈ S gilt.
Beweis.Seienx, y ∈ S.
i) Seip irreduzibel. Dann gibt es eins und eint ∈ N, so dass gilt:
ps(x, y) > 0 und pt(y, x) > 0.
Füra := s+ t folgt:
• pa(x, x) ≥ ps(x, y) pt(y, x) > 0, alsoa ∈ R(x).
• pn+a(x, x) ≥ ps(x, y) pn(y, y) pt(y, x) > 0 für allen ∈ R(y), alson + a ∈ R(x) für
allen ∈ R(y).
Periode(x) ist ein gemeinsamer Teiler vonR(x), somit Teiler vona undn + a, also auch
vonn für allen ∈ R(y). Daher istPeriode(x) ein gemeinsamer Teiler vonR(y) und somit
gilt:
Periode(x) ≤ Periode(y).
»≥« wird analog gezeigt. Es folgt:
Periode(x) = Periode(y).
ii) R(x) ist abgeschlossen unter Addition, denn fallss, t ∈ R(x) ist, gilt:
ps+t(x, x) ≥ ps(x, x) pt(x, x) > 0,
und somits + t ∈ R(x). Dap aperiodisch ist, folgtggT(R(x)) = 1 für allex ∈ S. Nach
einem Satz der Zahlentheorie gilt:
Da R(x) additiv abgeschlossen, gibt es für allex ein r(x) ∈ N mit n ∈ R(x) für alle
n ≥ r(x).
n ∈ R(x) impliziert pn(x, x) > 0. Da p irreduzibel ist, folgt, dass es für allex, y ein
r(x, y) ∈ N gibt, so dass gilt:
pn(x, y) > 0 für allen ≥ r(x, y).
Für r ≥ maxx,y∈S r(x, y) folgt dannpr(x, y) > 0 für allex, y ∈ S.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
3.5. KONVERGENZ INS GLEICHGEWICHT 101
Satz 3.16(Konvergenzsatz fürendlicheMarkov-Ketten). Ist p irreduzibel und aperiodisch mit
Gleichgewichtµ, dann gilt:
limn→∞
dTV (ν pn, µ) = 0 für alle ν ∈ WV(S).
Beweis.Dap irreduzibel und aperiodisch ist, gibt es einr ∈ N mit:
pr(x, y) > 0 für allex, y ∈ S.
Daher gibt es einr ∈ N und einδ > 0, so dass gilt:
pr(x, y) > δ µ(y) für allex, y ∈ S,
(z.B. δ := minx,y∈S pr(x, y)). Mit Satz 3.14 folgt die Behauptung.
Beispiel(Metropolis-Kette). SeiS endlich,µ(x) > 0 für allex ∈ S, nicht konstant, undq(x, y)
irreduzibel. Dann istp(x, y) irreduzibel und aperiodisch. Somit folgt die Konvergenz ins Gleich-
gewicht nach Satz 3.16, allerdings evtl. sehr langsam!
ANWENDUNG: MARKOV-CHAIN -MONTE CARLO-VERFAHREN
Seiµ ∈ WV(S), f : S → R.
GESUCHT:
θ = Eµ[f ],
MARKOV-CHAIN -MONTE CARLO-SCHÄTZER:
θn,b =1
n
b+n∑
k=b+1
f(Xk),
wobeib ∈ N eine feste Konstante (»burn-in-Zeit«) und(Xk)k∈N irreduzible Markov-Ketten mit
Gleichgewichtµ sind.
Satz(Ergodensatz / Gesetz der großen Zahlen für Markov-Ketten). : Für alle b ∈ N gilt:
limn→∞
θn,b = θ mit Wahrscheinlichkeit1,
Beweis.siehe Vorlesung »Stochastische Prozesse«.
Die Analyse des Schätzfehler ist im Allgemeinen diffizil!
Universität Bonn Wintersemester 2009/2010
Kapitel 4
Stetige und Allgemeine Modelle
4.1 Unendliche Kombinationen von Ereignissen
Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Ist(An)n∈N eine Folge von bzgl.P unabhängigen
Ereignissen,An ∈ A mit fester Wahrscheinlichkeit
P [An] = p ∈ [0, 1]
und
Sn(ω) =n∑
i=1
IAi(ω) = |1 ≤ i ≤ n : ω ∈ Ai|
die Anzahl der Ereignisse unter den erstenn, die eintreten, dann istSn binomialverteilt mit den
Parameternn undp. Für die relative HäufigkeitSn
nder EreignisseAi gilt die Bernstein-Chernoff-
Ungleichung
P
[∣∣∣∣Sn
n− p
∣∣∣∣ ≥ ε
]≤ 2 · e−2ε2n, (4.1.1)
d.h. die Verteilung vonSn
nkonzentriert sich fürn → ∞ sehr rasch in der Nähe vonp, siehe Ab-
schnitt 2.3. Insbesondere ergibt sich ein Spezialfall des schwachen Gesetzes der großen Zahlen:
die Folge der ZufallsvariablenSn
nkonvergiertP -stochastisch gegenp, d.h.
P
[∣∣∣∣Sn
n− p
∣∣∣∣ ≥ ε
]n→∞→ 0 für alleε > 0.
Definition. (1). EineP -Nullmenge ist ein EreignisA ∈ A mit P [A] = 0.
(2). Ein EreignisA ∈ A tritt P -fast sicherbzw. fürP -fast alleω ∈ Ω ein, fallsP [A] = 1 gilt,
d.h. fallsAC eineP -Nullmenge ist.
102
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 103
Wir wollen nun Methoden entwickeln, die es uns ermöglichen,zu zeigen, dass aus (4.1.1) sogar
limn→∞
Sn(ω)
n= p für P -fast alleω ∈ Ω (4.1.2)
folgt. Das relevante Ereignis
L :=
ω ∈ Ω : lim
n→∞
Sn(ω)
n= p
lässt sich offensichtlich nicht durch endlich viele derAi beschreiben.
Seien nun allgemeinA1, A2, . . . ∈ A beliebige Ereignisse. Uns interessieren zusammengesetzte
Ereignisse wie z.B.
∞⋃n=1
An („Eines derAn tritt ein“)∞⋂n=1
An („Alle der An treten ein“)∞⋂
m=1
∞⋃n=m
An = ω ∈ Ω : ∀m ∃n ≥ m : ω ∈ An („Unendlich viele derAn treten ein“ oder
„An tritt immer mal wieder ein“)∞⋃
m=1
∞⋂n=m
An = ω ∈ Ω : ∃m ∀n ≥ m : ω ∈ An („An tritt schließlich ein“)
Aufgrund der Eigenschaften einerσ-Algebra liegen alle diese Mengen wieder inA. Das Ereignis
L lässt sich wie folgt als abzählbare Kombination derAi ausdrücken:
ω ∈ L ⇐⇒ limn→∞
Sn
n= p
⇐⇒ ∀ε ∈ Q+ :
∣∣∣∣Sn
n− p
∣∣∣∣ ≤ ε schließlich
⇐⇒ ∀ε ∈ Q+ ∃m ∈ N ∀n ≥ m :
∣∣∣∣Sn
n− p
∣∣∣∣ ≤ ε
Somit gilt
L =⋂
ε∈Q+
∣∣∣∣Sn
n− p
∣∣∣∣ ≤ ε schließlich
=⋂
ε∈Q+
⋃
m∈N
⋂
n≥m
∣∣∣∣Sn
n− p
∣∣∣∣ ≤ ε
.
Um Wahrscheinlichkeiten von solchen Ereignissen berechnen zu können, ist es wesentlich, dass
eine WahrscheinlichkeitsverteilungP nicht nur endlich additiv, sondern sogarσ-additiv ist. Der
folgende Satz gibt eine alternative Charakterisierung derσ-Additivität:
Universität Bonn Wintersemester 2009/2010
104 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Satz 4.1(σ-Additivität und monotone Stetigkeit). SeiA eineσ-Algebra undP : A → [0,∞]
additiv, d.h.
A ∩B = ∅ ⇒ P [A ∪ B] = P [A] + P [B].
(i) P ist σ-additiv genau dann, wenn:
A1 ⊆ A2 ⊆ . . . ⇒ P
[ ∞⋃
n=1
An
]= lim
n→∞P [An]
(ii) Gilt P [Ω] = 1, dann ist dies auch äquivalent zu:
A1 ⊇ A2 ⊇ . . . ⇒ P
[ ∞⋂
n=1
An
]= lim
n→∞P [An]
Beweis. (i) Sei P σ-additiv undA1 ⊆ A2 ⊆ . . . . Die MengenB1 := A1, B2 := A2\A1,
B3 := A3\A2, . . . sind disjunkt mit
n⋃
i=1
Bi =n⋃
i=1
Ai = An und∞⋃
i=1
Bi =∞⋃
i=1
Ai.
Also gilt:
P
[ ∞⋃
i=1
Ai
]= P
[ ∞⋃
i=1
Bi
]
σ−add.=
∞∑
i=1
P [Bi]
= limn→∞
n∑
i=1
P [Bi]
= limn→∞
P
[n⋃
i=1
Bi
]
= limn→∞
P [An].
Der Beweis der umgekehrten Implikation wird dem Leser als Übungsaufgabe überlassen.
(ii) Gilt P [Ω] = 1, dann folgt
P
[ ∞⋂
i=1
Ai
]= P
[( ∞⋃
i=1
Aci
)c]= 1− P
[ ∞⋃
i=1
Aci
].
Die Behauptung folgt nun aus (i).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 105
Ab jetzt setzen wir wieder voraus, dassP eine Wahrscheinlichkeitsverteilung ist. Eine weitere
Folgerung aus derσ-Additivität ist:
Satz 4.2(σ-Subadditivität ). Für beliebige EreignisseA1, A2, . . . ∈ A gilt:
P
[ ∞⋃
n=1
An
]≤
∞∑
n=1
P [An]
Abbildung 4.1: Darstellung von drei Mengen. Das Maß der Vereinigung von Mengen ist stets
kleiner gleich als die Summe der Maße der einzelnen Mengen.
Beweis.Die Mengen
Bn = An \ (An−1 ∪ · · · ∪ A1)
sind disjunkt mit∞⋃n=1
Bn =∞⋃n=1
An. Also gilt:
P
[ ∞⋃
n=1
An
]= P
[ ∞⋃
n=1
Bn
]=
∞∑
n=1
P [Bn]︸ ︷︷ ︸≤P [An]
≤∞∑
n=1
P [An].
Bemerkung. Insbesondere ist eine Vereinigung von abzählbar vielen Nullmengen wieder eine
Nullmenge.
Der folgende Satz spielt eine zentrale Rolle beim Beweis von Konvergenzaussagen für Zufalls-
variablen:
Satz 4.3(1. Borel - Cantelli - Lemma). Für EreignisseA1, A2, . . . ∈ A mit
∞∑
n=1
P [An] <∞
Universität Bonn Wintersemester 2009/2010
106 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
gilt:
P [„unendlich viele derAn treten ein“] = P
[⋂
m
⋃
n≥m
An
]= 0.
Beweis.Da die Folge⋃
n≥m
An =: Bm von Ereignissen ausA monoton fallend ist, ergibt sich nach
Satz 4.1 und 4.2:
P
[⋂
m
⋃
n≥m
An
]= P
[⋂
m
Bm
]
4.1= lim
m→∞P [Bm]
= limm→∞
P
[⋃
n≥m
An
]
︸ ︷︷ ︸4.2≤
∞∑n=m
P [An]
≤ lim infm→∞
∞∑
n=m
P [An]
︸ ︷︷ ︸m→∞→ 0
= 0,
da die Summe∞∑n=1
P [An] nach Voraussetzung konvergiert.
Das erste Borel-Cantelli-Lemma besagt, dass mit Wahrscheinlichkeit 1 nur endlich viele der Er-
eignisseAn, n ∈ N eintreten, falls∑P [An] < ∞ gilt. Die Unabhängigkeit der Ereignisse er-
möglicht die Umkehrung dieser Aussage. Es gilt sogar:
Satz 4.4(2. Borel - Cantelli - Lemma). Für unabhängige EreignisseA1, A2, . . . ∈ A mit
∞∑
n=1
P [An] = ∞
gilt:
P [An unendlich oft] = P
[⋂
m
⋃
n≥m
An
]= 1
Bemerkung. Insbesondere ergibt sich ein0-1 Gesetz:
SindA1, A2, . . . ∈ A unabhängige Ereignisse, dann beträgt die Wahrscheinlichkeit, dass unend-
lich viele derAn, n ∈ N, eintreten, entweder0 oder1 - je nachdem ob die Summe∑P [An]
endlich oder unendlich ist.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 107
Wir zeigen nun das zweite Borel-Cantelli-Lemma:
Beweis.Sind die EreignisseAn, n ∈ N unabhängig, so auch die EreignisseACn , siehe Lemma
2.5. Zu zeigen ist:
P [An nur endlich oft] = P
[⋃
m
⋂
n≥m
ACn
]= 0
Nach Satz 4.1 gilt:
P
[⋃
m
⋂
n≥m
ACn
]= lim
m→∞P
[⋂
n≥m
ACn
](4.1.3)
Wegen der Unabhängigkeit der EreignisseACn erhalten wir zudem
P
[⋂
n≥m
ACn
]mon. Stetigkeit
= limk→∞
P
[k⋂
n=m
ACn
]
unabh.= lim
k→∞
k∏
n=m
P [ACn ]︸ ︷︷ ︸
=1−P [An]≤exp(−P [An])
≤ lim infk→∞
k∏
n=m
e−P [An]
= lim infk→∞
e−
k∑n=m
P [An]= 0, (4.1.4)
da limk→∞
k∑n=m
P [An] =∞∑
n=m
P [An] = ∞ nach Voraussetzung.
Aus 4.1.3 und 4.1.4 folgt die Behauptung.
Mithilfe des 1. Borel-Cantelli-Lemmas können wir nun eine erste Version eines starken Gesetzes
großer Zahlen beweisen. Seip ∈ [0, 1].
Satz 4.5(Starkes Gesetz großer Zahlen I, Borel 1909, Hausdorff 1914, Cantelli 1917). Sind
A1, A2, . . . ∈ A unabhängige Ereignisse mit WahrscheinlichkeitP [An] = p für alle n ∈ N, dann
gilt für Sn =n∑
i=1
IAi:
limn→∞
Sn(ω)
n︸ ︷︷ ︸asymptotische
relative Häufig-
keit des Ereig-
nisses
= p︸︷︷︸W’keit
für P -fast alleω ∈ Ω
Universität Bonn Wintersemester 2009/2010
108 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beweis.Sei
L :=
ω ∈ Ω
∣∣∣∣1
nSn(ω) → p für n→ ∞
Zu zeigen ist, dassLC ∈ A mit P [LC ] = 0.
Wegen
ω ∈ LC ⇐⇒ Sn(ω)
n6→ p ⇐⇒ ∃ε ∈ Q+ :
∣∣∣∣Sn(ω)
n− p
∣∣∣∣ > ε unendlich oft
gilt:
LC =⋃
ε∈Q+
∣∣∣∣Sn(ω)
n− p
∣∣∣∣ > ε unendlich oft
=⋃
ε∈Q+
⋂
m
⋃
n≥m
∣∣∣∣Sn(ω)
n− p
∣∣∣∣ > ε
∈ A.
Zudem folgt aus der Bernstein-Chernoff-Abschätzung:
∞∑
n=1
P
[∣∣∣∣Sn
n− p
∣∣∣∣ > ε
]≤
∞∑
n=1
2e−2nε2 <∞
für alleε > 0, also nach dem 1. Borel-Cantelli-Lemma:
P
[∣∣∣∣Sn
n− p
∣∣∣∣ > ε unendlich oft
]= 0.
Also istLc eine Vereinigung von abzählbar vielen Nullmengen, und damit nach Satz 4.2 selbst
eine Nullmenge.
Das starke Gesetz großer Zahlen in obigem Sinn rechtfertigtnochmals im Nachhinein die empiri-
sche Interpretation der Wahrscheinlichkeit eines Ereignisses als asymptotische relative Häufigkeit
bei unabhängigen Wiederholungen.
Beispiel(Random Walk/Irrfahrt ). Wir betrachten einen Random Walk
Zn = X1 +X2 +X3 + . . .+Xn (n ∈ N)
mit unabhängigen identisch verteilten InkrementenXi, i ∈ N, mit
P [Xi = 1] = p und P [Xi = −1] = 1− p, p ∈ (0, 1) fest.
Die EreignisseAi := Xi = 1 sind unabhängig mitP [Ai] = p und es gilt:
Xi = IAi− IAC
i= 2IAi
− 1,
also
Zn = 2Sn − n, wobei Sn =n∑
i=1
IAi.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 109
Nach Satz 4.5 folgt:
limn→∞
Zn
n= 2 lim
n→∞
Sn
n− 1 = 2p− 1 P -fast sicher.
Fürp 6= 12
wächst (bzw. fällt)Zn also mit Wahrscheinlichkeit1 asymptotisch linear (siehe Abbil-
dung 4.2):
Zn ∼ (2p− 1) · n P -fast sicher
10
20
30
40
50
100 200 300 400
(2p− 1)n
Abbildung 4.2: Random Walk mit Drift:p = 0.55, n = 500
Für p = 12
dagegen wächst der Random Walk sublinear, d.h.Zn
n→ 0 P -fast sicher. In diesem
Fall liegt für hinreichend großen der Graph einer typischen TrajektorieZn(ω) in einem beliebig
kleinen Sektor um diex-Achse (siehe Abbildung 4.3).
10
−10
−20
100 200 300 400
Abbildung 4.3: Random Walk ohne Drift:p = 0.5, n = 500
Eine viel präzisere Beschreibung der Asymptotik des Random Walk liefert derSatz vom iterier-
ten Logarithmus:
lim supn→∞
Sn(ω)√n log log n
= +1 P -fast sicher,
Universität Bonn Wintersemester 2009/2010
110 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
lim infn→∞
Sn(ω)√n log log n
= −1 P -fast sicher
Mehr dazu: siehe Vorlesung „Stochastische Prozesse.“
4.2 Allgemeine Wahrscheinlichkeitsräume
Bisher haben wir uns noch nicht mit der Frage befasst, ob überhaupt ein Wahrscheinlichkeits-
raum existiert, auf dem unendlich viele unabhängige Ereignisse bzw. Zufallsvariablen realisiert
werden können. Auch die Realisierung einer auf einem endlichen reellen Intervall gleichverteil-
ten Zufallsvariable auf einem geeigneten Wahrscheinlichkeitsraum haben wir noch nicht gezeigt.
Die Existenz solcher Räume wurde stillschweigend vorausgesetzt.
Tatsächlich ist es oft nicht notwendig, den zugrunde liegenden Wahrscheinlichkeitsraum expli-
zit zu kennen - die Kenntnis der gemeinsamen Verteilungen aller relevanten Zufallsvariablen
genügt, um Wahrscheinlichkeiten und Erwartungswerte zu berechnen. Dennoch ist es an dieser
Stelle hilfreich, die grundlegenden Existenzfragen zu klären, und unsere Modelle auf ein sicheres
Fundament zu stellen. Die dabei entwickelten Begriffsbildungen werden sich beim Umgang mit
stetigen und allgemeinen Zufallsvariablen als unverzichtbar erweisen.
Beispiele von Wahrscheinlichkeitsräumen
Wir beginnen mit einer Auflistung von verschiedenen Wahrscheinlichkeitsräumen(Ω,A, P ), die
wir gerne konstruieren würden:
Dirac-Maß
SeiΩ beliebig,a ∈ Ω fest,A = P(Ω), P = δa, wobei
δa[A] :=
1 falls a ∈ A
0 sonst
Dies ist eine deterministische Verteilung mit:
P [ω = a] = 1
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 111
Diskrete Wahrscheinlichkeitsräume
Ist Ω eine abzählbare Menge undp : Ω → [0, 1] eine Gewichtsfunktion mit∑ω∈Ω
p(ω) = 1,
dann haben wir bereits gezeigt, dass eine eindeutige WahrscheinlichkeitsverteilungP auf der
PotenzmengeA = P(Ω) existiert mit
P [A] =∑
a∈Ap(a) =
∑
a∈Ωp(a)δa[A] ∀A ⊆ Ω.
Jede diskrete Wahrscheinlichkeitsverteilung ist eine Konvexkombination von Diracmaßen:
P =∑
a∈Ωp(a)δa
Endliche Produktmodelle
Auch die Konstruktion mehrstufiger diskreter Modelle ist auf diese Weise möglich: Ist beispiels-
weise
Ω = (ω1, . . . , ωn) : ωi ∈ Ωi = Ω1 × . . .× Ωn
eine Produktmenge, und sindp1, . . . , pn Gewichtsfunktionen von Wahrscheinlichkeitsverteilun-
genP1, . . . , Pn aufΩ1, . . . ,Ωn, dann ist
p(ω) =n∏
i=1
pi(ωi)
die Gewichtsfunktion einer WahrscheinlichkeitsverteilungP = P1⊗ . . .⊗Pn aufΩ. Unter dieser
Wahrscheinlichkeitsverteilung sind die ZufallsvariablenXi(ω) = ωi unabhängig.
Unendliches Produktmodell (z.B. Münzwurffolge)
Es stellt sich die Frage, ob wir auch unendlich viele unabhängige Zufallsvariablen auf einem ähn-
lichen Produktraum realisieren können. Im einfachsten Fall möchten wir eine Folge unabhängiger
fairer Münzwürfe (0-1-Experimente) auf dem Grundraum
Ω = ω = (ω1, ω2, . . .) : ωi ∈ 0, 1 = 0, 1N
modellieren.Ω ist überabzählbar, denn die AbbildungX : (0, 1) → Ω, die einer reellen Zahl die
Ziffernfolge ihrer Binärdarstellung zuordnet, ist injektiv. Genauer ist eine injektive Abbildung
X : (0, 1) → Ω definiert durch
X(ω) = (X1(ω), X2(ω), X3(ω), . . .), (4.2.1)
Universität Bonn Wintersemester 2009/2010
112 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
1
0.5 1.0
X1(ω)
1
0.25 0.50 0.75 1.00
X2(ω)
1
0.25 0.50 0.75 1.00
X3(ω)
Abbildung 4.4: Darstellung der ersten dreiXi(ω).
wobeiXn(ω) = IDn(ω), Dn =2n−1⋃i=1
[(2i− 1) · 2−n, 2i · 2−n).
Wir suchen eine WahrscheinlichkeitsverteilungP aufΩ mit
P [ω ∈ Ω : ω1 = a1, ω2 = a2, . . . , ωn = an] = 2−n (4.2.2)
Gibt es eineσ-AlgebraA, die alle diese Ereignisse enthält, und eine eindeutige Wahrscheinlich-
keitsverteilungP aufA mit (4.2.2)?
Wir werden in Abschnitt 5.3 zeigen, dass dies der Fall ist; wobei aber
(1). A 6= P(Ω) und
(2). P [ω] = 0 für alleω ∈ Ω
gelten muss. Das entsprechende Produktmodell unterscheidet sich in dieser Hinsicht grundlegend
von diskreten Modellen.
Kontinuierliche Gleichverteilung
Für die Gleichverteilung auf einem endlichen reellen Intervall Ω = [a, b],−∞ < a < b < ∞,
sollte gelten:
P [(c, d)] = P [[c, d]] =d− c
b− a∀a ≤ c < d ≤ b. (4.2.3)
Gibt es eineσ-AlgebraB, die alle Teilintervalle von[a, b] enthält, und eine Wahrscheinlichkeits-
verteilungP aufB mit (4.2.3)?
Wieder ist die Antwort positiv, aber erneut gilt notwendigerweiseB 6= P(Ω) undP [ω] = 0
für alleω ∈ Ω.
Tatsächlich sind die Probleme in den letzten beiden Abschnitten weitgehend äquivalent: die durch
die Binärdarstellung (4.2.1) definierte AbbildungX ist eine Bijektion von[0, 1) nach0, 1N\A,
wobeiA = ω ∈ Ω : ωn = 1 schließlich eine abzählbare Teilmenge ist. Eine Gleichverteilung
auf [0, 1) wird durchX auf eine Münzwurffolge auf0, 1N abgebildet, und umgekehrt.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 113
Brownsche Bewegung
Simuliert man einen Random Walk, so ergibt sich in einem geeigneten Skalierungslimes mit
Schrittweite→ 0 anscheinend eine irreguläre, aber stetige zufällige Bewegung in kontinuierlicher
Zeit. Der entsprechende, 1923 von N. Wiener konstruierte stochastische Prozess heißtBrown-
246810121416
−2−4−6−8
10 20 30 40 50 60 70 80 90
Abbildung 4.5: Graph einer Stichprobe der eindimensionalen Brownschen Bewegung
sche Bewegung, und kann durch eine WahrscheinlichkeitsverteilungP (das Wienermaß) auf dem
Raum
Ω = C([0, 1],R) = ω : [0, 1] → R|ω stetigbeschrieben werden. Für diese, als Modell für Aktienkurse,zufällige Bewegungen, etc. in diver-
sen Anwendungsbereichen fundamentale Wahrscheinlichkeitsverteilung gilt unter anderem:
P [ω ∈ Ω : ω(t) ∈ [a, b)] = 1√2πt
b∫
a
e−x2
2t dx für alle t > 0,
siehe zum Beispiel die Vorlesung „Stochastische Prozesse“ im Sommersemester.
Um Wahrscheinlichkeitsverteilungen wie in den letzten beiden Beispielen zu konstruieren, benö-
tigen wir zunächst geeigneteσ-Algebren, die die relevanten Ereignisse bzw. Intervalle enthalten.
Dazu verwenden wir die folgende Konstruktion:
Konstruktion von σ-Algebren
SeiΩ eine beliebige Menge, undJ ⊆ P(Ω) eine Kollektion von Ereignissen, die auf jeden Fall
in der zu konstruierendenσ-Algebra enthalten sein sollen (z.B. die Mengen aus den Beispielen
zu unendlichen Produktmodellen und kontinuierlichen Gleichverteilungen auf Seite 111f).
Universität Bonn Wintersemester 2009/2010
114 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Definition. Die Kollektion
σ(J ) :=⋂
F⊇J
F σ-Algebra aufΩ
F
von Teilmengen vonΩ heißt die vonJ -erzeugteσ-Algebra.
Bemerkung. Wie man leicht nachprüft (Übung), istσ(J ) tatsächlich eineσ-Algebra, und damit
die kleinsteσ-Algebra, dieJ enthält.
Beispiel(Borel’scheσ-Algebra auf R). SeiΩ = R undJ = (s, t)| − ∞ ≤ s ≤ t ≤ ∞ die
Kollektion aller offenen Intervalle. Die vonJ erzeugteσ-Algebra
B(R) := σ(J )
heißtBorel’scheσ-Algebra. Man prüft leicht nach, dassB(R) auch alle abgeschlossenen und
halboffenen Intervalle enthält. Die Borel’scheσ-Algebra wird auch erzeugt von der Kollektion
aller abgeschlossenen bzw. aller kompakten Intervall. Ebenso gilt:
B(R) = σ((−∞, c]|c ∈ R)
Allgemeiner definieren wir:
Definition. SeiΩ ein topologischer Raum (also z.B. ein metrischer Raum wieRn, C([0, 1],R)
etc.), und seiτ die Kollektion aller offenen Teilmengen vonΩ (dieTopologie). Die vonτ erzeugte
σ-Algebra
B(Ω) := σ(τ)
heißtBorel’scheσ-Algebra aufΩ.
Wieder verifiziert man, dassB(Ω) auch von den abgeschlossenen Teilmengen erzeugt wird. Im
FallΩ = R ergibt sich die oben definierte, von den Intervallen erzeugte,σ-Algebra.
Bemerkung. Nicht jede Teilmenge vonR ist in der Borelschenσ-AlgebraB(R) enthalten - ein
Beispiel wird in den Übungen gegeben.
Trotzdem enthältB(R) so gut wie alle Teilmengen vonR, die in Anwendungsproblemen auf-
treten; z.B. alle offenen und abgeschlossenen Teilmengen von R, sowie alle Mengen, die durch
Bildung von abzählbar vielen Vereinigungen, Durchschnitten und Komplementbildungen daraus
entstehen.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 115
Beispiel(Produkt σ-Algebra auf 0, 1N). EineZylindermengeauf dem Folgenraum
Ω = 0, 1N = (ω1, ω2, . . .) : ωi ∈ 0, 1
ist eine TeilmengeA vonΩ von der Form
A = ω ∈ Ω : ω1 = a1, ω2 = a2, . . . , ωn = an, n ∈ N, a1, . . . , an ∈ 0, 1.
In Beispiel 4.2 von oben betrachten wir die von der KollektionC aller Zylindermengen erzeugte
σ-AlgebraA = σ(C ) auf0, 1N. A heißtProdukt-σ-Algebra aufΩ.
Allgemeiner seiI eine beliebige Menge, undΩ =∏i∈I
Ωi eine Produktmenge (mit endlich, ab-
zählbar, oder sogar überabzählbar vielen FaktorenΩi, i ∈ I).
Definition. SindAi, i ∈ I σ-Algebren aufΩi, dann heißt die von der KollektionC aller Zylin-
dermengen
ω = (ωi)i∈I ∈ Ω : ωi1 ∈ Ai1 , ωi2 ∈ Ai2 , . . . , ωin ∈ Ain,
n ∈ N, i1, . . . , in ∈ I, Ai1 ∈ Ai1 , . . . , Ain ∈ Ain , erzeugteσ-Algebra
A =⊗
i∈IAi := σ(C )
Produktσ-Algebra aufΩ.
Man kann nachprüfen, dass die etwas anders definierte Produkt-σ-Algebra aus Beispiel 4.2 ein
Spezialfall dieser allgemeinen Konstruktion ist.
Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen
Sei (Ω,A) ein messbarer Raum, d.h. Ω ist eine nichtleere Menge undA ⊆ P(Ω) eine σ-
Algebra. In der Regel sind die WahrscheinlichkeitenP [A] zunächst für EreignisseA aus einer
TeilmengeJ ⊆ A mit A = σ(J ) gegeben, z.B. für Intervalle bei Wahrscheinlichkeitsverteilun-
gen aufR. Es stellt sich die Frage, ob hierdurch bereits die Wahrscheinlichkeiten aller Ereignisse
in A eindeutig festgelegt sind, und ob sichP zu einer Wahrscheinlichkeitsverteilung aufA fort-
setzen lässt. Diese Fragen beantworten die folgenden beiden fundamentalen Sätze.
Definition. (1). Ein MengensystemJ ⊆ A heißtdurchschnittsstabil, falls
A,B ∈ J ⇒ A ∩ B ∈ J .
(2). J heißtAlgebra, falls
Universität Bonn Wintersemester 2009/2010
116 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
(a) Ω ∈ J
(b) A ∈ J ⇒ AC ∈ J
(c) A,B ∈ J ⇒ A ∪ B ∈ J .
Eine Algebra ist stabil unter endlichen Mengenoperationen(Bilden von endlichen Vereinigungen,
Durchschnitten und Komplementen). Insbesondere ist jede Algebra durchschnittsstabil.
Beispiel. (1). Die Kollektion aller offenen Intervalle ist eine durchschnittsstabile Teilmenge
vonB(R), aber keine Algebra. Dasselbe gilt für das MengensystemJ = (−∞, c]|c ∈ R.
(2). Die Kollektion aller endlichen Vereinigungen von beliebigen Teilintervallen vonR ist eine
Algebra.
Satz 4.6 (Eindeutigkeitssatz). Stimmen zwei WahrscheinlichkeitsverteilungenP und P auf
(Ω,A) überein auf einemdurchschnittsstabilen MengensystemJ ⊆ A, so auch aufσ(J ).
Den Satz werden wir am Ende dieses Abschnittes beweisen.
Beispiel. (1). Eine WahrscheinlichkeitsverteilungP aufB(R) ist eindeutig festgelegt durch die
WahrscheinlichkeitenP [(−∞, c]], c ∈ R.
(2). Die WahrscheinlichkeitsverteilungP im Modell der unendlich vielen Münzwürfe ist ein-
deutig festgelegt durch die Wahrscheinlichkeiten der Ausgänge der erstenn Würfe für alle
n ∈ N.
Nach dem Eindeutigkeitssatz 4.6 ist eine Wahrscheinlichkeitsverteilung durch die Wahrschein-
lichkeiten der Ereignisse aus einem durchschnittsstabilen Erzeugendensystem festgelegt. Um-
gekehrt zeigt der folgende Satz, dass sich eine auf einem ErzeugendensystemJ gegebeneσ-
additive Abbildung zu einem Maß auf derσ-Algebra fortsetzen lässt, fallsJ eine Algebra ist.
Satz 4.7(Fortsetzungssatz von Carathéodory). Ist J eine Algebra, undP : J → [0,∞] eine
σ-additive Abbildung, dann besitztP eine Fortsetzung zu einem Maß aufσ(J ).
Den Beweis dieses klassischen Resultats findet man in vielen Maßtheorie-, Analysis- bzw. Wahr-
scheinlichkeitstheorie-Büchern (siehe z. B. Williams: „Probability with martingales“, Appendix
A1). Wir verweisen hier auf die Analysisvorlesung, da für die weitere Entwicklung der Wahr-
scheinlichkeitstheorie in dieser Vorlesung der Existenzsatz zwar fundamental ist, das Beweisver-
fahren aber keine Rolle mehr spielen wird.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 117
Bemerkung. Ist P [Ω] = 1, bzw. allgemeinerP [Ω] < ∞, dann ist die Maßfortsetzung nach Satz
4.6 eindeutig, denn eine Algebra ist durchschnittsstabil.
Als Konsequenz aus dem Fortsetzungssatz erhält man:
Korollar 4.8 (Existenz und Eindeutigkeit der kontinuierlichen Gleichverteilung). Es exis-
tiert genau eine WahrscheinlichkeitsverteilungU(0,1) aufB((0, 1)) mit
U(0,1)[(a, b)] = b− a für alle 0 < a ≤ b < 1. (4.2.4)
Zum Beweis ist noch zu zeigen, dass die durch (4.2.4) definierte AbbildungU(0,1) sich zu ei-
nerσ-additiven Abbildung auf die von den offenen Intervallen erzeugte AlgebraA0 aller endli-
chen Vereinigungen von beliebigen (offenen, abgeschlossenen, halboffenen) Teilintervallen von
(0, 1) fortsetzen lässt. Wie die Fortsetzung aufA0 aussieht, ist offensichtlich - der Beweis der
σ-Additivität ist etwas aufwändiger. Wir verweisen dazu wieder auf die Analysisvorlesung, bzw.
den Appendix A1 in Williams: „Probability with martingales.“
Bemerkung. (1). Auf ähnliche Weise folgt die Existenz und Eindeutigkeit des durch
λ[(a1, b1)× . . .× (ad, bd)] =d∏
i=1
(bi − ai) für alleai, bi ∈ R mit ai ≤ bi
eindeutig festgelegten Lebesguemaßesλ aufB(Rd), siehe Analysis III. Man beachte, dass
wegenλ[Rd] = ∞ eine Reihe von Aussagen, die wir für Wahrscheinlichkeitsverteilungen
beweisen werden, nicht für das Lebesguemaß aufRd gelten!
(2). Auch die Existenz der Wahrscheinlichkeitsverteilungen im Modell für unendlich viele faire
Münzwürfe kann man mithilfe des Satzes von Carathéodory zeigen. Wir werden diese
Wahrscheinlichkeitsverteilung stattdessen unmittelbaraus der GleichverteilungU(0,1) kon-
struieren.
Zum Abschluss dieses Abschnitts beweisen wir nun den Eindeutigkeitssatz. Dazu betrachten wir
das Mengensystem
D := A ∈ A | P [A] = P [A] ⊇ J .
Zu zeigen ist:D ⊇ σ(J ).
Dazu stellen wir fest, dassD folgende Eigenschaften hat:
(i) Ω ∈ D
Universität Bonn Wintersemester 2009/2010
118 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
(ii) A ∈ D ⇒ Ac ∈ D
(iii) A1, A2, . . . ∈ D paarweise disjunkt⇒ ⋃Ai ∈ D
Definition. Ein MengensystemD ⊆ P(Ω) mit (i) - (iii) heißt Dynkinsystem.
Bemerkung. Für ein DynkinsystemD gilt:
A,B ∈ D , A ⊆ B ⇒ B\A = B ∩ AC = (BC ∪ A︸ ︷︷ ︸)C
disjunkt
∈ D
Lemma 4.9. Jedes∩ - stabile DynkinsystemD ist eineσ - Algebra.
Beweis.FürA,B ∈ D gilt:
A ∪ B = A ∪↑
disjunkt
∈D falls ∩−stabil
(B\(︷ ︸︸ ︷A ∩B)︸ ︷︷ ︸)
∈D nach Bem.
∈ D.
Hieraus folgt fürA1, A2, . . . ∈ D durch Induktion
Bn :=n⋃
i=1
Ai ∈ D,
und damit ∞⋃
i=1
Ai =∞⋃
n=1
Bn =∞⋃
n=1↑
disjunkt
(Bn\Bn−1︸ ︷︷ ︸)∈D nach Bem.
∈ D.
Lemma 4.10.IstJ ein∩ - stabiles Mengensystem , so stimmtdas vonJ erzeugte Dynkinsystem
D(J ) :=⋂
D Dynkinsystem
D⊇J
D
mit der vonJ erzeugtenσ - Algebraσ(J ) überein.
Aus Lemma (4.10) folgt der Eindeutigkeitssatz, dennA ∈ A |P [A] = P [A] ist ein Dynkin-
system, dasJ enthält, und somit gilt nach dem Lemma
A ∈ A |P [A] = P [A] ⊇ D(J ) = σ(J ),
fallsJ durchschnittsstabil ist.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 119
Beweis.(von Lemma (4.10))
Jedeσ - Algebra ist ein Dynkinsystem, also giltD(J ) ⊆ σ(J ).
Es bleibt zu zeigen, dassD(J ) eineσ - Algebra ist (hieraus folgt dannD(J ) = σ(J )). Nach
dem ersten Lemma ist dies der Fall, wennD(J ) durchschnittsstabil ist. Dies zeigen wir nun in
zwei Schritten:
Schritt 1: B ∈ J , A ∈ D(J ) ⇒ A ∩ B ∈ D(J )
Beweis: DB := A ∈ A |A ∩B ∈ D(J ) ⊇ J ist ein Dynkinsystem. Z.B. gilt
A ∈ DB ⇒ A ∩B ∈ D(J )
⇒ AC ∩ B = B↑
∈D(J )
\ (A ∩ B︸ ︷︷ ︸)∈D(J )
Bem.∈ D(J )
⇒ AC ∈ DB usw.
Also gilt DB ⊇ D(J ), und damitA ∩ B ∈ D(J ) für alleA ∈ D(J ).
Schritt 2: A,B ∈ D(J ) ⇒ A ∩ B ∈ D(J )
Beweis: DA := B ∈ A | A ∩ B ∈ D(J ) ⊇ J nach Schritt 1. Zudem istDA ein
Dynkinsystem (Beweis analog zu Schritt 1), also giltDA ⊇ D(J ).
4.3 Allgemeine Zufallsvariablen und ihre Verteilung
Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Wir wollen nun ZufallsvariablenX : Ω → S mit
Werten in einem allgemeinen messbaren Raum(S,S) betrachten. Beispielsweise istS = R oder
S = Rd undS ist die Borelscheσ-Algebra. Oft interessieren uns die Wahrscheinlichkeitenvon
Ereignissen der Form
X ∈ B = ω ∈ Ω|X(ω) ∈ B = X−1(B),
„Der Wert der ZufallsgrößeX liegt inB“
wobeiB ⊆ S eine Menge aus derσ-AlgebraS auf dem Bildraum ist, also z.B. ein Intervall oder
eine allgemeinere Borelmenge, fallsS = R gilt.
Wir erweitern dementsprechend die zuvor eingeführten Konzepte einer Zufallsvariablen und ihrer
Verteilung.
Universität Bonn Wintersemester 2009/2010
120 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Allgemeine Zufallsvariablen
Definition. Eine AbbildungX : Ω → S heißtmessbar bzgl.A/S, falls
(M) X−1(B) ∈ A für alleB ∈ S.
EineZufallsvariable ist eine auf einem Wahrscheinlichkeitsraum definierte messbare Abbildung.
Bemerkung. (1). IstΩ abzählbar undA = P(Ω), dann ist jede AbbildungX : Ω → S eine
Zufallsvariable.
(2). IstS abzählbar undS = P(S), dann istX genau dann eine Zufallsvariable, falls
X = a = X−1(a) ∈ A für allea ∈ S
gilt. Dies ist gerade die Definition einer diskreten Zufallsvariable von oben.
Stimmt dieσ-AlgebraS nicht mit der PotenzmengeP(S) überein, dann ist es meist schwierig,
eine Bedingung(M) für alle MengenB ∈ S explizit zu zeigen. Die folgenden Aussagen liefern
handhabbare Kriterien, mit denen man in fast allen praktisch relevanten Fällen sehr leicht zeigen
kann, dass die zugrunde liegenden Abbildungen messbar sind. Wir bemerken zunächst, dass es
genügt die Bedingung(M) für alle Mengen aus einem ErzeugendensystemJ derσ-AlgebraSzu überprüfen:
Lemma 4.11.SeiJ ⊆ P(S) mit S = σ(J ). Dann gilt(M) bereits, falls
X−1(B) ∈ A für alleB ∈ J .
Beweis.Das MengensystemB ∈ S|X−1(B) ∈ A ist eineσ-Algebra, wie man leicht nach-
prüft. Diese enthältJ nach Voraussetzung, also enthält sie auch die vonJ erzeugteσ-Algebra
S.
Korollar (Reellwertige Zufallsvariablen). Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Eine
AbbildungX : Ω → R ist genau dann eine Zufallsvariable bzgl. der Borelschenσ-Algebra,
wenn
X ≤ c = ω ∈ Ω | X(ω) ≤ c ∈ A ∀ c ∈ R, bzw. wenn
X < c = ω ∈ Ω | X(ω) < c ∈ A ∀ c ∈ R.
Beweis.Es gilt X ≤ c = X−1((−∞, c]). Die Intervalle(−∞, c], c ∈ R, erzeugenB(R), also
folgt die erste Aussage. Die zweite Aussage zeigt man analog.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 121
Beispiel(Indikatorfunktionen ). Für eine MengeA ⊆ Ω gilt:
IA ist Zufallsvariable⇔ A ∈ A,
denn
IA ≤ c =
∅ falls c < 0
Ω falls c ≥ 1
AC falls 0 ≤ c < 1
,
undAC ist genau dann inA enthalten, wennA in A enthalten ist.
Korollar (Stetige Abbildungen sind messbar). SeienΩ undS topologische Räume, undA,Sdie Borelschenσ-Algebren. Dann gilt:
X : Ω → S stetig ⇒ X messbar.
Beweis.SeiJ die Topologie vonS, d.h. die Kollektion aller offenen Teilmengen vonS. Nach
Definition der Borelschenσ-Algebra giltS = σ(J ). Wegen
B ∈ J ⇒ B offenX stetig=⇒ X−1(B) offen =⇒ X−1(B) ∈ A
folgt die Behauptung.
Kompositionen von messbaren Abbildungen sind wieder messbar:
Lemma 4.12. Sind(Ω1,A1), (Ω2,A2) und (Ω3,A3) messbare Räume, und istX1 : Ω1 → Ω2
messbar bzgl.A1/A2 undX2 : Ω2 → Ω3 messbar bzgl.A2/A3, dann istX2 X1 messbar bzgl.
A1/A3.
Ω1X1−→ Ω2
X2−→ Ω3
A1 A2 A3
Beweis.FürB ∈ A3 gilt (X2 X1)−1(B) = X−1
1 (X−12 (B)︸ ︷︷ ︸∈A2
) ∈ A1.
Beispiel. (1). IstX : Ω → R eine reellwertige Zufallsvariable undf : R → R eine messbare
(z.B. stetige) Funktion, dann ist auch
f(X) := f X : Ω → R
wieder eine reellwertige Zufallsvariable. Beispielsweisesind|X|, |X|p, eX usw. Zufallsva-
riablen.
Universität Bonn Wintersemester 2009/2010
122 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
(2). SindX, Y : Ω → R reellwertige Zufallsvariablen, dann ist(X, Y ) : ω 7→ (X(ω), Y (ω))
eine messbare Abbildung in denR2 mit Borelscherσ-Algebra.
Da die Abbildung(x, y) 7→ x + y stetig ist, istX + Y wieder eine reellwertige Zufallsva-
riable. Dies sieht man auch direkt wie folgt: Fürc ∈ R gilt:
X + Y < c ⇐⇒ ∃ r, s ∈ Q : r + s < c,X < r undY < s,
also
X + Y < c =⋃
r,s∈Qr+s<c
(X < r ∩ Y < s) ∈ A
Verteilungen von Zufallsvariablen
Um Zufallsexperimente zu analysieren, müssen wir wissen, mit welchen Wahrscheinlichkeiten
die relevanten Zufallsvariablen Werte in bestimmten Bereichen annehmen. Dies wird durch die
Verteilung beschrieben. Seien(Ω,A) und(S,S) messbare Räume.
Satz 4.13(Bild einer Wahrscheinlichkeitsverteilung unter einer ZV). IstP eine Wahrschein-
lichkeitsverteilung auf(Ω,A), undX : Ω → S messbar bzgl.A/S, dann ist durch
µX(B) := P [X ∈ B] = P [X−1(B)] (B ∈ S)
eine Wahrscheinlichkeitsverteilung auf(S,S) definiert.
Beweis. (1). µX(S) = P [X−1(S)] = P [Ω] = 1
(2). SindBn ∈ S, n ∈ N, paarweise disjunkte Mengen, dann sind auch die UrbilderX−1(Bn),
n ∈ N, paarweise disjunkt. Also gilt wegen derσ-Additivität vonP :
µX
[⋃
n
Bn
]= P
[X−1
(⋃
n
Bn
)]= P
[⋃
n
X−1(Bn)
]=∑
n
P [X−1(Bn)] =∑
n
µX [Bn].
Definition. Die WahrscheinlichkeitsverteilungµX auf (S,S) heißt Bild von P unter X oder
Verteilung (law) vonX unter P .
FürµX werden häufig auch die folgenden Notationen verwendet:
µX = P X−1 = LX = PX = X(P )
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 123
Charakterisierung der Verteilung
• Diskrete Zufallsvariablen:
Die VerteilungµX einer diskreten Zufallsvariablen ist eindeutig durch dieMassenfunktion
pX(a) = P [X = a] = µX [a], a ∈ S,
festgelegt.
• Reelle Zufallsvariablen
Die VerteilungµX einer reellwertigen ZufallsvariablenX : Ω → R ist eine Wahrschein-
lichkeitsverteilung aufB(R). Sie ist eindeutig festgelegt durch die Wahrscheinlichkeiten
µX [(−∞, c]] = P [X ≤ c], c ∈ R,
da die Intervalle(−∞, c], c ∈ R, ein durchschnittsstabiles Erzeugendensystem der Borel-
schenσ-Algebra bilden.
Definition. Die FunktionFX : R → [0, 1],
FX(c) := P [X ≤ c] = µX [(−∞, c]]
heißt Verteilungsfunktion (distribution function) der ZufallsvariableX : Ω → R bzw. der
WahrscheinlichkeitsverteilungµX auf (R,B(R)).
Beispiel (Kontinuierliche Gleichverteilung). Seiena, b ∈ R mit a < b. Eine Zufallsvariable
X : Ω → R ist gleichverteilt auf dem Intervall(a, b), falls
FX(c) = P [X ≤ c] = U(a,b)[(a, c)] =c− a
b− afür alle c ∈ (a, b)
gilt. Eine auf(0, 1) gleichverteilte Zufallsvariable ist zum Beispiel die Identität
U(ω) = ω
auf dem Wahrscheinlichkeitsraum(Ω,A, P ) = ((0, 1),B((0, 1)),U(0,1)). IstU gleichverteilt auf
(0, 1), dann ist die Zufallsvariable
X(ω) = a+ (b− a)U(ω)
gleichverteilt auf(a, b).
Universität Bonn Wintersemester 2009/2010
124 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beispiel(Exponentialverteilung). Angenommen, wir wollen die Wartezeit auf das erste Eintreten
eines unvorhersehbaren Ereignisses (radioaktiver Zerfall, Erdbeben, . . . ) mithilfe einer Zufallsva-
riableT : Ω → (0,∞) beschreiben. Wir überlegen uns zunächst, welche Verteilung zur Model-
lierung einer solchen Situation angemessen sein könnte. Umdie WahrscheinlichkeitP [T > t] zu
approximieren, unterteilen wir das Intervall(0, t] in eine große Anzahln ∈ N von gleich großen
Intervallen( (k−1)tn
, ktn], 1 ≤ k ≤ n.
0 t(k − 1)t
n
kt
n
Abbildung 4.6: Unterteilung des Intervalls(0, t] in n Teile.
SeiAk das Ereignis, dass das unvorhersehbare Geschehen im Zeitraum ( (k−1)tn
, ktn] eintritt. Ein
nahe liegender Modellierungsansatz ist anzunehmen, dass die EreignisseAk unabhängig sind mit
Wahrscheinlichkeit
P [Ak] ≈ λt
n,
wobeiλ > 0 die „Intensität“, d.h. die mittlere Häufigkeit des Geschehens pro Zeiteinheit, be-
schreibt, und die Approximation fürn→ ∞ immer genauer wird. Damit erhalten wir:
P [T > t] = P [AC1 ∩ . . . ∩ AC
n ] ≈(1− λt
n
)n
für großesn.
Fürn→ ∞ konvergiert die rechte Seite gegene−λt.
Daher liegt folgende Definition nahe:
Definition. Eine ZufallsvariableT : Ω → [0,∞) heißtexponentialverteilt zum Parameterλ>0,
falls
P [T > t] = e−λt für alle t ≥ 0 gilt.
Die Exponentialverteilung zum Parameterλ ist dementsprechend die Wahrscheinlichkeitsver-
teilungµ = Exp(λ) auf (R,B(R)) mit
µ[(t,∞)] = e−λt für alle t ≥ 0,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 125
bzw. mit Verteilungsfunktion
F (t) = µ[(−∞, t]] =
1− e−λt für t ≥ 0
0 für t < 0.(4.3.1)
Nach dem Eindeutigkeitssatz ist dieExp(λ)-Verteilung durch (4.3.1) eindeutig festgelegt.
Wir konstruieren nun explizit eine exponentialverteilte Zufallsvariable. Dazu bemerken wir, dass
T : Ω → R genau dann exponentialverteilt mit Parameterλ ist, wenn
P [e−λT < u] = P
[T > −1
λlog u
]= e
λλlog u = u
für alle u ∈ (0, 1) gilt, d.h. wenne−λT auf (0, 1) gleichverteilt ist. Also können wir eine expo-
nentialverteilte Zufallsvariable konstruieren, indem wir umgekehrt
T := −1
λlogU U ∼ U(0,1)
setzen. Insbesondere ergibt sich die folgende Methode zur Simulation einer exponentialverteilten
Zufallsvariable:
Algorithmus 4.14 (Simulation einer exponentialverteilten Stichprobe).
Input: Intensitätλ > 0
Output: Stichprobex vonExp(λ)
(1). Simuliereu ∼ U(0,1)
(2). Setzex := − 1λlog u
Wir werden in Abschnitt 4.5 zeigen, dass mit einem entsprechenden Verfahren beliebige reel-
le Zufallsvariablen konstruiert und simuliert werden können. Zum Abschluss dieses Abschnitts
zeigen wir noch eine bemerkenswerte Eigenschaft exponentialverteilter Zufallsvariablen:
Satz 4.15(Gedächtnislosigkeit der Exponentialverteilung). IstT exponentialverteilt, dann gilt
für alle s, t ≥ 0:
P [T − s > t|T > s] = P [T > t].
Hierbei istT − s die verbleibende Wartezeit auf das erste Eintreten des Ereignisses. Also:
Auch wenn man schon sehr lange vergeblich gewartet hat,
liegt das nächste Ereignis nicht näher als am Anfang!
Universität Bonn Wintersemester 2009/2010
126 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beweis.
P [T−s > t|T > s] =P [T − s > t undT > s]
P [T > s]=P [T > s+ t]
T > s=e−λ(t+s)
e−λs= e−λt = P [T > t].
4.4 Wahrscheinlichkeitsverteilungen aufR
In diesem und im nächsten Abschnitt beschäftigen wir uns systematischer mit der Beschreibung,
Konstruktion und Simulation reellwertiger Zufallsvariablen. Wir notieren dazu zunächst einige
grundlegende Eigenschaften der Verteilungsfunktion
F (c) = P [X ≤ c]
einer auf einem Wahrscheinlichkeitsraum(Ω,A, P ) definierten ZufallsvariableX : Ω → R.
Wir werden im nächsten Abschnitt sehen, dass umgekehrt jedeFunktion mit den Eigenschaften
(1)-(3) aus Satz 4.16 die Verteilungsfunktion einer reellen Zufallsvariable ist.
Eigenschaften der Verteilungsfunktion
Satz 4.16.Für die VerteilungsfunktionF : R → [0, 1] einer reellwertigen ZufallsvariableX gilt:
(1). F ist monoton wachsend,
(2). limc→−∞
F (c) = 0 und limc→∞
F (c) = 1,
(3). F ist rechtsstetig, d.h.F (c) = limyցc
F (y) für alle c ∈ R,
(4). F (c) = limyրc
F (y) + µX [c].Insbesondere istF stetig beic, fallsµX [c] = 0 gilt.
Beweis.Die Aussagen folgen unmittelbar aus der monotonen Stetigkeit und Normiertheit der
zugrundeliegenden WahrscheinlichkeitsverteilungP . Der Beweis der Eigenschaften (1)-(3) wird
dem Leser als Übung überlassen. Zum Beweis von (4) bemerken wir, dass füry < c gilt:
F (c)− F (y) = P [X ≤ c]− P [X ≤ y] = P [y < X ≤ c].
Für eine monoton wachsende Folgeyn ր c erhalten wir daher aufgrund der monotonen Stetigkeit
vonP :
F (c)− limn→∞
F (yn) = limn→∞
P [yn < X ≤ c] = P
[⋂
n
yn < X ≤ c]
= P [X = c] = µX [c].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 127
Da dies für alle Folgenyn ր c gilt, folgt die Behauptung.
Im Folgenden betrachten wir einige Beispiele von eindimensionalen Verteilungen und ihren Ver-
teilungsfunktionen.
Diskrete Verteilungen
Die Verteilungµ einer reellen ZufallsvariableX heißt diskret, wennµ[S] = 1 für eine abzählbare
MengeS gilt.
Beispiele. (1). BERNOULLI-VERTEILUNG MIT PARAMETER p ∈ [0, 1]:
µ[1] = p, µ[0] = 1− p.
Als Verteilungsfunktion ergibt sich
F (c) =
0 für c < 0
1− p für c ∈ [0, 1)
1 für c ≥ 1.
1
1
1− p
µX
1
1
1− p
F
Abbildung 4.7: Massen- und Verteilungsfunktion einerBer(p)-verteilten Zufallsvariablen.
(2). GEOMETRISCHEVERTEILUNG MIT PARAMETER p ∈ [0, 1]:
µ[k] = (1− p)k−1 · p für k ∈ N.
Für eine geometrisch verteilte ZufallsvariableT gilt:
F (c) = P [T ≤ c] = 1− P [T > c]︸ ︷︷ ︸=P [T>⌊c⌋]
= 1− (1− p)⌊c⌋ für c ≥ 0,
wobei⌊c⌋ := maxn ∈ Z | n ≤ c der ganzzahlige Anteil vonc ist.
Universität Bonn Wintersemester 2009/2010
128 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
1
1 2 3 4 5 6 7
1
1 2 3 4 5 6 7
F
Abbildung 4.8: Massen- und Verteilungsfunktion einerGeom(12)-verteilten Zufallsvariablen.
(3). BINOMIALVERTEILUNG MIT PARAMETERN n UND p:
µ[k] =(n
k
)pk(1− p)n−k für k = 0, 1, . . . , n
Somit ist die Verteilungsfunktion vonBin(n, p):
F (c) =
⌊c⌋∑
k=0
(n
k
)pk(1− p)n−k
0.05
0.10
0.15
−0.05
−0.10
10 20 30 40 50
Abbildung 4.9: Massenfunktion einerBin(55, 0.6)-verteilten Zufallsvariable.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 129
0.10.20.30.40.50.60.70.80.91.0
−0.1 10 20 30 40 50
Abbildung 4.10: Verteilungsfunktion vonBin(55, 0.6)
Allgemein sind die Unstetigkeitsstellen der VerteilungsfunktionF einer reellwertigen Zufallsva-
riableX nach Satz 4.16 (4) gerade dieAtomeder Verteilung, d.h. diec ∈ R mit µX [c] > 0.
NimmtX nur endlich viele Werte in einem IntervallI an, dann istF auf I stückweise konstant,
und springt nur bei diesen Werten.
Stetige Verteilungen
Die Verteilungµ einer reellen ZufallsvariableX heißtstetig, bzw.absolutstetig, falls eine inte-
grierbare Funktionf : R → [0,∞) existiert mit
F (c) = P [X ≤ c] = µ[(−∞, c]] =
c∫
−∞
f(x) dx für alle c ∈ R. (4.4.1)
Das Integral ist dabei im Allgemeinen als Lebesgueintegralzu interpretieren. Ist die Funktionf
stetig, dann stimmt dieses mit dem Riemannintegral überein.Daµ eine Wahrscheinlichkeitsver-
teilung ist, folgt, dassf eineWahrscheinlichkeitsdichte ist, d.h.f ≥ 0 und∫
R
f(x) = 1.
Definition. Eine Lebesgue-integrierbare Funktionf : R → [0,∞) mit (4.4.1) heißtDichtefunk-
tion der ZufallsvariableX bzw. der Verteilungµ.
Bemerkung. (1). Nach dem Hauptsatz der Differential- und Integralrechnung gilt
F ′(x) = f(x) (4.4.2)
Universität Bonn Wintersemester 2009/2010
130 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
für allex ∈ R, falls f stetig ist. Im Allgemeinen gilt (4.4.2) fürλ-fast allex, wobeiλ das
Lebesguemaß aufR ist.
(2). Aus (4.4.1) folgt aufgrund der Eigenschaften des Lebesgueintegrals (s. Kapitel 6 unten):
P [X ∈ B] = µX [B] =
∫
B
f(x) dx, (4.4.3)
für alle MengenB ∈ B(R). Zum Beweis zeigt man, dass beide Seiten von (4.4.3) Wahr-
scheinlichkeitsverteilungen definieren, und wendet den Eindeutigkeitssatz an.
Beispiele. (1). GLEICHVERTEILUNG AUF (a, b) (−∞ < a < b <∞).
f(x) =1
b− aI(a,b)(x), F (c) =
0 für c ≤ a
c−ab−a
für a ≤ c ≤ b
1 für c ≥ b
.
1
1 2 3
Abbildung 4.11: Dichtef(x) = 1[1,3](x) einer uniform auf[1, 3] verteilten Zufallsvariable (blau),
und deren VerteilungsfunktionF (c) (rot)
Affine Funktionen von gleichverteilten Zufallsvariablen sind wieder gleichverteilt.
(2). EXPONENTIALVERTEILUNG MIT PARAMETER λ > 0.
f(x) = λe−λxI(0,∞)(x),
F (c) = µ[(−∞, c]] = (1− e−λc)+ =
∫ ∞
c
f(x)dx.
Ist T eine exponentialverteilte Zufallsvariable zum Parameterλ, unda > 0, dann istaT
exponentialverteilt zum Parameterλa, denn
P [aT > c] = P [T >c
a] = e−
λac für alle c ≥ 0.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 131
1
1 2 3 4 5
Abbildung 4.12: Dichtef(x) = 1[0,∞)(x) · e−x einer zum Parameter1 exponentialverteilten
Zufallsvariable (blau) und deren VerteilungsfunktionF (c) (rot)
(3). NORMALVERTEILUNGEN
Wegen∞∫
−∞e−z2/2dz =
√2π ist die „Gaußsche Glockenkurve“
f(z) =1√2πe−z2/2, z ∈ R,
eine Wahrscheinlichkeitsdichte. Eine stetige ZufallsvariableZ mit Dichtefunktionf heißt
standardnormalverteilt. Die Verteilungsfunktion
Φ(c) =
c∫
−∞
1√2πe−
z2
2 dz
der Standardnormalverteilung ist i.A. nicht explizit berechenbar. IstZ standardnormalver-
teilt, und
X(ω) = σZ(ω) +m
mit σ > 0,m ∈ R, dann istX eine Zufallsvariable mit Verteilungsfunktion
FX(c) = P [X ≤ c] = P
[Z ≤ c−m
σ
]= Φ
(c−m
σ
).
Mithilfe der Substitutionz = x−mσ
erhalten wir:
FX(c) =
c−mσ∫
−∞
1√2πe−
z2
2 dz =
c∫
−∞
1√2πσ2
e−12(
x−mσ )
2
dx
Definition. Die WahrscheinlichkeitsverteilungN(m,σ2) aufR mit Dichtefunktion
fm,σ(x) =1√2πσ2
· e− 12(
x−mσ )
2
heißtNormalverteilung mit Mittelm und Varianzσ2. Die VerteilungN(0, 1) heißtStan-
dardnormalverteilung.
Universität Bonn Wintersemester 2009/2010
132 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Wir werden im nächsten Abschnitt sehen, dass die Binomialverteilung (also die Verteilung
der Anzahl der Erfolge bei unabhängigen 0-1-Experimenten mit Erfolgswahrscheinlichkeit
p) für großen näherungsweise durch eine Normalverteilung beschrieben werden kann.
Entsprechendes gilt viel allgemeiner für die Verteilungenvon Summen vieler kleiner un-
abhängiger Zufallsvariablen (Zentraler Grenzwertsatz, s.u.).
m− 3σ m− 2σ m− σ m m+ σ m+ 2σ m+ 3σ
Abfall um Faktore−12
e−2
e−92
Abbildung 4.13: Dichte einer normalverteilten Zufallsvariable mit Mittelwertm und Varianzσ2.
m− 3σ m− 2σ m− σ m m+ σ m+ 2σ m+ 3σ
Abbildung 4.14: Verteilungsfunktion einer normalverteilten Zufallsvariable mit Mittelwertm und
Varianzσ2.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 133
Die Dichte der Normalverteilung ist an der Stellem maximal, und klingt außerhalb einer
σ-Umgebung vonm rasch ab. Beispielsweise gilt
fm,σ(m± σ) =fm,σ(m)√
e
fm,σ(m± 2σ) =fm,σ(m)
e2
fm,σ(m± 3σ) =fm,σ(m)
e9/2
Für die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable Werte außerhalb der
σ-, 2σ- und3σ-Umgebungen annimmt, erhält man:
P [|X −m| > kσ] = P
[∣∣∣∣X −m
σ
∣∣∣∣ > k
]
= P [|Z| > k] = 2P [Z > k] = 2(1− Φ(k))
=
31.7% für k = 1
4.6% für k = 2
0.26% für k = 3
Eine Abweichung der Größeσ vom Mittelwertm ist also für eine normalverteilte Zufalls-
variable relativ typisch, eine Abweichung der Größe3σ dagegen schon sehr selten.
Die folgenden expliziten Abschätzungen für die Wahrscheinlichkeiten großer Werte sind oft nütz-
lich:
Lemma 4.17.Für eine standardnormalverteilte ZufallsvariableZ gilt:
(2π)−1/2 ·(1
y− 1
y3
)· e−y2/2 ≤ P [Z ≥ y] ≤ (2π)−1/2 · 1
y· e−y2/2 ∀y > 0
Beweis.Es gilt:
P [Z ≥ y] = (2π)−1/2
∞∫
y
e−z2/2 dz
Um das Integral abzuschätzen, versuchen wir approximativeStammfunktionen zu finden. Zu-
nächst gilt:d
dz
(−1
ze−z2/2
)=
(1 +
1
z2
)· e−z2/2 ≥ e−z2/2 ∀z ≥ 0,
Universität Bonn Wintersemester 2009/2010
134 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
also1
ye−z2/2 =
∞∫
y
(1
ye−z2/2
)dz ≥
∞∫
y
e−z2/2 dz,
woraus die obere Schranke fürP [Z ≥ y] folgt.
Für die untere Schranke approximieren wir die Stammfunktion noch etwas genauer. Es gilt:
d
dz
((−1
z+
1
z3
)e−z2/2
)=
(1 +
1
z2− 1
z2− 3
z4
)e−z2/2 ≤ e−z2/2,
und damit (1
y− 1
y3
)e−y2/2 ≤
∞∫
y
e−z2/2 dz.
Für eineN(m,σ2)-verteilte ZufallsvariableX mit σ > 0 ist Z = X−mσ
standardnormalverteilt.
Also erhalten wir füry ≥ m:
P [X ≥ y] = P
[X −m
σ≥ y −m
σ
]≤ 1
y −m· (2πσ)−1/2 · e−
(y−m)2
2σ2 ,
sowie eine entsprechende Abschätzung nach unten.
Transformation von absolutstetigen Zufallsvariablen
Wir haben in Beispielen bereits mehrfach die Verteilung von Funktionen von absolutstetigen
Zufallsvariablen berechnet. Sei nun allgemeinI ⊆ R ein offenes Intervall, undX : Ω → I eine
Zufallsvariable mit stetiger Verteilung.
Satz 4.18(Eindimensionaler Dichtetransformationssatz). Ist Φ : I → J einmal stetig diffe-
renzierbar mitΦ′(x) 6= 0 für alle x ∈ I, dann ist die Verteilung vonΦ(X) absolutstetig mit
Dichte
fΦ(X)(y) =
fX(Φ
−1(y)) · |(Φ−1)′(y)| für y ∈ Φ(I)
0 sonst. (4.4.4)
Beweis.Nach der Voraussetzung gilt entwederΦ′ > 0 auf I oderΦ′ < 0 auf I. Wir betrachten
nur den ersten Fall. AusΦ′ > 0 folgt, dassΦ streng monoton wachsend ist, also eine Bijektion
von I nachΦ(I). Daher erhalten wir
FΦ(X)(c) = P [Φ(X) ≤ c] = P [X ≤ Φ−1(I)] = FX(Φ−1(c))
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 135
für alle c ∈ Φ(I). Nach der Kettenregel ist dannFΦ(X) für fast allec ∈ Φ(I) differenzierbar, und
es gilt
F ′Φ(X)(c) = fX(Φ
−1(c)) · (Φ−1)′(c).
Die Behauptung folgt hieraus nach dem Hauptsatz der Differential- und Integralrechnung, da
P [Φ(x) 6∈ Φ(I)] = 0.
Beispiel(Geometrische Wahrscheinlichkeiten). Seiθ : Ω → [0, 2π) ein zufälliger, auf[0, 2π)
gleichverteilter, Winkel. Wir wollen die Verteilung voncos θ berechnen. Da die Kosinusfunktion
auf [0, 2π) nicht streng monoton ist, ist (4.4.4) nicht direkt anwendbar. Wir können aber das
Intervall [0, 2π) in die Teile[0, π) und [π, 2π) zerlegen, und dann die Verteilung ähnlich wie im
Beweis von Satz 4.18 berechnen. Wegen
P [cos θ > c] = P [cos θ > c und θ ∈ [0, π)] + P [cos θ > c und θ ∈ [π, 2π)]
= P [θ ∈ [0, arccos c)] + P [θ ∈ [π − arccos c, π)]
=2
2π· arccos c
erhalten wir, dasscos θ eine sogenannte „Halbkreisverteilung“ mit Dichte
fcos θ(x) = F ′cos θ(x) =
1
π· 1√
1− x2; x ∈ [−1, 1)
hat.
1
1−1
Abbildung 4.15: Abbildung der Dichtefunktionfcos θ
Universität Bonn Wintersemester 2009/2010
136 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Anstelle von (4.4.4) gilt in diesem Fall
fcos θ(x) = fX(ψ1(x)) · |ψ′1(x)|+ fX(ψ2(x)) · |ψ′
2(x)|,
wobeiψ1(x) = arccos x undψ2(x) = 2π − arccos x die Umkehrfunktionen auf den Teilinter-
vallen sind. Entsprechende Formeln erhält man auch allgemein, wenn die Transformation nur
stückweise bijektiv ist. Auf ähnliche Weise zeigt man füra > 0 (Übung):
fa tan θ(x) =1
πa· 1
1 + (x/a)2, x ∈ R.
0.2
0.4
1 2−1−2
Abbildung 4.16: Abbildung der Dichtefunktionfa tan θ
Die Verteilung mit dieser Dichte heißtCauchyverteilungzum Parametera. Sie beschreibt unter
anderem die Intensitätsverteilung auf einer Geraden, die von einer in alle Richtungen gleichmäßig
strahlenden Lichtquelle im Abstanda bestrahlt wird.
⊗
a · tan θ
a
θ
4.5 Quantile und Inversionsverfahren
Quantile sind Stellen, an denen die Verteilungsfunktion einen bestimmten Wert überschreitet.
Mithilfe von Quantilen kann man daher verallgemeinerte Umkehrfunktionen der im Allgemeinen
nicht bijektiven Verteilungsfunktion definieren. Diese Umkehrabbildungen werden wir nutzen,
um reellwertige Zufallsvariablen mit einer gegebenen Verteilungsfunktion explizit zu konstruie-
ren.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN 137
Quantile
In praktischen Anwendungen (z.B. Qualitätskontrolle) müssen häufig Werte berechnet werden,
sodass ein vorgegebener Anteil der Gesamtmasse einer Wahrscheinlichkeitsverteilung aufR un-
terhalb dieses Wertes liegt. SeiX : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeits-
raum(Ω,A, P ) mit VerteilungsfunktionF .
Definition. Seiu ∈ [0, 1]. Dann heißtq ∈ R einu-Quantil der Verteilung vonX, falls
P [X < q] ≤ u und P [X > q] ≤ 1− u
gilt. Ein 12-Quantil heißtMedian.
Ist die Verteilungsfunktion nicht streng monoton wachsend, dann kann es mehrereu-Quantile zu
einem Wertu geben.
Beispiel (Stichprobenquantile). Wir betrachten eine Stichprobe, die ausn reellwertigen Daten
/ Messwertenx1, . . . , xn mit x1 ≤ x2 ≤ . . . ≤ xn besteht. Dieempirische Verteilung der
Stichprobe ist die Wahrscheinlichkeitsverteilung
µ =1
n
n∑
i=1
δxi
auf (R,P(R)), d.h. fürB ⊆ R ist
µ[B] =1
n|xi ∈ B, 1 ≤ i ≤ n|
die relative Häufigkeit des BereichsB unter den Messwertenxi. Die empirische Verteilung ergibt
sich, wenn wir zufällig eini ∈ 1, . . . , n wählen, und den entsprechenden Messwert betrachten.
Die Quantile der empirischen Verteilung bezeichnet man alsStichprobenquantile. Füru ∈ [0, 1]
sei
ku := 1 + (n− 1)u ∈ [1, n].
Ist ku ganzzahlig, dann istxku das eindeutigeu-Quantil der Stichprobe. Allgemein ist jedesq ∈[x⌊ku⌋, x⌈ku⌉] einu-Quantil der Stichprobe, d.h. fürku 6∈ Z gibt es mehrereu-Quantile.
Wir definieren nun zwei verallgemeinerte Inverse einer VerteilungsfunktionF , die ja im Allge-
meinen nicht bijektiv ist. Füru ∈ (0, 1) sei
G(u) := infx ∈ R|F (x) ≥ u = supx ∈ R|F (x) < u
Universität Bonn Wintersemester 2009/2010
138 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
und
G(u) := infx ∈ R|F (x) > u = supx ∈ R|F (x) ≤ u.
Offensichtlich giltG(u) ≤ G(u). Ist die FunktionF stetig und streng monoton wachsend, also
eine Bijektion vonR nach(0, 1), dann giltG(u) = G(u) = F−1(u). Die FunktionG heißt daher
auch dielinksstetige verallgemeinerte InversevonF . Der folgende Satz zeigt, dassG(u) das
kleinste undG(u) das größteu-Quantil ist:
Satz 4.19.Für u ∈ (0, 1) undq ∈ R sind die folgenden Aussagen äquivalent:
(1). q ist einu-Quantil.
(2). F (q−) ≤ u ≤ F (q).
(3). G(u) ≤ q ≤ G(u).
Hierbei istF (q−) := limyրq
F (y) der linksseitige Limes vonF an der Stelleq.
Beweis.Nach Definition istq genau dann einu-Quantil, wenn
P [X < q] ≤ u ≤ 1− P [X > q] = P [X ≤ q]
gilt. Hieraus folgt die Äquivalenz von (1) und (2).
Um zu beweisen, dass (3) äquivalent zu diesen Bedingungen ist, müssen wir zeigen, dassG(u)
das kleinste undG(u) das größteu-Quantil ist. Wir bemerken zunächst, dassG(u) einu-Quantil
ist, da
F (G(u)−) = limxրG(u)
F (x)︸ ︷︷ ︸<u
für x<G(u)
≤ u,
und
F (G(u)) = limxցG(u)
F (x)︸ ︷︷ ︸≥u
für x>G(u)
≥ u.
Andererseits gilt fürx < G(u):
F (x) < u,
d.h.x ist keinu-Quantil. Somit istG(u) das kleinsteu-Quantil. Auf ähnliche Weise folgt, dass
G(u) das größteu-Quantil ist (Übung!).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN 139
Konstruktion und Simulation reellwertiger Zufallsvariablen
Wie erzeugt man ausgehend von auf(0, 1) gleichverteilten Zufallszahlen Stichproben von ande-
ren Verteilungenµ aufR1?
Endlicher Fall: Gilt µ(S) = 1 für eine endliche TeilmengeS ⊆ R, dann können wir die Frage
leicht beantworten: SeiS = x1, . . . , xn ⊆ R mit n ∈ N und x1 < x2 < . . . < xn. Die
Verteilungsfunktion einer Wahrscheinlichkeitsverteilungµ aufS ist
F (c) = µ[(−∞, c]] =∑
i:xi≤c
µ(xi).
IstU eine auf(0, 1) gleichverteilte Zufallsvariable, dann wird durch
X(ω) = xk falls F (xk−1) < U(ω) ≤ F (xk), x0 := −∞
eine Zufallsvariable mit Verteilungµ definiert, denn
P [X = xk] = F (xk)− F (xk−1) = µ[xk].
1
x1 x2 x3 x4 x5 x6 x7
µ(x
1 )
Generiereu
∼U
nif[0,1]
u
F (x)
Abbildung 4.17: Wir generieren eine uniform auf(0, 1) verteilte Pseudozufallszahlu. Suche nun
das minimalek ∈ N, für dask∑
i=1
µ(xi) > u. Dann istx = xk eine Pseudozufallsstichprobe von
der Verteilungµ.
Universität Bonn Wintersemester 2009/2010
140 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Allgemeiner Fall: Wir wollen das Vorgehen nun verallgemeinern. SeiF : R → [0, 1] eine
Funktion mit den Eigenschaften
(1). monoton wachsend: F (x) ≤ F (y) ∀ x ≤ y
(2). rechtsstetig: limx↓c
F (x) = F (c) ∀ c ∈ R
(3). normiert: limxց−∞
F (x) = 0 , limxր+∞
F (x) = 1.
Das folgende Resultat liefert eine explizite Konstruktion einer Zufallsvariable mit Verteilungs-
funktionF :
Satz 4.20.Ist F : R → [0, 1] eine Funktion mit (1)-(3), und
G(u) = infx ∈ R|F (x) ≥ c, u ∈ (0, 1),
die linksstetige verallgemeinerte Inverse, dann ist das Bild
µ := U(0,1) G−1
der Gleichverteilung auf(0, 1) unterG eine Wahrscheinlichkeitsverteilung aufR mit Verteilungs-
funktionF .
Insbesondere gilt: IstU : Ω → (0, 1) eine unterP gleichverteilte Zufallsvariable, dann hat die
Zufallsvariable
X(ω) := G(U(ω))
unterP die VerteilungsfunktionF .
Beweis.DaG(u) einu-Quantil ist, giltF (G(u)) ≥ u, also
G(u) = minx ∈ R|F (x) ≥ u,
und somit fürc ∈ R :
G(u) ≤ c ⇐⇒ F (x) ≥ u für einx ≤ c ⇐⇒ F (c) ≥ u.
Es folgt:
P [G(U) ≤ c] = U(0,1)[u ∈ (0, 1)| G(u) ≤ c︸ ︷︷ ︸⇐⇒ F (c)≥u
]
= U(0,1)[(0, F (c))] = F (c).
Also istF die Verteilungsfunktion vonG(U) bzw. vonµ.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.5. QUANTILE UND INVERSIONSVERFAHREN 141
Bemerkung. (1). IstF eine Bijektion vonR nach(0, 1) (also stetig und streng monoton wach-
send), dann istG = F−1.
(2). NimmtX nur endlich viele Wertex1 < x2 < . . . < xn an, dann istF stückweise konstant,
und es gilt:
G(u) = xk für F (xk−1) < u ≤ F (xk), x0 := −∞,
d.h.G ist genau die oben im endlichen Fall verwendete Transformation.
Das Resultat liefert einen
Existenzsatz: Zu jeder FunktionF mit (1)-(3) existiert eine reelle ZufallsvariableX bzw. eine
Wahrscheinlichkeitsverteilungµ aufR mit VerteilungsfunktionF .
Zudem erhalten wir einen expliziten Algorithmus zur Simulation einer Stichprobe vonµ:
Algorithmus 4.21 (Inversionsverfahren zur Simulation einer Stichprobex von µ).
(1). Erzeuge (Pseudo)-Zufallszahlu ∈ (0, 1).
(2). Setzex := G(u).
Dieser Algorithmus funktioniert theoretisch immer. Er istaber oft nicht praktikabel, da manG
nicht immer berechnen kann, oder da das Anwenden der TransformationG (zunächst unwesent-
liche) Schwachstellen des verwendeten Zufallsgeneratorsverstärkt. Man greift daher oft selbst
im eindimensionalen Fall auf andere Simulationsverfahrenwie z.B. „Acceptance Rejection“ Me-
thoden zurück.
Beispiel. (1). BERNOULLI(p)-VERTEILUNG AUF 0, 1. Hier gilt:
F = (1− p) · I[0, 1) + 1 · I[1,∞)
undG = 1(1−p,1), siehe Abbildung 4.18.
Also ist die ZufallsvariableG(U) = IU<1−p für U ∼ U(0,1) Bernoulli(p)-verteilt.
(2). GLEICHVERTEILUNG AUF (a, b):
F (c) =c− a
b− afür c ∈ [a, b],
G(u) = a+ (b− a)u,
siehe Abbildung 4.19. Also ista+ (b− a)U für U ∼ U(0,1) gleichverteilt auf(a, b).
Universität Bonn Wintersemester 2009/2010
142 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
1
1
1− p
F
1
1
G = I(1−p,1)
Abbildung 4.18:G(U) = IU>1−p ist Bernoulli(p)-verteilt.
1
a b
F
0 1
a
b G = a+ (b− a)u
Abbildung 4.19:G(u) = a+ (b− a)u ist (für u ∼ unif(0, 1)) uniform auf(a, b) verteilt.
(3). EXPONENTIALVERTEILUNG MIT PARAMETER λ > 0:
F (x) = 1− e−λx, G(u) = F−1(u) = −1
λlog(1− u).
Anwenden des Logarithmus transformiert also die gleichverteilte Zufallsvariable1 − u in
eine exponentialverteilte Zufallsvariable.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 143
4.6 Normalapproximation der Binomialverteilung
Die Binomialverteilung mit Parameternn undp beschreibt die Verteilung der Anzahl derjenigen
untern unabhängigen Ereignissen mit Wahrscheinlichkeitp, die in einem Zufallsexperiment ein-
treten. Viele Anwendungsprobleme führen daher auf die Berechnung von Wahrscheinlichkeiten
bzgl. der Binomialverteilung. Für großen ist eine exakte Berechnung dieser Wahrscheinlichkei-
ten aber in der Regel nicht mehr möglich. Bei seltenen Ereignissen kann man die Poissonappro-
ximation zur näherungsweisen Berechnung nutzen:
Konvergiertn → ∞, und konvergiert gleichzeitig der Erwartungswertn · pn gegen eine positive
reelle Zahlλ > 0, dann nähern sich die Gewichtebn,pn(k) der Binomialverteilung denen einer
Poissonverteilung mit Parameterλ an:
bn,pn(k) =
(n
k
)pkn(1− pn)
n−k → λk
ke−λ (k = 0, 1, 2, . . .),
siehe Satz 1.5. Geht die Wahrscheinlichkeitpn für n → ∞ nicht gegen 0, sondern hat zum Bei-
spiel einen festen Wertp ∈ (0, 1), dann kann die Poissonapproximation nicht verwendet werden.
Stattdessen scheinen sich die Gewichte der Binomialverteilung einer Gaußschen Glockenkurve
anzunähern, wie z.B. die folgende mit Mathematica erstellteGrafik zeigt:
Man ipu la te [
L i s t P l o t [
Table [ k , PDF[ B i n o m i a l D i s t r i b u t i o n [ n , Min [ 1 , lambda / n ] ] , k ] , k , 0 ,
I n tege rPa r t [4 lambda ] ] ,
F i l l i n g −> Axis , PlotRange −> Al l ,
P l o tMa rke rs −> Automatic , Medium , Axes −> True , Fa lse ] , n , 10 ,
" n " , 3 , 300 ,1 ,
lambda , 5 , " E rwar tungswer t : np=Lambda " , 2 , 20 ]
Universität Bonn Wintersemester 2009/2010
144 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Wir wollen diese Aussage nun mathematisch präzisieren und beweisen.
Der Satz von De Moivre - Laplace
Wir analysieren zunächst das asymptotische Verhalten von Binomialkoeffizienten mithilfe der
Stirlingschen Formel.
Definition. Zwei Folgenan, bn ∈ R+, n ∈ N, heißenasymptotisch äquivalent(an ∼ bn), falls
limn→∞
anbn
= 1
gilt.
Bemerkung.
(1). an ∼ bn ⇐⇒ ∃εn → 0 : an = bn(1 + εn) ⇐⇒ log an − log bn → 0
(2). an ∼ bn ⇐⇒ bn ∼ an ⇐⇒ 1an
∼ 1bn
(3). an ∼ bn, cn ∼ dn =⇒ an · cn ∼ bn · dn
Satz 4.22(Stirlingsche Formel).
n! ∼√2πn ·
(ne
)n
Zum Beweis nimmt man den Logarithmus, und schätzt die sich ergebende Summe mithilfe eines
Integrals ab, siehe z.B. Forster: „Analysis I“.
Mithilfe der Stirlingschen Formel können wir die Gewichte
bn,p(k) =
(n
k
)pk(1− p)n−k
der Binomialverteilung für großen und k approximieren. Sei dazuSn eineBin(n, p)-verteilte
Zufallsvariable auf(Ω,A, P ). Für den Erwartungswert und die Standardabweichung vonSn gilt:
E[Sn] = np und σ(Sn) =√V ar[Sn] =
√np(1− p).
Dies deutet darauf hin, dass sich die Masse der Binomialverteilung für großen überwiegend in
einer Umgebung der GrößenordnungO(√n) umnp konzentriert.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 145
O(√n)
np
Abbildung 4.20: Die Gewichte der Binomialverteilung liegenfür großen näherungsweise auf
einer Glockenkurve mit Mittelnp und Standardabweichung√np(1− p).
Wir werden nun mithilfe der Stirlingschen Formel die Gewichte
bn,p(k) = P [Sn = k] =
(n
k
)pk(1− p)n−k
der Binomialverteilung für großen und k in einer Umgebung der GrößenordnungO(√n) von
np ausgehend von der Stirlingschen Formel approximieren, unddie vermutete asymptotische
Darstellung präzisieren und beweisen.
Dazu führen wir noch folgende Notation ein: Wir schreiben
an(k) ≈ bn(k) („lokal gleichmäßig asymptotisch äquivalent“),
falls
supk∈Un,r
∣∣∣∣an(k)
bn(k)− 1
∣∣∣∣→ 0 für alle r ∈ R+ gilt,
wobei
Un,r = 0 ≤ k ≤ n : |k − np| ≤ r · √n.
Die Aussagen aus der Bemerkung oben gelten analog für diese Art der lokal gleichmäßigen
asymptotischen Äquivalenz vonan(k) undbn(k).
Satz 4.23(de Moivre 1733, Laplace 1819). Seip ∈ (0, 1) undσ2 = p(1− p). Dann gilt:
(1). P [Sn = k] = bn,p(k) ≈ 1√2πnσ2
exp
(− 1
2σ2
(k − np√
n
)2)
=: bn,p(k)
(2). P
[a ≤ Sn − np√
n≤ b
]nր∞−→
b∫a
1√2πσ2
e−x2
2σ2
︸ ︷︷ ︸Gaußsche Glockenkurve
dx
Universität Bonn Wintersemester 2009/2010
146 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beweis. (1). Wir beweisen die Aussage in zwei Schritten:
(a) Wir zeigen zunächst mithilfe derStirlingschen Formel:
bn,p(k) ≈ 1√2πn k
n(1− k
n)·(pkn
)k
·(1− p
1− kn
)n−k
=: bn,p(k) (4.6.1)
Es gilt
limn→∞
n!√2πn
(ne
)n = 1.
Fürk ∈ Un,r gilt
k ≥ np− A · √n n→∞−→ ∞,
also folgt
supk∈Un,r
∣∣∣∣∣k!√
2πk(ke
)k − 1
∣∣∣∣∣ −→ 0 für n→ ∞,
d.h.
k! ≈√2πk
(k
e
)k
.
Analog erhält man
(n− k)! ≈√2π(n− k)
(n− k
e
)n−k
,
und damit
bn,p(k) =n!
k! · (n− k)!pk(1− p)n−k
≈√2πn · nn · pk · (1− p)n−k
2π√k(n− k) · kk · (n− k)n−k
=
√n
2πk(n− k)
(npk
)k (n(1− p)
n− k
)n−k
= bn,p(k).
(b) Wir zeigen nun mithilfe einerTaylorapproximation :
bn,p(k) ≈ bn,p(k) (4.6.2)
Fürk ∈ Un,r gilt ∣∣∣∣k
n− p
∣∣∣∣ ≤ r · n− 12 ,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 147
woraus folgt:√2π · n · k
n·(1− k
n
)≈
√2π · n · p · (1− p) =
√2π · n · σ2. (4.6.3)
Um die Asymptotik der übrigen Faktoren vonbn,p(k) zu erhalten, verwenden wir eine
Taylorapproximation für den Logarithmus :
Wegen
x logx
p= x− p+
1
2p(x− p)2 +O(|x− p|3)
gilt:
log
(pkn
)k(1− p
1− kn
)n−k
= (−n)
k
nlog
(kn
p
)
︸ ︷︷ ︸Taylor= k
n−p+ 1
2p( kn−p)2+O(| k
n−p|3)
+
(1− k
n
)log
(1− k
n
1− p
)
︸ ︷︷ ︸=p− k
n+ 1
2(1−p)(p− k
n)2+O(| k
n−p|3)
=1
2p(k
n− p)2 +
1
2(1− p)(p− k
n)2
︸ ︷︷ ︸
=(p− k
n)2
2
(1
p+
1
1− p
)
︸ ︷︷ ︸= 1
p(1−p)
+O(|kn− p|3)
=1
2p(1− p)(p− k
n)2 +O(|k
n− p|3)
Fürk ∈ Un,r gilt: ∣∣∣∣k
n− p
∣∣∣∣3
≤ r3 · n− 32 .
Also folgt:
log
(pkn
)k(1− p
1− kn
)n−k = − 1
2σ2
(k
n− p
)2
+Rk,n,
wobei|Rk,n| ≤ const.· r3n− 12 für allek ∈ Un,r, d.h.
(pkn
)k(1− p
1− kn
)n−k
≈ exp
(− 1
2σ2
(k
n− p
)2). (4.6.4)
Aussage (4.6.2) folgt dann aus (4.6.3) und (4.6.4).
Universität Bonn Wintersemester 2009/2010
148 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
(c) Aus (a) und (b) folgt nun Behauptung (1).
(2). Aufgrund von (1) erhalten wir füra, b ∈ R mit a < b:
P
[a ≤ Sn − np√
n≤ b
]=
∑
k∈0,1,...,na≤ k−np√
n≤b
P [Sn = k]︸ ︷︷ ︸=bn,p(k)≈bn,p(k)
=∑
k∈0,1,...,na≤ k−np√
n≤b
bn,p(k)(1 + εn,p(k)),
wobei
εn,p := supa≤ k−np√
n≤b
|εn,p(k)| −→ 0 für n→ ∞. (4.6.5)
Wir zeigen nun
limn→∞
∑
k∈0,1,...,na≤ k−np√
n≤b
bn,p(k) =
b∫
a
1√2πσ2
· exp(− x2
2σ2
)dx (4.6.6)
Aus (4.6.5) und (4.6.6) folgt dann die Behauptung, da∣∣∣∣∣∣∣∣∣∣
∑
k∈0,1,...,na≤ k−np√
n≤b
bn,p(k) · εn,p(k)
∣∣∣∣∣∣∣∣∣∣
≤ εn,p︸︷︷︸→0
·∑
k∈0,1,...,na≤ k−np√
n≤b
bn,p(k)
︸ ︷︷ ︸→
∫ ba ...dx<∞
n→∞ −→ 0
Zum Beweis von (4.6.6) sei
Γn :=
k − np√
n
∣∣∣∣ k = 0, 1, . . . , n
⊆ R.
Dann istΓn ein äquidistantes Gitter mit Maschenweite∆ = 1√n, und es gilt
∑
k∈0,1,...,na≤ k−np√
n≤b
bn,p(k) =∑
x∈Γn
a≤x≤b
1√2πσ2
− x2
2σ2
∆x.
Für n → ∞ folgt (4.6.6), da die rechte Seite eine Riemannsummenapproximation des
Integrals ist.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 149
Der Satz von de Moivre/Laplace besagt, dass die Verteilungen der ZufallsvariablenSn−np√n
für
n→ ∞ schwachgegen die NormalverteilungN(0, σ2) mit Varianzσ2 = p(1−p) konvergieren.
Die allgemeine Definition der schwachen Konvergenz einer Folge von Wahrscheinlichkeitsvertei-
lungen wird in Abschnitt 8.3 unten gegeben. IstZ eine standardnormalverteilte Zufallsvariable,
dann gilt:Sn − np√
n
D−→ σZ,
bzw.Sn − E[Sn]
σ(Sn)=
Sn − np
σ√n
D−→ Z, (4.6.7)
wobei „D→“ für schwache Konvergenz der Verteilungen der Zufallsvariablen steht (Konvergenz
in Verteilung , s.u.).
Bemerkung. (1). Die Aussage (4.6.7) ist ein Spezialfall eines viel allgemeineren zentralen
Grenzwertsatzes:
SindX1, X2, . . . unabhängige, identisch verteilte Zufallsvariablen mit endlicher Varianz,
und istSn = X1 + . . . + Xn, dann konvergieren die Verteilungen der standardisierten
SummenSn − E[Sn]
σ(Sn)
schwach gegen eine Standardnormalverteilung, s.u.
Die Normalverteilung tritt also als universeller Skalierungslimes von Summen unabhängi-
ger Zufallsvariablen auf.
(2). Heuristisch gilt für großen nach (4.6.7)
„ SnD≈ np+
√np(1− p) · Z, “ (4.6.8)
wobei „D≈“ dafür steht, dass sich die Verteilungen der Zufallsvariablen einander in einem
gewissen Sinn annähern. In diesem Sinne wäre für großen
„Bin(n, p)D≈ N(np, np(1− p)).“
Entsprechende „Approximationen“ werden häufig in Anwendungen benutzt, sollten aber
hinterfragt werden, da beim Übergang von (4.6.7) zu (4.6.8)mit dem divergierende Fak-
tor√n multipliziert wird. Die mathematische Präzisierung entsprechender heuristischer
Argumentationen erfolgt üblicherweise über den Satz von deMoivre/Laplace.
Universität Bonn Wintersemester 2009/2010
150 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
Beispiel(Faire Münzwürfe ). SeienX1, X2, . . . unabhängige Zufallsvariablen mitP [Xi = 0] =
P [Xi = 1] = 12
und seiSn = X1 + . . .+Xn (z.B. Häufigkeit von „Zahl“ bein fairen Münzwür-
fen). In diesem Fall ist alsop = 12
undσ =√p(1− p) = 1
2.
(1). 100 faire Münzwürfe:
P [S100 > 60] = P [S100 − E[S100] > 10] = P
[S100 − E[S100]
σ(S100)>
10
σ√100
]
Da S100−E[S100]σ(S100)
nach (4.6.7) näherungsweiseN(0, 1)-verteilt ist, und 10σ√100
= 2, folgt
P [S100 > 60] ≈ P [Z > 2] = 1− Φ(2) ≈ 0.0227 = 2.27%.
(2). 16 faire Münzwürfe:
P [S16 = 8] = P [7.5 ≤ S16 ≤ 8.5] = P [|S16 − E[S16]| ≤ 0.5]
= P
[∣∣∣∣S16 − E[S16]
σ(S16)
∣∣∣∣ ≤0.5
σ√16
]
Mit 0.5σ√16
= 14
folgt:
P [S16 = 8] ≈ P [|Z| ≤ 1.4] = 0.1974...
Der exakte Wert beträgtP [S16 = 8] = 0.1964.... Bei geschickter Anwendung ist die Nor-
malapproximation oft schon für eine kleine Anzahl von Summanden relativ genau!
Approximative Konfidenzintervalle
Angenommen, wir wollen den Anteilp der Wähler einer Partei durch Befragung vonn Wählern
schätzen. SeienX1, . . . , Xn unterPp unabhängige und Bernoulli(p)-verteilte Zufallsvariablen,
wobeiXi = 1 dafür steht, dass deri-te Wähler für die ParteiA stimmen wird. Ein nahe liegen-
der Schätzwert fürp ist Xn := Sn
n. Wie viele Stichproben braucht man, damit der tatsächliche
Stimmenanteil mit95% Wahrscheinlichkeit um höchstensε = 1% von Schätzwert abweicht?
Definition. Seiα ∈ (0, 1). Das zufällige Intervall[Xn − ε,Xn + ε] heißt Konfidenzintervall zum
Konfidenzniveau1− α (bzw. zum Irrtumsniveauα) für den unbekannten Parameterp, falls
Pp[p 6∈ [Xn − ε,Xn + ε]] ≤ α
für alle möglichen Parameterwertep ∈ [0, 1] gilt.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 151
Im Prinzip lassen sich Konfidenzintervalle aus den Quantilen der zugrundeliegenden Verteilung
gewinnen. In der Situation von oben gilt beispielsweise:
p ∈ [Xn − ε,Xn + ε] ⇐⇒ |Xn − p| ≤ ε ⇐⇒ Xn ∈ [p− ε, p+ ε]
⇐⇒ Sn ∈ [n(p− ε), n(p+ ε)]
Diese Bedingung ist fürp ∈ [0, 1] mit Wahrscheinlichkeit≥ 1 − α erfüllt, falls z.B.n(p − ε)
oberhalb desα2-Quantils undn(p + ε) unterhalb des(1 − α
2)-Quantils der Binomialverteilung
Bin(n, p) liegt.
Praktikablere Methoden, um in unserem Modell Konfidenzintervalle zu bestimmen, sind zum
Beispiel:
Abschätzung mithilfe der Cebyšev-Ungleichung:
Pp
[∣∣∣∣Sn
n− p
∣∣∣∣ ≥ ε
]≤ 1
ε2·V ar
(Sn
n
)=
p(1− p)
nε2≤ 1
4nε2!
≤ α ∀ p ∈ [0, 1]
Dies ist erfüllt fürn ≥ 14ε2α
, also im Beispiel fürn ≥ 50.000.
Abschätzung über die exponentielle Ungleichung:
Pp
[∣∣∣∣Sn
n− p
∣∣∣∣ ≥ ε
]≤ 2 · e−2ε2n ≤ α ∀ p ∈ [0, 1],
ist erfüllt für n ≥ 12ε2
log( 2α), also im Beispiel fürn ≥ 18445.
Die exponentielle Abschätzung ist genauer - sie zeigt, dassbereits weniger als 20.000 Stichpro-
ben genügen. Können wir mit noch weniger Stichproben auskommen ? Dazu berechnen wir die
Wahrscheinlichkeit, dass der Parameter im Intervall liegt, näherungsweise mithilfe des zentralen
Grenzwertsatzes:
Approximative Berechnung mithilfe der Normalapproximatio n:
Pp
[∣∣∣∣Sn
n− p
∣∣∣∣ ≤ ε
]= Pp
[∣∣∣∣∣Sn − np√np(1− p)
∣∣∣∣∣ ≤nε√
np(1− p)
]
≈ N(0, 1)
(−
√nε√
p(1− p),
√nε√
p(1− p)
)
= 2
(Φ
( √nε√
p(1− p)
)− 1
2
)
p(1−p)≤ 14≥ 2Φ(2
√nε)− 1 ≥ 1− α ∀ p ∈ [0, 1],
Universität Bonn Wintersemester 2009/2010
152 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE
falls
n ≥(
1
2ε· Φ−1
(1− α
2
))2
.
Im Beispiel gilt
Φ−1(1− α
2
)≈ 1.96
und die Bedingung ist fürn ≥ 9604 erfüllt. Also sollten bereits ca.10.000 Stichproben ausrei-
chen!Exakte(also ohne Verwendung einer Näherung hergeleitete) Konfidenzintervalle sind in
vielen Fällen zu konservativ. In Anwendungen werden daher meistensapproximativeKonfidenz-
intervalle angegeben, die mithilfe einer Normalapproximation hergeleitet wurden. Dabei ist aber
folgendes zu beachten:
Warnung: Mithilfe der Normalapproximation hergeleitete approximative Konfidenzintervalle
erfüllen die Niveaubedingung im Allgemeinen nicht (bzw. nur näherungsweise). Da die Qualität
der Normalapproximation fürp → 0 bzw. p → 1 degeneriert, ist die Niveaubedingung im All-
gemeinen selbst fürn→ ∞ nicht erfüllt. Beispielsweise beträgt das Niveau von approximativen
99% Konfidenzintervallen asymptotisch tatsächlich nur96.8%!
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
Kapitel 5
Unabhängigkeit und Produktmodelle
5.1 Unabhängigkeit in allgemeinen Modellen
Unabhängigkeit von Ereignissen
In Abschnitt 2.3 haben wir einen Unabhängigkeitsbegriff für Ereignisse eingeführt: Eine Kol-
lektion Ai, i ∈ I, von Ereignissen aus derselbenσ-AlgebraA heißt unabhängig bzgl. einer
WahrscheinlichkeitsverteilungP , falls
P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ] =n∏
k=1
P [Aik ] (5.1.1)
für allen ∈ N und alle paarweise verschiedeneni1, . . . , in ∈ I gilt.
Beispiel. Ein EreignisA ist genau dann unabhängig von sich selbst, wennP [A] = P [A ∩ A] =P [A]2 gilt, also wenn die Wahrscheinlichkeit vonA gleich0 oder1 ist. Solche Ereignisse nennt
man auch deterministisch.
Wir wollen den obigen Unabhängigkeitsbegriff nun auf Ereignissysteme erweitern.
Definition. Eine KollektionAi (i ∈ I) von MengensystemenAi ⊆ A heißtunabhängig (bzgl.
P ), falls jede KollektionAi (i ∈ I) von EreignissenAi ∈ Ai unabhängig ist, d.h.
P [Ai1 ∩ . . . ∩ Ain ] =n∏
k=1
P [Aik ]
für alle n ∈ N, i1, . . . , in ∈ I paarweise verschieden, undAik ∈ Aik (1 ≤ k ≤ n).
Sind zum BeispielA und B unabhängige Ereignisse, dann sindσ(A) = ∅, A,AC ,Ω und
σ(B) = ∅, B,BC ,Ω unabhängige Mengensysteme. Allgemeiner:
153
154 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Satz 5.1.SeienAi (i ∈ I) unabhängige Mengensysteme. JedesAi sei durchschnittsstabil. Dann
gilt:
(1). Dieσ-Algebrenσ(Ai) (i ∈ I) sind unabhängige Mengensysteme.
(2). Ist I =⋃
k∈KIk eine disjunkte Zerlegung vonI, dann sind auch dieσ-Algebrenσ(
⋃i∈Ik
Ai)
(k ∈ K) unabhängige Mengensysteme.
Beispiel. SindA1, . . . , An unabhängige Ereignisse, dann sind die Mengensysteme
A1 = A1, . . . ,An = An
unabhängig und durchschnittsstabil, also sind auch dieσ-Algebren
σ(Ai) = ∅, Ai, ACi ,Ω (i = 1, . . . , n)
unabhängige Mengensysteme, d.h es gilt
P [B1 ∩ . . . ∩ Bn] =n∏
i=1
P [Bi] ∀Bi ∈ ∅, Ai, ACi ,Ω.
Dies kann man auch direkt beweisen, siehe Lemma 2.5 oben.
Ein Beispiel zum zweiten Teil der Aussage von Satz 5.1 werden wir im Anschluss an den Beweis
des Satzes betrachten.
Beweis. (1). Seieni1, . . . , in ∈ I (n ∈ N) paarweise verschieden. Wir müssen zeigen, dass
P [Bi1 ∩ . . . ∩Bin ] = P [Bi1 ] · . . . · P [Bin ] (5.1.2)
für alleBi1 ∈ σ(Ai1), . . . , Bin ∈ σ(Ain) gilt. Dazu verfahren wir schrittweise:
(a) Die Aussage (5.1.2) gilt nach Voraussetzung fürBi1 ∈ Ai1 , . . . , Bin ∈ Ain .
(b) FürBi2 ∈ Ai2 , . . . , Bin ∈ Ain betrachten wir das MengensystemD aller Bi1 ∈A, für die (5.1.2) gilt.D ist ein Dynkinsystem, dasAi1 nach (a) enthält. DaAi1
durchschnittsstabil ist, folgt
D ⊇ D(Ai1) = σ(Ai1).
Also gilt (5.1.2) für alleBi1 ∈ σ(Ai1).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 155
(c) FürBi1 ∈ σ(Ai1) undBi3 ∈ σ(Ai3), . . . , Bin ∈ σ(Ain) betrachten wir nun das
Mengensystem allerBi2 ∈ A, für die (5.1.2) gilt. Wiederum istD ein Dynkinsystem,
dasAi2 nach (b) enthält. Wie im letzten Schritt folgt daher
D ⊇ D(Ai2) = σ(Ai2),
d.h. (5.1.2) ist für alleBi2 ∈ σ(Ai2) erfüllt.
Anschließend verfahren wir auf entsprechende Weise weiter. Nachn-facher Anwen-
dung eines analogen Arguments folgt die Behauptung.
(2). Fürk ∈ K gilt: σ(⋃i∈Ik
Ai) = σ(Ck) mit
Ck := Bi1 ∩ . . . ∩Bin |n ∈ N, i1, . . . , in ∈ Ik paarw. verschieden, Bij ∈ Aij.
Die MengensystemeCk, k ∈ K, sind durchschnittsstabil und unabhängig, da jede Kollek-
tion von EreignissenBi ∈ Ai, i ∈ I, nach Voraussetzung unabhängig ist. Also sind nach
Teil (1) der Aussage auch dieσ-Algebrenσ(Ck), k ∈ K, unabhängig.
Beispiel (Affe tippt Shakespeare). Wir betrachten unabhängige0-1-Experimente mit Erfolgs-
wahrscheinlichkeitp. SeiXi(ω) ∈ 0, 1 der Ausgang desi-ten Experiments. Für ein binäres
Wort (a1, . . . , an) ∈ 0, 1n, n ∈ N, gilt:
P [X1 = a1, . . . , Xn = an] = P
[n⋂
i=1
Xi = ai]
unabh.= pk · (1− p)n−k,
wobeik = a1 + . . .+ an die Anzahl der Einsen in dem Wort ist. Wir zeigen nun:
Behauptung: P [Wort kommt unendlich oft in der FolgeX1, X2, . . . vor] = 1, falls p 6∈ 0, 1.
Zum Beweis bemerken wir, dass die Ereignisse
Em = Xmn+1 = a1, Xmn+2 = a2, . . . , Xmn+n = an, m ∈ N,
„Text steht imm-ten Block“
unabhängig sind. Nach Satz 5.1 sind nämlich dieσ-Algebren
σ(Xmn+1 = 1, Xmn+2 = 1, . . . , Xmn+n = 1), m ∈ N,
unabhängig, also auch die darin enthaltenen EreignisseEm. Fürp 6= 0 gilt:
P [Em] = pk · (1− p)n−k > 0,
Universität Bonn Wintersemester 2009/2010
156 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
also ∞∑
m=1
P [Em] = ∞.
Damit folgt nach Borel-Cantelli:
1 = P [Em unendlich oft] ≤ P [Wort kommt unendlich oft vor].
Unabhängigkeit von Zufallsvariablen
Wir betrachten nun Zufallsvariablen mit Werten in einem messbaren Raum(S,S).
Definition. SeienX,Xi : Ω → S, i ∈ I, Abbildungen.
(1). Das Mengensystem
σ(X) := X−1(B)|B ∈ S ⊆ P(Ω)
heißtdie vonX erzeugteσ-AlgebraaufΩ.
(2). Allgemeiner heißt
σ(Xi|i ∈ I) := σ
(⋃
i∈Iσ(Xi)
)= σ(X−1
i (B)|B ∈ S, i ∈ I)
die von den AbbildungenXi, i ∈ I, erzeugteσ-Algebra.
Bemerkung. (1). Man prüft leicht nach, dassσ(X) tatsächlich eineσ-Algebra ist.
(2). Eine AbbildungX : Ω → S ist messbar bzgl.A/S genau dann, wennσ(X) ⊆ A gilt.
Somit istσ(X) diekleinsteσ-Algebra aufΩ, bzgl. derX messbar ist.
(3). Entsprechend istσ(Xi, i ∈ I) die kleinsteσ-Algebra aufΩ, bzgl. der alle AbbildungenXi
messbar sind.
Beispiel (Produkt-σ-Algebra). SeiΩ = 0, 1N = ω = (x1, x2, . . .)|xi ∈ 0, 1, oder ein
allgemeiner Produktraum, und seiXi(ω) = xi die Projektion auf diei-te Komponente. Dann ist
die Produkt-σ-AlgebraA aufΩ gerade die von den AbbildungenXi erzeugteσ-Algebra:
A = σ(X1 = a1, . . . , Xn = an|n ∈ N, a1, . . . , an ∈ 0, 1)= σ(Xi = 1|i ∈ N)
= σ(X1, X2, . . .).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 157
Messbare Abbildungen auf(Ω,A) sind z.B.
Sn(ω) = X1(ω) + . . .+Xn(ω),
L(ω) = lim supn→∞
1
nSn(ω), L(ω) = lim inf
n→∞
1
nSn(ω), etc.
Wir können nun einen Unabhängigkeitsbegriff für allgemeine Zufallsvariablen einführen, der
kompatibel mit dem oben definierten Unabhängigkeitsbegriff für Mengensysteme ist.
Definition. Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum.
(1). Eine endliche KollektionX1, . . . , Xn : Ω → S von Zufallsvariablen auf(Ω,A, P ) heißt
unabhängig, falls
P [X1 ∈ B1, . . . , Xn ∈ Bn] =n∏
i=1
P [Xi ∈ Bi] ∀Bi ∈ S (1 ≤ i ≤ n). (5.1.3)
(2). Eine beliebige KollektionXi, i ∈ I, von Zufallsvariablen auf(Ω,A, P ) heißtunabhän-
gig, falls jede endliche TeilkollektionXi1 , . . . , Xin (i1, . . . , in ∈ I paarweise verschieden)
unabhängig ist.
Bemerkung. (1). Die Definition istkonsistent: Jede endliche Teilkollektion einer unabhängi-
gen endlichen Kollektion von Zufallsvariablen ist wieder unabhängig im Sinne von (5.1.3).
(2). Die ZufallsvariablenXi, i ∈ I, sind genau dann unabhängig, wenn dieσ-Algebren
σ(Xi) = Xi ∈ B|B ∈ B(S), i ∈ I,
unabhängige Mengensysteme sind.
Sei(S, S) ein weiterer messbarer Raum. Eine sehr wichtige Konsequenz von Bemerkung (2) ist:
Satz 5.2(Funktionen von unabhängigen Zufallsvariablen sind unabhängig). SindXi : Ω →S, i ∈ I, unabhängige Zufallsvariablen auf(Ω,A, P ), und sindhi : S → S messbare Abbildun-
gen, dann sind auch die ZufallsvariablenYi := hi(Xi), i ∈ I, unabhängig bzgl.P .
Beweis.
σ(Yi) = Y −1i (B)︸ ︷︷ ︸
X−1i (h−1
i (B))
| B ∈ S.
Da dieσ-Algebrenσ(Xi), i ∈ I, unabhängig sind, sind auchσ(Yi), i ∈ I, unabhängige Mengen-
systeme.
Universität Bonn Wintersemester 2009/2010
158 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Aufgrund von Satz 5.1 kann man allgemeiner eine KollektionXi, i ∈ I, von unabhängigen
Zufallsvariablen in disjunkte GruppenXi, i ∈ Ik, I =⋃k
Ik, einteilen, und messbare Funktionen
Yk = hk(Xi|i ∈ Ik), k ∈ K
von den Zufallsvariablen der verschiedenen Gruppen betrachten. Auch dieYk sind dann wieder
unabhängige Zufallsvariablen.
Für unabhängige reellwertige ZufallsvariablenXi (i ∈ I) gilt insbesondere
P [Xi−1 ≤ c1, . . . , Xin ≤ cn] =n∏
k=1
P [Xik ≤ ck] (5.1.4)
für allen ∈ N, i1, . . . , in ∈ I paarweise verschieden, undci ∈ R.
Tatsächlich werden wir im nächsten Abschnitt zeigen, dass Bedingung (5.1.4) äquivalent zur
Unabhängigkeit derXi ist. Als erste Anwendung betrachten wir Extrema von unabhängigen ex-
ponentialverteilten Zufallsvariablen.
Beispiel(Maxima von exponentialverteilten Zufallsvariablen). SeienT1, T2, . . . unabhängige
Exp(1)-verteilte Zufallsvariablen. Wir wollen uns überlegen, wie sich die Extremwerte (Rekorde)
Mn = maxT1, . . . , Tn
asymptotisch fürn→ ∞ verhalten. Dazu gehen wir in mehreren Schritten vor:
(1). Wir zeigen zunächst mithilfe des Borel-Cantelli-Lemmas:
lim supn→∞
Tnlog n
= 1 P -fast sicher. (5.1.5)
Zum Beweis berechnen wir fürc ∈ R:
P
[Tnlog n
≥ c
]= P [Tn ≥ c · log n]
= e−c logn = n−c.
Für c > 1 gilt∞∑n=1
n−c <∞. Nach dem 1. Borel-Cantelli-Lemma folgt daher
P
[lim supn→∞
Tnlog n
> c
]≤ P
[Tnlog n
≥ c unendlich oft
]= 0.
Für cց 1 erhalten wir dann wegen der monotonen Stetigkeit vonP :
P
[lim supn→∞
Tnlog n
> 1
]= lim
cց1P
[lim supn→∞
Tnlog n
> c
]= 0. (5.1.6)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 159
Für c < 1 gilt∞∑n=1
n−c = ∞. Da die EreignisseTn ≥ c log n, n ∈ N, unabhängig sind,
folgt nach dem 2. Borel-Cantelli Lemma:
P
[lim supn→∞
Tnlog n
≥ c
]≥ P
[Tnlog n
≥ c unendlich oft
]= 1.
Für cր 1 erhalten wir mithilfe der monotonen Stetigkeit:
P
[lim supn→∞
Tnlog n
≥ 1
]= lim
cր1P
[lim supn→∞
Tnlog n
≥ c
]= 1 (5.1.7)
Aus (5.1.6) und (5.1.7) folgt die Behauptung (5.1.5).
(2). Als nächstes folgern wir:
Mn ∼ log n, d.h. limn→∞
Mn
log n= 1 P -f.s. (5.1.8)
Zum Beweis zeigen wir:
(a) lim supn→∞
Mn
log n≤ 1 P -f.s., und
(b) lim infn→∞
Mn
log n≥ 1 P -f.s.
Aussage (a) folgt aus (1), denn fürc ∈ R gilt:
lim supn→∞
Mn
log n> c
⇒ maxT1, . . . , Tn =Mn > c · log n unendlich oft
⇒ Tk(n) > c · log n für k(n) ≤ n für ∞ vielen
⇒ Tk > c · log k unendlich oft
⇒ lim supTklog k
≥ c
Nach (1) hat das letztere Ereignis fürc > 1 Wahrscheinlichkeit 0, also gilt wegen der
monotonen Stetigkeit vonP :
P
[lim supn→∞
Mn
log n> 1
]= lim
cց1P
[lim supn→∞
Mn
log n> c
]= 0.
Zum Beweis von (b) genügt es wegen der monotonen Stetigkeit zuzeigen, dass fürc < 1
P
[Mn
log n> c schließlich
]= P
[Mn
log n≤ c nur endlich oft
]= 1
gilt. Nach Borel-Cantelli I ist dies der Fall, wenn
∑
n∈NP
[Mn
log n≤ c
]< ∞ (5.1.9)
Universität Bonn Wintersemester 2009/2010
160 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
gilt. Für c ∈ R gilt aber wegen der Unabhängigkeit derTi
P
[Mn
log n≤ c
]= P [Ti ≤ c · log n ∀ 1 ≤ i ≤ n]
= P [T1 ≤ c · log n]n = (1− e−c logn)n
= (1− n−c)n ≤ e−n·n−c
= e−n1−c
,
und diese Folge ist fürc < 1 summierbar. Also gilt (5.1.9) für allec < 1, und damit (b).
(3). Abschließend untersuchen wir die Fluktuationen der ExtremwerteMn um log n noch ge-
nauer. Wir zeigen, dass die ZufallsvariableMn − log n in Verteilung konvergiert:
P [Mn − log n ≤ c]n→∞−→ e−e−c
für alle c ∈ R. (5.1.10)
Beweis.Wegen
P [Mn ≤ c] = P [Ti ≤ c ∀i = 1, . . . , n]
i.i.d.= P [T1 ≤ c]n
= (1− e−c)n für alle c ∈ R
folgt
P [Mn − log n ≤ c] = P [Mn ≤ c+ log n] = (1− 1
n· e−c)n
n→∞−→ e−e−c
Aussage (5.1.10) besagt, dassMn − log n in Verteilung gegen eine Gumbel-verteilte Zu-
fallsvariableX, d.h. eine Zufallsvariable mit VerteilungsfunktionFX(c) = e−e−ckonver-
giert. Für großen gilt also näherungsweise
MnD≈ log n+X, X ∼ Gumbel,
wobeilog n die Asymptotik undX die Fluktuationen beschreibt.
Konfidenzintervalle für Quantile
Sei (x1, . . . , xn) einen-elementige Stichprobe von einer unbekannten Wahrscheinlichkeitsver-
teilungµ auf (R,B(R)). Wir nehmen an, dassx1, . . . , xn Realisierungen von unabhängigen Zu-
fallsvariablen mit stetiger Verteilung sind:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 161
Annahme: X1, . . . , Xn unabhängig unterPµ mit stetiger Verteilungµ.
Wir wollen nun die Quantile (z.B. den Median) der zugrundeliegenden Verteilung auf der Ba-
sis der Stichprobe schätzen. Eine FunktionT (X1, . . . , Xn), T : Rn → R messbar, nennt man
in diesem Zusammenhang auch einStatistikder Stichprobe(X1, . . . , Xn). Eine Statistik, deren
Wert als Schätzwert für eine Kenngrößeq(µ) der unbekannten Verteilung verwendet wird, nennt
man auch einen(Punkt-) Schätzerfür q. Nahe liegende Schätzer für die Quantile vonµ sind die
entsprechenden Stichprobenquantile. Unser Ziel ist es nun, Konfidenzintervallefür die Quantile
anzugeben, d.h. von den WertenX1, . . . , Xn abhängende Intervalle, in denen die Quantileun-
abhängig von der tatsächlichen Verteilungmit hoher Wahrscheinlichkeit enthalten sind. Seien
dazu
X(1) ≤ X(2) ≤ . . . ≤ X(n)
die der Größe nach geordneten WerteX1, . . . , Xn – diese nennt man auchOrdnungsstatistiken
der Stichprobe. Die Verteilung der Ordnungsstatistiken können wir explizit berechnen:
Satz 5.3(Verteilung der Ordnungsstatistiken). Ist µ eine absolutstetige Wahrscheinlichkeits-
verteilung mit VerteilungsfunktionF , dann hatX(k) die Verteilungsfunktion
F(k)(c) = Bin(n, F (c))[k, k + 1, . . . , n]
=n∑
j=k
(n
j
)F (c)j · (1− F (c))n−j. (5.1.11)
Beweis.Da die EreignisseXi ≤ c, 1 ≤ i ≤ n, unabhängig sind mit WahrscheinlichkeitF (c),
gilt
F(k)(c) = Pµ[X(k) ≤ c] = Pµ[Xi ≤ c für mindestensk verschiedenei ∈ 1, . . . , n]= Bin(n, F (c))[k, k + 1, . . . , n]
=n∑
j=k
(n
j
)F (c)j · (1− F (c))n−j.
Nach Satz 5.3 ist die Wahrscheinlichkeit, dass der Wert vonX(k) unterhalb einesu-Quantils der
zugrundeliegenden Verteilungµ liegt, für alle stetigen Verteilungen gleich! Damit folgt unmittel-
bar:
Korollar 5.4 (Ordnungsintervalle). Seiu ∈ (0, 1) und0 ≤ k < l ≤ n. Dann ist das zufällige
Intervall (X(k), X(l)) einKonfidenzintervall für dasu-Quantil der zugrundeliegenden Verteilung
µ zum Konfidenzniveau
β := Bin(n, k)[k, k + 1, . . . , l − 1],
Universität Bonn Wintersemester 2009/2010
162 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
d.h. für jede absolutstetige Wahrscheinlichkeitsverteilungµ aufR, und für jedesu-Quantilqu(µ)
gilt:
Pµ[X(k) < qu(µ < X(l))] ≥ β.
Beweis.Da die Verteilungen stetig sind, giltFµ(qu(µ)) = u für jedesu-Quantil, und damit nach
Satz 5.3:
Pµ[X(k) < qu(µ) < X(l)] = Bin(n, u)[k, k + 1, . . . , n]− Bin(n, u)[l, l + 1, . . . , n]= Bin(n, u)[k, k + 1, . . . , l − 1].
Für großen kann man die Quantile der Binomialverteilung näherungsweise mithilfe der Norma-
lapproximation berechnen, und erhält daraus entsprechende Konfidenzintervalle für die Quantile
von stetigen Verteilungen. Bemerkenswert ist, dass diese Konfidenzintervalle nicht nur für Vertei-
lungen aus einer bestimmten Familie (z.B. der Familie der Normalverteilungen) gelten, sondern
für alle stetigen Wahrscheinlichkeitsverteilungen aufR (nichtparametrisches Modell).
5.2 Gemeinsame Verteilungen und endliche Produktmodelle
Um Aussagen über den Zusammenhang mehrerer ZufallsvariablenX1, . . . , Xn zu treffen, benö-
tigen wir Kenntnisse über deren gemeinsame Verteilung, d.h. über die Verteilung des Zufalls-
vektorsX = (X1, . . . , Xn). Diese ist eine Wahrscheinlichkeitsverteilung auf dem Produkt der
Wertebereiche der einzelnen Zufallsvariablen.
Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen
Seien(Si,Si), 1 ≤ i ≤ n, messbare Räume. Die Produkt-σ-AlgebraS1⊗. . .⊗Sn aufS1×. . .×Sn
wird von den endlichen Produkten von Mengen aus denσ-AlgebrenSi erzeugt:
S1 ⊗ . . .⊗ Sn = σ(B1 × . . .×Bn|Bi ∈ Si ∀ 1 ≤ i ≤ n).
Bezeichnen wir mitπi : S1× . . .×Sn → Si, πi(x1, . . . , xn) := xi, die kanonische Projektion auf
die i-te Komponente, so gilt
S1 ⊗ . . .⊗ Sn = σ(π1, . . . , πn).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 163
Beispiel. Für die Borelscheσ-Algebra aufRn gilt:
B(Rn) = B(R)⊗ . . .⊗ B(R)︸ ︷︷ ︸n mal
=n⊗
i=1
B(R),
dennB(Rn) wird zum Beispiel von den offenen Quadern, also Produkten vonoffenen Intervallen,
erzeugt. Ein anderes Erzeugendensystem vonB(Rn) bilden die Produktmengen
(−∞, c1]× (−∞, c2]× . . .× (−∞, cn], c1, . . . , cn ∈ R. (5.2.1)
Ist µ eine Wahrscheinlichkeitsverteilung auf(S1 × . . . × Sn,S1 ⊗ . . . ⊗ Sn), dann heißen die
Wahrscheinlichkeitsverteilungen
µπi:= µ π−1
i , 1 ≤ i ≤ n,
aufSi (eindimensionale) Randverteilungen (marginals)vonµ. Wir werden in Kapitel 9 allge-
meine Wahrscheinlichkeitsverteilungen auf Produkträumen konstruieren und systematisch unter-
suchen. Im Moment beschränken wir uns meist auf eine spezielle Klasse von solchen Verteilun-
gen: die endlichen Produktmodelle.
Definition (Endliches Produktmaß). Seien(Si,Si, µi) Wahrscheinlichkeitsräume,1 ≤ i ≤ n.
Eine Wahrscheinlichkeitsverteilungµ auf (S1 × . . . × Sn,S1 ⊗ . . . ⊗ Sn) heißt Produkt derµi,
falls
µ[B1 × . . .×Bn] =n∏
i=1
µi[Bi] ∀Bi ∈ Si, 1 ≤ i ≤ n, (5.2.2)
gilt.
Bemerkung. Das Produktmaßµ ist durch (5.2.2)eindeutigfestgelegt, denn die Produktmengen
bilden einen durchschnittsstabilen Erzeuger derσ-AlgebraS1 ⊗ . . .⊗ Sn. Die Existenzvon Pro-
duktmaßen folgt aus dem Satz von Fubini, den wir in Abschnitt9.1 beweisen. Für Wahrschein-
lichkeitsverteilungen aufR zeigen wir die Existenz von Produktmaßen im nächsten Abschnitt.
Das nach der Bemerkung eindeutige Produktmaß der Wahrscheinlichkeitsverteilungenµ1, . . . , µn
bezeichnen wir mitµ1 ⊗ . . .⊗ µn. Die eindimensionalen Randverteilungen eines Produktmaßes
sind gerade die Faktorenµi.
Lemma 5.5. Unterµ = µ1 ⊗ . . .⊗ µn sind die Projektionen
πi : S1 × . . .× Sn −→ Si, πi(x1, . . . , xn) = xi, 1 ≤ i ≤ n,
unabhängig mit Verteilungµi.
Universität Bonn Wintersemester 2009/2010
164 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Beweis.FürBi ∈ Si, 1 ≤ i ≤ n, gilt:
µ[πi ∈ Bi] = µ[S1 × . . .× Si−1 ×Bi × Si+1 × . . .× Sn]
= µi[Bi] ·∏
j 6=i
µj[Sj]︸ ︷︷ ︸=1
= µi[Bi],
und
µ[π1 ∈ B1, . . . , πn ∈ Bn] = µ[B1 × . . .×Bn] =n∏
i=1
µi[Bi] =n∏
i=1
µi[πi ∈ Bi].
Sind die MengenS1, . . . , Sn abzählbar, dann giltµ = µ1 ⊗ . . . ⊗ µn genau dann, wenn die
Massenfunktion vonµ das Produkt der einzelnen Massenfunktionen ist, d.h.
µ(x1, . . . , xn) =n∏
i=1
µi(xi) für alle xi ∈ Si, 1 ≤ i ≤ n.
Im Fall S1 = . . . = Sn = R mit Borelscherσ-Algebra bilden die Mengen aus (5.2.1) einen
durchschnittsstabilen Erzeuger der Produkt-σ-AlgebraB(Rn). Also istµ = µ1 ⊗ . . .⊗ µn genau
dann, wenn
µ[(−∞, c1]× . . .× (−∞, cn]] =n∏
i=1
µi[(−∞, ci]] für alle c1, . . . , cn ∈ R
gilt. Die linke Seite ist die VerteilungsfunktionFµ(c1, . . . , cn) der multivariaten Verteilungµ, die
rechte Seite das Produkt der Verteilungsfunktionen derµi.
Beispiel (Gleichverteilung auf n-dimensionalem Quader). Ist µi = U(ai,bi) die Gleichvertei-
lung auf einem endlichen Intervall(ai, bi),−∞ < ai < bi < ∞, dann istµ = µ1 ⊗ . . .⊗ µn die
Gleichverteilung auf dem QuaderS =n∏
i=1
(ai, bi), denn fürc1, . . . , cn ∈ S gilt:
µ
[n∏
i=1
(−∞, ci]
]=
n∏
i=1
µ− i[(−∞, ci]]
=n∏
i=1
ci − aibi − ai
= λn
[n∏
i=1
(ai, ci]
]/λn[S].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 165
Absolutstetigkeit von multivariaten Verteilungen
Absolutstetigkeit von endlichen Produktmodellen
Der Satz von Fubini, den wir in Abschnitt 9.1 in größerer Allgemeinheit beweisen werden, be-
sagt unter anderem, dass dasn-dimensionale Lebesgueintegral einer beliebigen Borel-messbaren
nicht-negativen Funktionf : Rn → R existiert, und als Hintereinanderausführung von eindimen-
sionalen Integralen nach den Koordinatenx1, . . . , xn berechnet werden kann:∫
Rn
f(x) dx =
∫· · ·∫f(x1, . . . , xn) dxn · · · dx1.
Hierbei können die eindimensionalen Integrationen in beliebiger Reihenfolge ausgeführt werden.
Für den Beweis verweisen wir auf die Analysisvorlesung bzw. auf Abschnitt 9.1 unten.
In Analogie zum eindimensionalen Fall heißt eine Wahrscheinlichkeitsverteilungµ auf(Rn,B(Rn))
stetigoderabsolutstetig, falls eineB(Rn)-messbareDichtefunktionf : Rn → [0,∞) existiert mit
µ[B] =
∫
B
f(x) dx :=
∫IB(x)f(x) dx
für jeden Quader, bzw. allgemeiner für jede BorelmengeB ⊆ Rn. Endliche Produkte von eindi-
mensionalen absolutstetigen Verteilungen sind wieder absolutstetig, und die Dichte ist das Pro-
dukt der einzelnen Dichten:
Lemma 5.6. Sindµ1, . . . , µn absolutstetige Wahrscheinlichkeitsverteilungen auf(R,B(R)) mit
Dichtefunktionenf1, . . . , fn, dann ist das Produktµ = µ1 ⊗ . . . ⊗ µn eine absolutstetige Wahr-
scheinlichkeitsverteilung auf(Rn,B(Rn)) mit Dichtefunktion
f(x1, . . . , xn) =n∏
i=1
fi(xi).
Beweis.Für jede ProduktmengeB = B1× . . .×Bn, Bi ∈ B(R), gilt nach dem Satz von Fubini:
µ[B] =n∏
i=1
µi[Bi] =n∏
i=1
∫
Bi
fi(xi)dxi =
∫· · ·∫IB(x1, . . . , xn)
n∏
i=1
fi(xi)dx1 · · · dxn.
Die Dichtefunktion der Gleichverteilung auf dem QuaderS = (a1, b1) × . . . × (an, bn) ist bei-
spielsweise
f(x1, . . . , xn) =n∏
i=1
1
bi − aiI(ai,bi)(xi) =
1
Volumen[S]IS(x).
Universität Bonn Wintersemester 2009/2010
166 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Ein anderes Produktmaß von fundamentaler Bedeutung für die Wahrscheinlichkeitstheorie ist die
mehrdimensionale Standardnormalverteilung:
Beispiel(Standardnormalverteilung im Rn). Die Wahrscheinlichkeitsverteilung
µ =n⊗
i=1
N(0, 1)
auf(Rn,B(Rn)) heißtn-dimensionale Standardnormalverteilung. Die mehrdimensionale Stan-
dardnormalverteilung ist absolutstetig mit Dichte
f(x1, . . . , xn) =n∏
i=1
1√2π
· exp(−x
2i
2
)= (2π)−n/2e−‖x‖2/2, x ∈ Rn.
x y
z
Abbildung 5.1: Dichte der Standardnormalverteilung inR2.
Gemeinsame Verteilungen
SindXi : Ω → Si, 1 ≤ i ≤ n, beliebige Zufallsvariablen mit Werten in messbaren Räumen
(Si,Si), welche auf einem gemeinsamen Wahrscheinlichkeitsraum(Ω,A, P ) definiert sind, dann
ist
(X1, . . . , Xn) : Ω −→ S1 × . . .× Sn
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 167
eine Zufallsvariable mit Werten im Produktraum(S1 × . . . × Sn,S1 ⊗ . . . ⊗ Sn), denn fürBi ∈Si, 1 ≤ i ≤ n, gilt:
(X1, . . . , Xn) ∈ B1 × . . .×Bn =n⋂
i=1
Xi ∈ B ∈ A.
Wie zuvor im diskreten Fall (s. Abschnitt 2.4) definieren wir:
Definition. Die VerteilungµX1,...,Xn des Zufallsvektors(X1, . . . , Xn) auf (S1 × . . . × Sn,S1 ⊗. . .⊗ Sn) heißtgemeinsame Verteilungder ZufallsvariablenX1, . . . , Xn.
Der folgende Satz gilt analog zum diskreten Fall:
Satz 5.7.Die folgenden Aussagen sind äquivalent:
(1). Die ZufallsvariablenX1, . . . , Xn sind unabhängig.
(2). Die gemeinsame VerteilungµX1,...,Xn ist ein Produktmaß.
(3). µX1,...,Xn = µX1 ⊗ . . .⊗ µXn.
Beweis.„ (1) =⇒ (3) “: folgt direkt aus der Definition der Unabhängigkeit undder gemeinsamen
Verteilung: SindX1, . . . , Xn unabhängig, dann gilt
µX1,...,Xn [B1 × . . .× Bn] = P [(X1, . . . , Xn) ∈ B1 × . . .×Bn]
= P [Xi ∈ Bi, ∀1 ≤ i ≤ n]
=n∏
i=1
P [Xi ∈ Bi]
=n∏
i=1
µXi[Bi]
für alleBi ∈ Si, 1 ≤ i ≤ n.
„ (3) =⇒ (2) “: Die Implikation ist offensichtlich, und „ (2)=⇒ (1) “ folgt aus Lemma 5.5: Ist
µX1,...,Xn ein Produktmaß, dann sind die kanonischen Projektionenπ1, . . . , πn unabhängig unter
µX1 , . . . , µXn . Also gilt fürBi ∈ Si:
P [X1 ∈ B1, . . . , Xn ∈ Bn] = µX1,...,Xn [B1 × . . .×Bn]
= µX1,...,Xn [π1 ∈ B1, . . . , πn ∈ Bn]
=n∏
i=1
µX1,...,Xn [πi ∈ Bi]
=n∏
i=1
P [πi ∈ Bi]
Universität Bonn Wintersemester 2009/2010
168 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Wir wenden die Aussage von Satz 5.7 nun speziell auf diskreteund reellwertige Zufallsvariablen
an:
Diskrete Zufallsvariablen
Sind die WertebereicheS1, . . . , Sn der ZufallsvariablenX1, . . . , Xn abzählbar, dann wird die
gemeinsame Verteilung vollständig durch die gemeinsame Massenfunktion
pX1,...,Xn(a1, . . . , an) = P [X1 = a1, . . . , Xn = an], (a1, . . . , an) ∈ S1 × . . .× Sn
beschrieben. Die ZufallsvariablenX1, . . . , Xn sind genau dann unabhängig, wenn die gemeinsa-
me Massenfunktion das Produkt der einzelnen Massenfunktionen ist, s. Satz 2.7. Als Konsequenz
aus Satz 5.7 ergibt sich zudem:
Korollar 5.8. SindXi : Ω → Si, 1 ≤ i ≤ n, diskrete Zufallsvariablen, und hat die gemeinsame
Massenfunktion eine Darstellung
pX1,...,Xn(a1, . . . , an) = c ·n∏
i=1
gi(ai) ∀(a1, . . . , an) ∈ S1 × . . .× Sn
in Produktform mit einer Konstantenc ∈ R, und Funktionengi : Si → [0,∞), dann sind
X1, . . . , Xn unabhängig mit Massenfunktion
pXi(ai) =
gi(ai)∑a∈Si
gi(a)
Beweis.Die Werte
gi(ai) =gi(ai)∑
a∈Si
gi(a), ai ∈ Si,
sind die Gewichte eine Wahrscheinlichkeitsverteilungµi aufSi. Nach Voraussetzung gilt
µX1,...,Xn [a1 × . . .× an] = pX1,...,Xn(a1, . . . , an)
= c ·n∏
i=1
µXi[ai] ∀ (a1, . . . , an) ∈ S1 × . . .× Sn(5.2.3)
mit einer reellen Konstantec. Da auf beiden Seiten von (5.2.3) bis auf den Faktorc die Massen-
funktionen von Wahrscheinlichkeitsverteilungen stehen,gilt c = 1, und damit
µX1,...,Xn =n⊗
i=1
µi.
Also sind dieXi unabhängig mit Verteilungµi, d.h. mit Massenfunktiongi.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 169
Beispiel(Zwei Würfel ). SeienX, Y : Ω → 1, 2, 3, 4, 5, 6 gleichverteilte Zufallsvariablen. Für
die Gewichte der gemeinsamen Verteilung vonX undY gibt es dann beispielsweise folgende
Möglichkeiten:
(1). X, Y unabhängig.
1
2
3
4
5
6
1 2 3 4 5 6 X
Y
Abbildung 5.2:X, Y unabhängig;µX,Y = µX ⊗ µY . Gewichte der Punkte sind jeweils136
(2). X, Y deterministisch korreliert, z.B.Y = (X + 1) mod 6.
1
2
3
4
5
6
1 2 3 4 5 6 X
Y
Abbildung 5.3:Y = (X + 1) mod 6. Das Gewicht eines einzelnen Punktes ist16.
(3). Y = (X + Z) mod 6, Z unabhängig vonX, Z = 0,±1 mit Wahrscheinlichkeit13.
Universität Bonn Wintersemester 2009/2010
170 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
1
2
3
4
5
6
1 2 3 4 5 6 X
Y
Abbildung 5.4:Y = (X+Z) mod 6; Z ∼ unif−1, 0, 1. Das Gewicht eines einzelnen Punktes
ist 118
Reelle Zufallsvariablen
Die gemeinsame Verteilung reellwertiger ZufallsvariablenX1, . . . , Xn : Ω → R auf der Produkt-
σ-AlgebraB(Rn) =n⊗
i=1
B(R) ist vollständig durch die Werte
FX1,...,Xn(c1, . . . , cn) := µX1,...,Xn [(−∞, c1]× . . .× (−∞, cn]]
= P [X1 ≤ c1, . . . , Xn ≤ cn], (c1, . . . , cn) ∈ Rn,
beschrieben. Die FunktionFX1,...,Xn : Rn → [0, 1] heißt gemeinsame Verteilungsfunktion.
Insbesondere sindX1, . . . , Xn genau dann unabhängig, wenn
FX1,...,Xn(c1, . . . , cn) =n∏
i=1
FXi(ci) ∀(c1, . . . , cn) ∈ Rn
gilt. In Analogie zu Korollar 5.8 erhalten wir zudem:
Korollar 5.9. SeienX1, . . . , Xn : Ω → R reellwertige Zufallsvariablen.
(1). SindX1, . . . , Xn unabhängige Zufallsvariablen mit absolutstetigen Verteilungen mit Dich-
tenfX1 , . . . , fXn , dann ist die gemeinsame Verteilung absolutstetig mit Dichte
fX1,...,Xn(x1, . . . , xn) =n∏
i=1
fXi(xi) ∀ x ∈ Rn.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 171
(2). Umgekehrt gilt: Ist die gemeinsame Verteilung absolutstetig, und hat die Dichte eine Dar-
stellung
fX1,...,Xn(x1, . . . , xn) = c ·n∏
i=1
gi(xi) ∀ x ∈ Rn
in Produktform mit einer Konstantec ∈ R und integrierbaren Funktionengi : R → [0,∞),
dann sindX1, . . . , Xn unabhängig, und die Verteilungen sind absolutstetig mit Dichten
fXi(xi) =
gi(xi)∫R
gi(t) dt.
Der Beweis verläuft ähnlich wie der von Korollar 5.8, und wirddem Leser zur Übung überlassen.
Beispiel(Zufällige Punkte in der Ebene). SeienX undY unabhängige Zufallsvariablen,N(0, σ2)-
verteilte auf(Ω,A, P ) mit σ > 0. Dann ist die gemeinsame VerteilungµX,Y absolutstetig mit
Dichte
fX,Y (x, y) =1
2πσ2· exp(−x
2 + y2
2σ2), (x, y) ∈ R2.
es gilt(X, Y ) 6= (0, 0) P -fast sicher. Wir definieren den Radial- und Polaranteil
R : Ω → (0,∞), Φ : Ω → [0, 2π)
durch
X = R · cosΦ und Y = R · sinΦ,
d.h.R =√X2 + Y 2 undΦ = arg(X+iY ) falls (X, Y ) 6= (0, 0). Auf der Nullmenge(X, Y ) =
(0, 0) definieren wir(R,Φ) in beliebiger Weise, sodass sich messbare Funktionen ergeben. Wir
berechnen nun die gemeinsame Verteilung vonR undΦ:
P [R ≤ r0,Φ ≤ φ0] = P [(X, Y ) ∈ „Kuchenstück“ mit Winkelφ0 und Radiusr0]
=
∫ ∫
Kuchenstück
fX,Y (x, y) dx dy
=
r0∫
0
φ0∫
0
fX,Y (r cosφ, r sinφ) r︸︷︷︸ dφ drJacobideterminante
der Koordinatentrans.f
=
r0∫
0
∫ φ0
0
r
2πσ2e−r2/(2σ2) dφ dr.
Universität Bonn Wintersemester 2009/2010
172 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Hierbei haben wir im 3. Schritt den Transformationssatz (Substitutionsregel) für mehrdimensio-
nale Integrale verwendet - der Faktorr ist die Jacobideterminante der Koordinatentransformation
(s. Analysis). Es folgt, dass die gemeinsame VerteilungµR,Φ absolutstetig ist mit Dichte
fR,Φ(r, φ) =1
2π· rσ2
· e−r2/(2σ2).
Da die Dichte Produktform hat, sindR undΦ unabhängig. Die RandverteilungµΦ ist absolutste-
tig mit Dichte
fΦ(φ) = const. =1
2π(0 ≤ φ < 2π),
d.h.Φ ist gleichverteilt auf[0, 2π). Somit istµR absolutstetig mit Dichte
φR(r) =r
σ2· e−r2/(2σ2) (r > 0).
Die Berechnung können wir verwenden, um Stichproben von der Standardnormalverteilung zu
simulieren:
Beispiel (Simulation von normalverteilten Zufallsvariablen). Die Verteilungsfunktion einer
N(0, 1)-verteilten ZufallsvariableX ist
FX(x) =1√2π
∫ x
−∞e−t2/2 dt .
Das Integral ist nicht explizit lösbar und die InverseF−1X ist dementsprechend nur approximativ
berechenbar. Daher ist die Simulation einer Standardnormalverteilung durch Inversion der Ver-
teilungsfunktion relativ aufwendig. Ein einfacheres Simulationsverfahren ergibt sich, wenn wir
eine zweidimensionale Standardnormalverteilung betrachten und auf Polarkoordinaten transfor-
mieren. Dann gilt für den Radialanteil:
FR(x) =
∫ x
0
e−r2/2r dr = 1− e−x2/2.
Das Integral ist also explizit berechenbar, und
F−1R (u) =
√−2 log(1− u) , u ∈ (0, 1).
Der WinkelanteilΦ ist unabhängig vonR und gleichverteilt auf[0, 2π). Wir können Zufallsva-
riablen mit der entsprechenden gemeinsamen Verteilung erzeugen, indem wir
Φ := 2πU1 ,
R :=√−2 log(1− U2)
(bzw. =
√−2 logU2
),
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 173
setzen, wobeiU1 undU2 unabhängige, auf(0, 1) gleichverteilte Zufallsvariablen sind. Stichpro-
ben vonU1 undU2 können durch Pseudozufallszahlen simuliert werden. die Zufallsvariablen
X := R cosΦ und Y := R · sinΦ
sind dann unabhängig undN(0, 1)-verteilt. Fürm ∈ R undσ > 0 sindσX + m undσY + m
unabhängigeN(m,σ2)-verteilte Zufallsvariable.
Wir erhalten also den folgenden Algorithmus zur Simulationvon Stichproben einer Normalver-
teilung:
Algorithmus 5.10 (Box-Muller-Verfahren ). Input: m ∈ R, σ > 0
Output: unabhängige Stichprobenx, y vonN(m,σ2).
1. Erzeuge unabhängige Zufallszahlenu1, u2 ∼ U(0,1)
2. x :=√−2 log u1 cos(2πu2), y :=
√−2 log u1 sin(2πu2)
3. x := σx+m, y = σy +m
Beispiel (Ordnungsstatistiken). Für die gesamte Verteilung der OrdnungsstatistikenX(1) ≤. . . ≤ X(n), unabhängiger, identisch verteilter, stetiger ZufallsvariablenX1, . . . , Xn : Ω → R gilt
aus Symmetriegründen und wegenP [Xi = Xj ] = 0 für i 6= j:
P [X(1) ≤ c1, . . . , X(n) ≤ cn] =∑
π∈Sn
P [Xπ(1) ≤ c1, . . . , Xπ(n) ≤ cn, Xπ(1) < . . . < Xπ(n)]
= n! P [X1 ≤ c1, . . . , Xn ≤ cn, X1 < X2 < . . . < Xn]
= n!
c1∫
−∞
· · ·cn∫
−∞
Iy1<y2<...<ynf(y1) · · · f(yn) dy1 · · · dyn.
Also ist die gemeinsame Verteilung vonX(1), . . . , X(n) absolutstetig mit Dichte
fX(1),...,X(n)(y1, . . . , yn) = n! · Iy1<y2<...<ynf(y1) · · · f(yn).
Durch Aufintegrieren erhält man daraus mithilfe des Satzes von Fubini und einer erneuten Sym-
metrieüberlegung die Dichten der Verteilungen der einzelnen Ordnungsstatistiken:
P [X(k) ≤ c] = n!
∫
R
· · ·∫
R
Iy1<y2<...<ynf(y1) · · · f(yn) · IYk≤c dy1 · · · dyn
=
c∫
−∞
f(k)(yk) dyk
Universität Bonn Wintersemester 2009/2010
174 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
mit
f(k)(y) =n!
(k − 1)!(n− k)!F (y)k−1(1− F (y))(n− k)f(y).
Dasselbe Resultat hätte man auch mit etwas Rechnen aus Satz 5.3herleiten können.
Bemerkung (Beta-Verteilungen). Sind die ZufallsvariablenXi auf (0, 1) gleichverteilt, dann
hatX(k) die Dichte
fX(k)(u) = B(k, n− k + 1)−1 · uk−1 · (1− u)n−k · I(0,1)(u)
mit Normierungskonstante
B(a, b) =
∫ 1
0
ua−1(1− u)b−1 du
(=
(a− 1)!(b− 1)!
(a+ b− 1)!für a, b ∈ N
).
Die entsprechende Verteilung heißtBeta-Verteilung mit Parametern a, b > 0, die FunktionB
ist dieEuler’sche Beta-Funktion.
1
2
1
Abbildung 5.5: Abbildung der Dichtefunktionen der zugehörigen Verteilungen von
X(1), . . . , X(5) bein = 5 in (rot, gelb, grün, blau, magenta).
5.3 Unendliche Produktmodelle
Konstruktion von unabhängigen Zufallsvariablen
Seienµ1, µ2, . . . vorgegebene Wahrscheinlichkeitsverteilungen auf(R,B(R)). Wir werden nun
explizit unabhängige ZufallsvariablenXk, k ∈ N, mit Verteilungenµk konstruieren. Als Konse-
quenz ergibt sich die Existenz des unendlichen Produktmaßes∞⊗k=1
µk als gemeinsame Verteilung
der ZufallsvariablenXk. Die ZufallsvariablenXi können wir sogar auf den RaumΩ = (0, 1) mit
Gleichverteilung realisieren:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE 175
Satz 5.11.Auf dem Wahrscheinlichkeitsraum(Ω,B((0, 1)),U(0,1)) existieren unabhängige Zu-
fallsvariablenXk : Ω → R, k ∈ N, mit Verteilungen
P X−1k = µk für alle 1 ≤ i ≤ n.
Beweis.Wir verfahren in drei Schritten:
(1). Wir konstruieren die Zufallsvariablen im Fall
µk = Bernoulli
(1
2
)= U(0,1) ∀ k ∈ N,
d.h. im fairen Münzwurfmodell. Dazu verwenden wir die schonin Abschnitt 4.2 einge-
führte TransformationX : (0, 1) → 0, 1N, die einer reellen Zahl die Ziffernfolge ihrer
Binärdarstellung zuordnet, d.h. wir setzen
Xk(ω) = IDk(ω), Dk =
2k−1⋃
i=1
[(2i− 1) · 2−k, 2i · 2−k),
siehe Abbildung 4.4. Die AbbildungenXk : (0, 1) → 0, 1 sind messbar, und es gilt
P [X1 = a1, . . . , Xn = an] = 2n ∀n ∈ N, a1, . . . , an ∈ 0, 1, (5.3.1)
da die Mengeω ∈ Ω : X1(ω) = a1, . . . , Xn(ω) = an gerade aus den Zahlen in(0, 1)
besteht, deren Binärdarstellung mit den Zifferna1, . . . , an beginnt, und damit ein Inter-
vall der Länge2−n ist. Nach (5.3.1) sindX1, . . . , Xn für alleXk, k ∈ N, unabhängig mit
Verteilungµk.
(2). Wir konstruieren die Zufallsvariablen im Fall
µk = U(0,1) ∀ k ∈ N.
Dazu zerlegen wir die gerade konstruierte FolgeXk(ω) ∈ 0, 1, k ∈ N, in unendlich
viele Teilfolgen, und konstruieren aus jeder Teilfolge wieder eine Zahl aus[0, 1] mit den
entsprechenden Binärziffern. Genauer setzen wir in Binärdarstellung:
U1 := 0.X1X3X5X7 · · · ,U2 := 0.X2X6X10X14 · · · ,U3 := 0.X4X12X20X28 · · · , usw.,
also allgemein fürk ∈ N:
Uk(ω) :=∞∑
i=1
Xk,i(ω) · 2−i mit Xk,i := X(2i−1)·2k−1 .
Universität Bonn Wintersemester 2009/2010
176 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Da die ZufallsvariablenXk,i, i, k ∈ N, unabhängig sind, sind nach dem Zerlegungssatz
auch dieσ-Algebren
Ak = σ(Xk,i|i ∈ N), k ∈ N,
unabhängig, und damit auch dieAk-messbaren ZufallsvariablenUk, k ∈ N. Zudem gilt für
n ∈ N und
r =n∑
i=1
ai · 2i−1 ∈ 0, 1, . . . , 2n − 1 :
P [Uk ∈ (r · 2−n, (r + 1) · 2−n)] = P [Xk,1 = a1, . . . , Xk,n = an] = 2−n.
Da die dyadischen Intervalle ein durchschnittsstabiles Erzeugendensystem der Borelschen
σ-Algebra bilden, folgt, dass die ZufallsvariablenUk auf [0, 1] gleichverteilt sind.
(3). Im allgemeinen Fall konstruieren wir die Zufallsvariablen aus den gerade konstruierten un-
abhängigen gleichverteilten ZufallsvariablenUk, k ∈ N, mithilfe des Inversionsverfahrens
aus Satz 4.19: Sindµk, k ∈ N, beliebige Wahrscheinlichkeitsverteilungen auf(R,B(R)),und
Gk(u) = infx ∈ R : Fk(x) ≥ u
die linksstetigen verallgemeinerten Inversen der Verteilungsfunktionen
Fk(c) = µk[(−∞, c]],
dann setzen wir
Yk(ω) := Gk(Uk(ω)), k ∈ N, ω ∈ Ω.
Da die ZufallsvariablenUk, k ∈ N, unabhängig sind, sind nach Satz 5.2 auch dieYk, k ∈ N,
wieder unabhängig. Zudem gilt nach Satz 4.19:
P Y −1k = µk für allek ∈ N.
Bemerkung. (1). Der Beweis von Satz 5.11 ist konstruktiv. Für numerischeAnwendungen ist
allerdings zumindest der erste Schritt des beschriebenen Konstruktionsverfahrens ungeeig-
net, da Defizite des verwendeten Zufallszahlengenerators und die Darstellungsungenauig-
keit im Rechner durch die Transformation verstärkt werden.
(2). Mithilfe des Satzes kann man auch die Existenz einer Folge unabhängiger Zufallsvariablen
Xk, k ∈ N, mit Werten imRd, oder allgemeiner in vollständigen, separablen, metrischen
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE 177
RäumenSk, k ∈ N, und vorgegebenen Verteilungenµk auf den Borelschenσ-Algebren
B(Sk) zeigen. Sind beispielsweiseφk : R → Sk Bijektionen, sodassφk undφ−1k messbar
sind, und sindXk : Ω → R unabhängige reellwertige Zufallsvariablen mit Verteilungen
P [Xk ∈ B] = µK [φk(B)], dann sind die transformierten Zufallsvariablen
Xk = φk(Xk) : Ω → Sk, ∀k ∈ N,
unabhängig mit Verteilungenµk.
Beispiel (Random Walks im Rd). Sei µ eine Wahrscheinlichkeitsverteilung auf(Rd,B(Rd)),
und seienXi, i ∈ N, unabhängige Zufallsvariablen mit identischer VerteilungXi ∼ µ. Der durch
Sn = a+n∑
i=1
Xi, n = 0, 1, 2, . . . ,
definierte stochastische Prozess heißtRandom Walk mit Startwerta ∈ Rd und Inkrementvertei-
lungµ.
Im Fall d = 1 können wir Stichproben von den ZufallsvariablenXi, und damit vom Random
Walk, beispielsweise mithilfe der Inversionsmethode, simulieren.
Abbildung 5.6: Grafiken von Trajektorien des Random Walks mitverschiedenen Inkrementver-
teilungen.
Abbildung 5.6 zeigt Grafiken von Trajektorien des Random Walks mit den Inkrementverteilungen
µ =1
2(δ1 + δ−1) (klassischer Random Walk (SSRW)),
µ = N(0, 1) (diskrete Brownsche Bewegung),
Universität Bonn Wintersemester 2009/2010
178 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
µ mit Dichte
f(x) = e−(x+1)I(−1,∞)(x) (zentrierteExp(1)-Verteilung)
undµ mit Dichte
f(x) = 3·2−5/2·(x+3
2)−5/2·I( 1
2,∞)(x+
3
2) (zentrierte Pareto(α− 1, α)-Verteilung mitα =
3
2).
1
2
3
1 2 3−1−2−3
Abbildung 5.7: Dichten der drei stetigen Verteilungen aus Abbildung 5.6:fN(0,1) in Blau,
fExp(1)−1 in Magenta undfPareto(α−1,α) in Rot.
Im Gegensatz zu den anderen Verteilungen fällt die Dichte der Pareto-Verteilung fürx → ∞nur sehr langsam ab („heavy tails“). Insbesondere hat die Verteilung unendliche Varianz. Die
Trajektorien der Random Walks werden mit der folgenden Mathematica-Routine simuliert:
nmax = 10000; )
x = RandomChoice [−1 , 1 , nmax ] ;
z = RandomReal [ N o r m a l D i s t r i b u t i o n [ 0 , 1 ] , nmax ] ;
u = RandomReal [ 0 , 1 , nmax ] ; y =−Log [ u ] − 1 ;
$ \ a l pha$ = 3 / 2 ; x0 =$ \ a l pha$ − 1 ; p =
RandomReal [ P a r e t o D i s t r i b u t i o n [ x0 ,$ \ a l pha$ ] , nmax ] ;
m = Mean[ P a r e t o D i s t r i b u t i o n [ x0 , $ \ a l pha$ ] ] ; q = p− m;
rws imple = Accumulate [ x ] ; rwexp = Accumulate [ y ] ;
rwnormal = Accumulate [ z ] ; rwpa re to = Accumulate [ q ] ;
L i s t L i n e P l o t [ rws imple [ [ 1 ; ; 3 0 0 0 ] ] , rwexp [ [ 1 ; ; 3 0 0 0 ] ] ,
rwnormal [ [ 1 ; ; 3 0 0 0 ] ] , rwpa re to [ [ 1 ; ; 3 0 0 0 ] ] ]
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.3. UNENDLICHE PRODUKTMODELLE 179
Die Trajektorien des klassischen Random Walks, und der RandomWalks mit exponential- und
normalverteilten Inkrementen sehen in größeren Zeiträumen ähnlich aus. Die Trajektorien des
Pareto-Random Walks (grün) verhalten sich dagegen anders, und werden auch in längeren Zeiträu-
men von einzelnen großen Sprüngen beeinflusst. Tatsächlichkann man zeigen, dass alle obigen
Random Walks mit Ausnahme des Pareto-Random Walks in einem geeigneten Skalierungslimes
mit Schrittweite gegen 0 in Verteilung gegen eine Brownsche Bewegung konvergieren (funktio-
naler zentraler Grenzwertsatz).
Unendliche Produktmaße
Als Konsequenz aus dem Satz können wir die Existenz von unendlichen Produktmaßen als ge-
meinsame Verteilung von unendlich vielen unabhängigen Zufallsvariablen zeigen. Dazu versehen
wir den Folgenraum
RN = (x1, x2, . . .)|xk ∈ R, ∀ k ∈ N
mit der Produkt-σ-Algebra
⊗
k∈NB(R) = σ(C) = σ(πk|k ∈ N),
die von der KollektionC aller Zylindermengen
π1 ∈ B1, . . . , πn ∈ Bn = x = (xk) ∈ RN|x1 ∈ B1, . . . , xn ∈ Bn,
n ∈ N, B1, . . . , Bn ∈ B(R), von den Koordinatenabbildungenπk : RN → R, πk(x) = xk.
Korollar 5.12 (Existenz von unendlichen Produktmaßen). Zu beliebigen Wahrscheinlichkeits-
verteilungenµk auf(R,B(R)) existiert eine eindeutige Wahrscheinlichkeitsverteilungµ =⊗k∈N
µk
auf (RN,⊗k∈N
B(R)) mit
µ[π1 ∈ B1, . . . , πn ∈ Bn] = µ[B1] · . . . · µn[Bn] (5.3.2)
für alle n ∈ N undB1, . . . , Bn ∈ B(R).
Definition. Die Wahrscheinlichkeitsverteilungµ mit (5.3.2) heißtProdukt der Wahrscheinlich-
keitsverteilungenµk, k ∈ N.
Beweis.Die Eindeutigkeit folgt, da die Zylindermengen ausC ein∩-stabiles Erzeugendensystem
der Produkt-σ-Algebra bilden.
Universität Bonn Wintersemester 2009/2010
180 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Zum Beweis der Existenz: betrachten wir die AbbildungX : Ω → RN mit
X(ω) = (X1(ω), X2(ω), . . .),
wobeiXk unabhängige Zufallsvariablen mit Verteilungµk sind.X ist messbar bzgl.⊗k∈N
B(R),denn
X−1[x ∈ RN|(x1, . . . , xn) ∈ B] = ω ∈ Ω|(X1(ω), . . . , Xn(ω)) ∈ B ∈ A
für allen ∈ N undB ∈ B(Rn). Seiµ = P X−1 die Verteilung vonX aufRN. Dann gilt
µ[π1 ∈ B1, . . . , πm ∈ Bn] = µ[x ∈ RN|x1 ∈ B1, . . . , xn ∈ Bn]= P [X1 ∈ B1, . . . , Xn ∈ Bn]
=n∏
k=1
µk[Bk]
für allen ∈ N undB1, . . . , Bn ∈ B(R). Also istµ das gesuchte Produktmaß.
Bemerkung. Auf analoge Weise folgt nach Bemerkung 2. von oben die Existenz des Produkt-
maßes⊗k∈N
µk von beliebigen Wahrscheinlichkeitsverteilungenµk, k ∈ N, auf vollständigen, se-
parablen, messbaren RäumenSk mit Borelschenσ-AlgebrenSk. Das Produktmaß sitzt auf dem
Produktraum (
×k∈N
Sk,⊗
k∈NSk
).
Der Satz von Carathéodory impliziert sogar die Existenz von beliebigen (auch überabzählbaren)
Produkten von allgemeinen Wahrscheinlichkeitsräumen(Si,Si, µi), i ∈ I.
Sind(Si,Si, µi) beliebige Wahrscheinlichkeitsräume, dann sind die Koordinatenabbildungenπk :
×i∈NSi → Sk unter dem Produktmaß
⊗i∈Iµi unabhängig undµk-verteilt. Man nennt den Produk-
traum
(Ω,A, P ) =(×Si,
⊗Si,⊗
µi
)
daher auch daskanonische Modellfür unabhängigeµi-verteilte Zufallsvariablen.
5.4 Asymptotische Ereignisse
SeiXi (i ∈ I) eine unendliche Kollektion von Zufallsvariablen, die auf einem gemeinsamen
Wahrscheinlichkeitsraum(Ω,A, P ) definiert sind.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE 181
Definition. Ein EreignisA ∈ σ(Xi |i ∈ I) heißtasymptotisches Ereignis (tail event), falls
A ∈ σ(Xi | i ∈ I\I0) für jedeendlicheTeilmengeI0 ⊆ I gilt.
Die Menge
τ =⋂
I0⊆I endlich
σ(Xi | i ∈ I\I0)
aller asymptotischen Ereignisse ist eineσ-Algebra.τ heißtasymptotischeσ-Algebra(tail field).
Beispiel. (1). DYNAMISCH: IstXn, n ∈ N eine Folge von Zufallsvariablen (welche beispiels-
weise eine zufällige zeitliche Entwicklung beschreibt), dann gilt für ein EreignisA ∈σ(Xn, n ∈ N):
A asymptotisch ⇔ A ∈ σ(Xn+1, Xn+2, . . . )︸ ︷︷ ︸Zukunft abn
für allen.
Beispiele für asymptotische Ereignisse von reellwertigen Zufallsvariablen sind
Xn > 5n unendlich oft,lim supn→∞
Xn < c
, ∃ lim
n→∞Xn,
∃ lim 1
nSn = m
,
wobeiSn = X1 + . . .+Xn. Die Ereignisse
supn∈N
Xn = 3 und limSn = 5
sind dagegennichtasymptotisch.
(2). STATISCH: Eine KollektionXi, i ∈ Zd, von Zufallsvariablen auf einem Wahrscheinlich-
keitsraum(Ω,A, P ) heißt stochastisches Feld(random field). Beispielsweise basieren
verschiedene grundlegende Modelle der statistischen Mechanik auf stochastischen Feldern
Xi : Ω → 0, 1, wobeiXi = 1 dafür steht, dass
• sich ein Teilchen am Gitterpunkti befindet,
• ein Atom am Gitterpunkti angeregt ist,
• der Gitterpunkti durchlässig ist (Perkolationsmodell),
• etc.
Asymptotische Ereignisse beschreiben in diesem Fall „makroskopische“ Effekte.
Universität Bonn Wintersemester 2009/2010
182 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Das 0-1-Gesetz von Kolmogorov
Satz 5.13( 0-1-Gesetz von Kolmogorov). SindXi (i ∈ I) unabhängige Zufallsvariablen auf
(Ω,A, P ), dann gilt
P [A] ∈ 0, 1 für alle A ∈ τ .
„Asymptotische Ereignisse sind deterministisch.“
Beweis.Der Übersichtlichkeit halber führen wir den Beweis im FallI = N - der Beweis im
allgemeinen Fall verläuft ähnlich. Es gilt:X1, X2, ... unabhängige Zufallsvariablen
=⇒ σ(X1), σ(X2), ..., σ(Xn), σ(Xn+1), σ(Xn+2), ... unabhängige Mengensysteme
=⇒σ(X1, ..., Xn), σ(Xn+1, Xn+2, ...) sind unabhängig für allen ∈ N
=⇒ σ(X1, ..., Xn) und τ sind unabhängig für allen ∈ N
=⇒τ unabhängig vonσ(X1, X2, ...) ⊇ τ
=⇒ EreignisseA ∈ τ sind unabhängig von sich selbst
=⇒ P [A] ∈ 0, 1 ∀ A ∈ τ .
Hierbei gilt die zweite Implikation nach Satz 5.1 (2), und die vierte nach Satz 5.1 (1)
Anwendungen auf Random Walks und Perkolationsmodelle
Beispiel (Rückkehr zum Startpunkt von Random Walks, Rekurrenz). Wir betrachten einen
eindimensionalen klassischen Random Walk mit Startpunkta ∈ Z und unabhängigen Inkremen-
tenXi mit Verteilung
P [Xi = 1] = p, P [Xi = −1] = 1− p.
Fürn ∈ N erhält man die Rückkehrwahrscheinlichkeiten
P [S2n+1 = a] = 0
P [S2n = a] =
(2n
n
)· pn · (1− p)n =
(2n)!
(n!)2· pn · (1− p)n.
Wir betrachten nun die Asymptotik fürn → ∞ dieser Wahrscheinlichkeiten. Aus derStirlings-
chen Formel
n! ∼√2πn ·
(ne
)n
folgt
P [S2n = a] ∼√4πn
2πn· (
2ne)2n
(ne)2n
· pn · (1− p)n =1√πn
(4p(1− p))n für n→ ∞.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE 183
Fürp 6= 12
fallen die Wahrscheinlichkeiten also exponentiell schnell ab. Insbesondere gilt dann
∞∑
m=0
P [Sm = a] =∞∑
n=0
P [S2n = a] <∞,
d.h. der asymmetrische Random Walk kehrt nach dem 1. Borel-Cantelli Lemma mit Wahrschein-
lichkeit 1 nur endlich oft zum Startpunkt zurück (TRANSIENZ). Nach dem starken Gesetz großer
Zahl gilt sogar
Sn ∼ (2p− 1)n P -fast sicher.
Fürp = 12
gilt dagegenP [S2n = a] ∼ 1/√πn, und damit
∞∑
m=0
P [Sm = a] =∞∑
n=0
P [S2n = a] = ∞.
Dies legt nahe, dass der Startpunkt mit Wahrscheinlichkeit1 unendlich oft besucht wird.
Ein Beweis dieser Aussage über das Borel-Cantelli-Lemma ist aber nicht direkt möglich, da die
EreignisseS2n = 0 nicht unabhängig sind. Wir beweisen nun eine stärkere Aussage mithilfe
des Kolmogorovschen 0-1-Gesetzes:
Satz 5.14(Rekurrenz und unbeschränkte Oszillationen des symmetrischen Random Walks).
Für p = 12
gilt
P [lim Sn = +∞ undlim Sn = −∞] = 1.
Insbesondere ist der eindimensionale Random Walkrekurrent, d.h.
P [Sn = a unendlich oft] = 1.
Tatsächlich wird nach dem Satz mit Wahrscheinlichkeit1 sogar jeder Punktλ ∈ Z unendlich oft
getroffen.
Beweis.Für allek ∈ N gilt:
P [Sn+k − Sn = k unendlich oft] = 1,
denn nach dem Beispiel zu Satz 5.1 („Affe tippt Shakespeare“)gibt esP -fast sicher unendlich
viele Blöcke der Längek mit Xn+1 = Xn+2 = ... = Xn+k = 1. Es folgt
P [lim Sn − lim Sn = ∞] ≥ P
[⋂
k
⋃
n
Sn+k − Sn = k]
= 1,
Universität Bonn Wintersemester 2009/2010
184 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
und damit
1 = P [lim Sn = +∞ oderlim Sn = −∞] ≤ P [lim Sn = +∞] + P [lim Sn = −∞].
Also ist eine der beiden Wahrscheinlichkeiten auf der rechten Seite größer als12, und damit nach
dem Kolmogorovschen 0-1-Gesetz gleich1. Aus Symmetriegründen folgt
P [lim Sn = −∞] = P [lim Sn = +∞] = 1.
Das vorangehende Beispiel zeigt eine typische Anwendung desKolmogorovschen0-1-Gesetzes
auf stochastische Prozesse. Um die Anwendbarkeit in räumlichen Modellen zu demonstrieren,
betrachten wir ein einfaches Perkolationsmodell:
Beispiel(Perkolation im Zd). Seip ∈ (0, 1) fest, und seienXi (i ∈ Zd) unabhängige Zufallsva-
riablen auf einem Wahrscheinlichkeitsraum(Ω,A, P ) mit
P [Xi = 1] = p , P [Xi = 0] = 1− p .
Ein Gitterpunkti ∈ Zd heißtdurchlässig, fallsXi = 1 gilt. Wir verbinden Gitterpunktei, j ∈ Zd
mit |i − j| = 1 durch eine Kante. SeiA das Ereignis, dass bzgl. dieser Graphenstruktur ei-
ne unendliche Zusammenhangskomponente (Cluster) aus durchlässigen Gitterpunkten existiert
(Eine Flüssigkeit könnte in diesem Fall durch ein makroskopisches Modellstück, das aus mi-
kroskopischen Gitterpunkten aufgebaut ist, durchsickern- daher der Name „Perkolation“).A ist
asymptotisch, also gilt nach dem Satz von Kolmogorov
P [A] ∈ 0, 1.
Hingegen ist es im Allgemeinen nicht trivial, zu entscheiden, welcher der beiden Fälle eintritt.
Im Fall d = 1 zeigt man leicht (Übung):
P [A] = 0 für allep < 1.
Fürd = 2 gilt:
P [A] = 1 ⇐⇒ p >1
2,
s. z.B. die Monografie„Percolation“ vonGrimmett. Fürd ≥ 3 ist nur bekannt, dass ein kritischer
Parameterpc ∈ (0, 1) existiert mit
P [A] =
1 für p > pc.
0 für p < pc.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
5.4. ASYMPTOTISCHE EREIGNISSE 185
Man kann obere und untere Schranken fürpc herleiten (z.B. gilt 12d−1
≤ pc ≤ 23), aber der genaue
Wert ist nicht bekannt. Man vermutet, dassP [A] = 0 für p = pc gilt, aber auch diese Aussage
konnte bisher nur in Dimensiond ≥ 19 (sowie fürd = 2) bewiesen werden, siehe das Buch von
Grimmett.
Definition. Eine ZufallsvariableY : Ω → [−∞,∞] heißt asymptotisch, wenn die bzgl. der
asymptotischenσ-Algebraτ messbar ist.
Das Perkolationsmodell ist ein Beispiel für ein sehr einfachformulierbares stochastisches Mo-
dell, das zu tiefgehenden mathematischen Problemstellungen führt. Es ist von großer Bedeu-
tung, da ein enger Zusammenhang zu anderen Modellen der statistischen Mechanik und dabei
auftretenden Phasenübergängen besteht. Einige elementare Aussagen über Perkolationsmodelle
werden in den Wahrscheinlichkeitstheorie-Lehrbüchern von Y. SinaiundA. Klenkehergeleitet.
Korollar 5.15. SindXi (i ∈ I) unabhängige Zufallsvariablen auf einem Wahrscheinlichkeits-
raum(Ω,A, P ), dann ist jede asymptotische ZufallsvariableY : Ω → [−∞,∞] P - fast sicher
konstant, d.h.
∃ c0 ∈ [−∞,∞] : P [Y = c0] = 1 .
Beweis.Ist Y τ - messbar, dann sind die EreignisseY ≤ c, c ∈ R, in τ enthalten. Aus
dem Kolmogorovschen 0-1-Gesetz folgt:
FY (c) = P [Y ≤ c] ∈ 0, 1 ∀ c ∈ R.
Da die Verteilungsfunktion monoton wachsend ist, existiert ein c0 ∈ [−∞,∞] mit
P [Y ≤ c] =
0 für c < c0
1 für c > c0,
und damitP [Y = c0] = limε↓0
(FY (c0)− FY (c0 − ε)) = 1. = 1.
Beispiele für asymptotische Zufallsvariablen im FallI = N sind etwa
limn→∞
Xn, limn→∞
Xn, limn→∞
1
n
n∑
i=1
Xi, sowie limn→∞
1
n
n∑
i=1
Xi.
Insbesondere sind für unabhängige ZufallsvariablenX1, X2, ... : Ω → R sowohl
lim1
n
n∑
i=1
Xi als auch lim1
n
n∑
i=1
Xi P - f.s. konstant.
Universität Bonn Wintersemester 2009/2010
186 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE
Hieraus ergibt sich die folgendeDichotomie: SindXi, i ∈ N, unabhängige reellwertige Zufalls-
variablen, dann giltentwederein Gesetz großer Zahlen, d.h.
1
n
n∑
i=1
Xi konvergiertP - f.s., und der Limes istP - f.s. konstant
(falls der Limes inferior und Limes superiorP -fast sicher übereinstimmen),oder
P
[1
n
n∑
i=1
Xi konvergiert
]= 0.
Es ist bemerkenswert, dass für die Gültigkeit der Dichotomie keine Annahmen über die Vertei-
lung derXi benötigt werden. Insbesondere müssen dieXi nicht identisch verteilt sein!
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
Kapitel 6
Erwartungswert und Varianz
In diesem Kapitel definieren wir den Erwartungswert, die Varianz und die Kovarianz allgemeiner
reellwertiger Zufallsvariablen, und beweisen grundlegende Eigenschaften und Abschätzungen.
Da wir auch Grenzübergänge durchführen wollen, erweist es sich als günstig, die Werte+∞und−∞ zuzulassen. Wir setzen daherR = [−∞,∞]. Der RaumR ist ein topologischer Raum
bzgl. des üblichen Konvergenzbegriffs. Die Borelscheσ-Algebra aufR wird u.a. erzeugt von
den Intervallen[−∞, c], c ∈ R. Die meisten Aussagen über reellwertige Zufallsvariablenaus
den vorangegangenen Abschnitten übertragen sich unmittelbar auf ZufallsvariablenX : Ω → R,
wenn wir die VerteilungsfunktionFX : R → [0, 1] definieren durch
FX(c) = µX [[−∞, c]] = P [X ≤ c].
6.1 Erwartungswert
Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum undX : Ω → R eine Zufallsvariable. Wir wollen den
Erwartungswert (Mittelwert, Prognosewert) vonX bezüglich der Wahrscheinlichkeitsverteilung
P in sinnvoller Weise definieren. Dazu gehen wir schrittweisevor:
Definition des Erwartungswerts
Elementare Zufallsvariablen
NimmtX nur endlich viele Wertec1, ..., cn ∈ R an, dann soll gelten:
E[X] =n∑
i=1
ci · P [X = ci],
187
188 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
d.h. der Erwartungswert ist das Mittel der Werteci gewichtet mit den Wahrscheinlichkeiten der
EreignisseAi := X = ci.
Definition. Eine Zufallsvariable von der Form
X =n∑
i=1
ciIAi(n ∈ N, ci ∈ R, Ai ∈ A)
heißtelementar. Ihr Erwartungswertbzgl.P ist
E[X] :=n∑
i=1
ci · P [Ai].
Diese Definition ist ein Spezialfall der Definition des Erwartungswerts diskreter Zufallsvariablen
aus Kapitel 1. Insbesondere ist der ErwartungswertE[X] wohldefiniert, d.h. unabhängig von der
gewählten Darstellung der ZufallsvariableX als Linearkombination von Indikatorfunktionen,
und die AbbildungX 7→ E[X] ist linear undmonoton:
E[aX + bY ] = a · E[X] + b · E[Y ] für allea, b ∈ R,
X ≤ Y =⇒ E[X] ≤ E[Y ].
Die Definition des Erwartungswerts einer elementaren Zufallsvariable stimmt genau mit der des
Lebesgueintegrals der ElementarfunktionX bzgl. des MaßesP überein:
E[X] =
∫X dP =
∫X(ω) P (dω)
Für allgemeine Zufallsvariablen liegt es nahe, den Erwartungswert ebenfalls als Lebesgueintegral
bzgl. des MaßesP zu definieren. Wir skizzieren hier die weiteren Schritte zurKonstruktion des
Lebesgueintegrals bzw. des Erwartungswerts einer allgemeinen Zufallsvariable, siehe auch die
Analysisvorlesung.
Nichtnegative Zufallsvariablen
Die Definition des Erwartungswerts einer nichtnegativen Zufallsvariable beruht auf der monoto-
nen Approximation durch elementare Zufallsvariablen:
Lemma 6.1.SeiX : Ω → [0,∞] eine nichtnegative Zufallsvariable auf(Ω,A, P ). Dann existiert
eine monoton wachsende Folge elementarer Zufallsvariablen0 ≤ X1 ≤ X2 ≤ . . . mit
X = limn→∞
Xn = supn∈N
Xn.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.1. ERWARTUNGSWERT 189
Beweis.Fürn ∈ N sei
Xn(ω) :=
(k − 1) · 2−n falls (k − 1) · 2−n ≤ X(ω) < k · 2−n für eink = 1, 2, . . . , n · 2n
n falls X(ω) ≥ n.
1
2
3
4
5
1
2
3
4
5
Abbildung 6.1: Approximation durch Elementarfunktionen.Hier ist die Annäherung in rot in
zwei verschiedenen Feinheiten dargestellt.
Universität Bonn Wintersemester 2009/2010
190 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Dann istXn eine elementare Zufallsvariable, denn es gilt
Xn =n2n−1∑
k=0
k
2nI k
2n≤X< k+1
2n + nIX≥n.
Die FolgeXn(ω) ist für jedesω monoton wachsend, da die Unterteilung immer feiner wird, und
supn∈N
Xn(ω) = limn→∞
Xn(ω) = X(ω) für alleω ∈ Ω.
Definition. SeiX : Ω → [0,∞] eine nicht-negative Zufallsvariable.
Der Erwartungswert(bzw. dasLebesgueintegral) vonX bzgl.P ist definiert als
E[X] := limn→∞
E[Xn] = supn→∞
E[Xn] ∈ [0,∞], (6.1.1)
wobeiXn eine monoton wachsende Folge von nichtnegativen elementaren Zufallsvariablen mit
X = supXn ist.
Auch in diesem Fall ist der Erwartungswert wohldefiniert (in[0,∞]):
Lemma 6.2. Die Definition ist unabhängig von der Wahl einer monoton wachsenden FolgeXn
von nichtnegativen Zufallsvariablen mitX = supn∈N
Xn.
Für den Beweis verweisen wir auf die Analysisvorlesung oder auf die Literatur, siehe z.B. Ap-
pendix 5 in WILLIAMS „Probability with martingales.“
Bemerkung. SindXn = IAn undX = IA Indikatorfunktionen, dann folgt (6.1.1) aus der mono-
tonen Stetigkeit vonP . In diesem Fall gilt nämlich:
Xn ր X ⇐⇒ An ր A (d.h.An monoton wachsend undA =⋃
An).
Aus der monotonen Stetigkeit vonP folgt dann
E[X] = P [A] = limP [An] = limE[Xn].
Aus der Definition des Erwartungswerts folgt unmittelbar:
Lemma 6.3. Für nichtnegative ZufallsvariablenX, Y mitX ≤ Y gilt E[X] ≤ E[Y ].
Beweis.Ist X ≤ Y , dann gilt auchXn ≤ Yn für die approximierenden elementaren Zufallsva-
riablen aus Lemma 6.1, also
E[X] = supn∈N
E[Xn] ≤ supn∈N
E[Yn] = E[Y ].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.1. ERWARTUNGSWERT 191
Allgemeine Zufallsvariablen
Eine allgemeine ZufallsvariableX : Ω → R können wir in ihren positiven und negativen Anteil
zerlegen:
X = X+ −X− mit X+ := max(X, 0), X− := −min(X, 0).
X+ undX− sind nichtnegative Zufallsvariablen. Ist mindestens einer der beiden Erwartungswer-
teE[X+] bzw.E[X−] endlich, dann können wir (ähnlich wie in Kapitel 1 für diskrete Zufallsva-
riablen) definieren:
Definition. Der Erwartungswert einer ZufallsvariableX : Ω → R mit E[X+] < ∞ oder
E[X−] <∞ ist
E[X] := E[X+]− E[X−] ∈ [−∞,∞].
Notation: Der ErwartungswertE[X] ist das Lebesgueintegral der messbaren FunktionX :
Ω → R bzgl. des MaßesP . Daher verwenden wir auch folgende Notation:
E[X] =
∫X dP =
∫X(ω) P (dω).
Eigenschaften des Erwartungswerts
Nachdem wir den Erwartungswert einer allgemeinen ZufallsvariableX : Ω → R definiert ha-
ben, fassen wir nun einige grundlegende Eigenschaften des Erwartungswerts zusammen. Dazu
bezeichnen wir mit
L1 = L1(P ) = L1(Ω,A, P ) := X : Ω → R Zufallsvariable | E[|X|] <∞
die Menge aller bzgl.P integrierbaren Zufallsvariablen. Für ZufallsvariablenX ∈ L1(Ω,A, P )ist nach Lemma 6.3 sowohlE[X+] als auchE[X−] endlich. Also ist der ErwartungswertE[X]
definiert und endlich.
Satz 6.4.Für ZufallsvariablenX, Y ∈ L1(Ω,A, P ) unda, b ∈ R gilt:
(1). X ≥ 0 P -fast sicher=⇒ E[X] ≥ 0
(2). Die ZufallsvariableaX + bY ist bzgl.P integrierbar, und
E[aX + bY ] = a · E[X] + b · E[Y ].
Universität Bonn Wintersemester 2009/2010
192 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Insbesondere ist der Erwartungswert monoton:
(3). X ≤ Y P -fast sicher=⇒ E[X] ≤ E[Y ].
Zum Beweis der Eigenschaften (1) und (2) verweisen wir auf dieAnalysisvorlesung oder die
Literatur. Eigenschaft (3) folgt unmittelbar aus (1) und (2).
Nach Aussage (2) des Satzes istL1(Ω,A, P ) ein Vektorraum. Durch
X ∼ Y : ⇐⇒ P [X = Y ] = 1
wird eine Äquivalenzrelation auf diesem Raum definiert. EineKonsequenz von Aussage (3) des
Satzes ist, dass zwei äquivalente (alsoP -fast sicher identische= Zufallsvariablen denselben Er-
wartungswert haben:
X ∼ Y =⇒ E[X] = E[Y ].
Daher ist der Erwartungswert einer Äquivalenzklasse vonP -fast sicher gleichen Zufallsvariablen
eindeutig definiert. In Zukunft verwenden wir häufig dieselbe Notation für die Äquivalenzklassen
und Repräsentanten aus den Äquivalenzklassen. Satz 6.4 besagt, dass der Erwartungswert ein
positives lineares Funktionalauf dem Raum
L1(Ω,A, P ) := L1(Ω,A, P )/ ∼
aller Äquivalenzklassen von integrierbaren Zufallsvariablen definiert. Aus dem Satz folgt zudem:
Korollar 6.5. Durch
‖X‖L1(Ω,A,P ) = E[|X|]
wird eine Norm aufL1(Ω,A, P ) definiert. Insbesondere gilt für ZufallsvariablenX : Ω → R :
E[|X|] = 0 =⇒ X = 0 P -fast sicher.
Beweis.Für eine ZufallsvariableX : Ω → R mit E[|X|] = 0 undε > 0 gilt wegen der Monoto-
nie und Linearität des Erwartungswerts:
P [|X| ≥ ε] = E[I|X|≥ε] ≤ E
[ |X|ε
]=
1
εE[|X|] = 0.
Für εց 0 folgt
P [|X| > 0] = limεց0
P [|X| ≥ ε] = 0,
alsoX = 0 P -fast sicher.
Zudem folgt aus der Monotonie und Linearität des Erwartungswerts die Dreiecksungleichung:
E[|X + Y |] ≤ E[|X|+ |Y |] = E[|X|] + E[|Y |].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.1. ERWARTUNGSWERT 193
In der Analysis wird gezeigt, dass der RaumL1(Ω,A, P ) bzgl. der im Korollar definierten Norm
ein Banachraum ist.
Konvergenzsätze
Ein Vorteil des Lebesgueintegrals gegenüber anderen Integrationsbegriffen ist die Gültigkeit von
sehr allgemeinen Konvergenzsätzen. Diese lassen sich zurückführen auf den folgenden funda-
mentalen Konvergenzsatz, der sich aus der oben skizziertenKonstruktion des Lebesgueintegrals
ergibt:
Satz 6.6(Satz von der monotonen Konvergenz, B. Levi). IstXn, n ∈ N, eine monoton wach-
sende Folge von Zufallsvariablen mitE[X−1 ] <∞ (z.B.X1 ≥ 0), dann gilt:
E[supn∈N
Xn] = E[ limn→∞
Xn] = limn→∞
E[Xn] = supn∈N
E[Xn].
Der Beweis findet sich in zahlreichen Lehrbüchern der Integrations- oder Warscheinlichkeits-
theorie, siehe z.B. WILLIAMS : PROBABILITY WITH MARTINGALES , APPENDIX 5.
Eine erste wichtige Konsequenz des Satzes von der monotonenKonvergenz ist:
Korollar 6.7. Für nichtnegative ZufallsvariablenXi, i ∈ N, gilt:
E
[ ∞∑
i=1
Xi
]=
∞∑
i=1
E[Xi].
Beweis.
E
[ ∞∑
i=1
Xi
]= E
[limn→∞
n∑
i=1
Xi
]
= limn→∞
E
[n∑
i=1
Xi
](wegen monotoner Konvergenz)
= limn→∞
n∑
i=1
E[Xi] (wegen Linearität)
=∞∑
i=1
E[Xi].
Bemerkung (Abzählbare Wahrscheinlichkeitsräume, Summation als Spezialfall von Inte-
gration). FallsΩ abzählbar ist, können wir jede ZufallsvariableX : Ω → R auf die folgende
Weise als abzählbare Linearkombination von Indikatorfunktionen darstellen:
X =∑
ω∈ΩX(ω) · Iω.
Universität Bonn Wintersemester 2009/2010
194 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
IstX ≥ 0, dann gilt nach Korollar 6.7:
E[X] =∑
ω∈ΩX(ω) · P [ω].
Dieselbe Darstellung des Erwartungswerts gilt auch für allgemeine reellwertige Zufallsvariablen
aufΩ, falls der Erwartungswert definiert ist, d.h.E[X+] oderE[X−] endlich ist.
Insbesondere sehen wir, dassSummation ein Spezialfall von Integrationist: IstΩ abzählbar und
p(ω) ≥ 0 für alleω ∈ Ω, dann gilt
∑
ω∈ΩX(ω) · p(ω) =
∫X dP,
wobeiP das Maß mit Massenfunktionp ist. Beispielsweise gilt also
∑
ω∈ΩX(ω) =
∫X dν,
wobeiν das durchν[A] = |A|, A ⊆ Ω, definierte Zählmaß ist.
Konvergenzsätze wie der Satz von der monotonen Konvergenz lassen sich also auch auf Summen
anwenden!
Beispiel. Ist P die Gleichverteilung auf einer endlichen MengeΩ, dann ist
E[X] =1
|Ω|∑
ω∈ΩX(ω)
dasarithmetische Mittel von X.
Wir beweisen nun noch zwei wichtige Konvergenzsätze, die sich aus dem Satz von der monoto-
nen Konvergenz ergeben:
Korollar 6.8 (Lemma von Fatou). SeienX1, X2, · · · : Ω → R Zufallsvariablen auf einem
Wahrscheinlichkeitsraum(Ω,A, P ) und seiY ∈ L1(Ω,A, P ) (z.B.Y ≡ 0).
(1). GiltXn ≥ Y für alle n ∈ N, dann folgt
E[lim infXn] ≤ lim inf E[Xn].
(2). GiltXn ≤ Y für alle n ∈ N, dann folgt
E[lim supXn] ≥ lim sup E[Xn].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 195
Beweis.Die Aussagen folgen aus dem Satz über monotone Konvergenz. Beispielsweise gilt:
E [lim inf Xn] = E
[limn→∞
infk≥n
Xk
]= lim
n→∞E
[infk≥n
Xk
]
≤ limn→∞
infk≥n
E[Xk] = lim infn→∞
E[Xn],
da die Folge der Infima monoton wachsend ist und durch die integrierbare ZufallsvariableY nach
unten beschränkt ist. Die zweite Aussage zeigt man analog.
Korollar 6.9 (Satz von der majorisierten Konvergenz, Lebesgue). SeiXn : Ω → R, n ∈N, eineP -fast sicher konvergente Folge von Zufallsvariablen. Existiert eine MajoranteY ∈L1(Ω,A, P ) mit |Xn| ≤ Y für alle n ∈ N, dann gilt
E[limXn] = lim E[Xn]. (6.1.2)
Beweis.Nach dem Lemma von Fatou gilt:
E[lim infXn] ≤ lim inf E[Xn] ≤ lim sup E[Xn] ≤ E[lim supXn],
daXn ≥ −Y ∈ L1 undXn ≤ Y ∈ L1 für allen ∈ N gilt. KonvergiertXn P -fast sicher, dann
stimmen die linke und rechte Seite der obigen Ungleichungskette überein.
Beispiel. Wir betrachten Setzen mit Verdoppeln auf »Null« für eine Folge von fairen Münz-
würfen. Bei Anfangseinsatz1 beträgt das Kapital des Spielers nachn Münzwürfen
Xn = 2n · In<T ,
wobeiT die Wartezeit auf die erste »Eins« ist. Es folgt
E[Xn] = 2nP [T > n] = 2n · 2−n = 1 für allen ∈ N,
das Spiel ist also fair. Andererseits fällt aberP -fast sicher irgendwann eine »Eins«, d.h. es gilt:
limn→∞
Xn = 0 P -fast sicher.
Die Aussage (6.1.2) des Satzes von Lebesgue ist in dieser Situation nicht erfüllt!
6.2 Berechnung von Erwartungswerten; Dichten
Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum. In diesem Abschnitt zeigen wir, wie man in verschie-
denen Fällen den Erwartungswert einer ZufallsvariableX : Ω → [0,∞] aus der Verteilung von
X berechnen kann.
Universität Bonn Wintersemester 2009/2010
196 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Diskrete Zufallsvariablen
FallsX nur abzählbar viele Werte annimmt, können wir die ZufallsvariableX auf folgende Weise
als abzählbare Linearkombination von Indikatorfunktionen darstellen:
X =∑
a∈X(Ω)
a · IX=a.
Es folgt:
E[X] =∑
a∈X(Ω)
E[a · IX=a] =∑
a∈X(Ω)
a · P [X = a].
Dieselbe Aussage gilt allgemeiner für diskrete reellwertige ZufallsvariablenX mit
E[X+] <∞ oder E[X−] <∞.
Für ZufallsvariablenX : Ω → S, mit Werten in einer beliebigen abzählbaren MengeS, und eine
Borel-messbare Funktionh : S → R erhalten wir entsprechend
E[h(X)] =∑
a∈X(Ω)
h(a) · P [X = a], (6.2.1)
fallsE[h(X)] definiert ist, also z.B. fallsh ≥ 0 oderh(X) ∈ L1(Ω,A, P ) gilt.
Die allgemeine Definition des Erwartungswerts als Lebesgueintegral stimmt also für diskrete
Zufallsvariablen mit der in Kapitel 1 gegebenen Definition überein.
Allgemeine Zufallsvariablen
Die Berechnungsmethode (6.2.1) für den Erwartungswert diskreter Zufallsvariablen lässt sich auf
Zufallsvariablen mit beliebigen Verteilungen erweitern.Sei dazu(Ω,A, P ) ein Wahrscheinlich-
keitsraum,(S,S) ein messbarer Raum,X : Ω → S eine Zufallsvariable, undh : S → [0,∞]
eine messbare Abbildung.
Satz 6.10(Transformationssatz). Unter den obigen Voraussetzungen gilt:
EP [h(X)] =
∫h(X(ω))P (dω) =
∫h(x) µ(dx) = Eµ[h],
wobeiµ = P X−1 die Verteilung vonX unterP ist, undEP bzw.Eµ den Erwartungswert unter
P bzw.µ bezeichnet.
Die Erwartungswerte hängen somit nur von der Verteilung vonX ab!
Beweis.Der Beweis erfolgt in drei Schritten:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 197
(1). Isth = IB die Indikatorfunktion einer messbaren MengeB ∈ S, dann gilt:
E[h(X)] =
∫IB(X(ω))P (dω) = P [X−1(B)] = µ[B] =
∫IB dµ,
daIB(X(ω)) = IX−1(B)(ω) gilt.
(2). Für Linearkombinationenh =∑n
i=1 aiIBivon Indikatorfunktionen mitn ∈ N, ai ∈ R, und
Bi ∈ S gilt die Aussage auch, da das Lebesgueintegral linear vom Integranden abhängt.
(3). Für eine allgemeine messbare Funktionh ≥ 0 existiert schließlich eine monoton wachsen-
de Folgehn von Elementarfunktionen mithn(x) ր h(x) für allex ∈ S. Durch zweimalige
Anwendung des Satzes von der monotonen Konvergenz erhaltenwir erneut:
E[h(X)] = E[limhn(X)] = limE[hn(X)] = lim
∫hn dµ =
∫h dµ.
Das hier verwendeteBeweisverfahren der »maßtheoretischen Induktion«wird noch sehr häufig
auftreten: Wir zeigen eine Aussage
(1). für Indikatorfunktionen,
(2). für Elementarfunktionen,
(3). für nichtnegative messbare Funktionen,
(4). für allgemeine integrierbare Funktionen.
Mit maßtheoretischer Induktion zeigt man auch:
Übung: Jedeσ(X)-messbare ZufallsvariableY : Ω → R ist vom TypY = h(X) mit einer
messbaren Funktionh : S → R.
Nach Satz 6.10 ist der ErwartungswertE[T ] einer reellwertigen ZufallsvariableT : Ω → [0,∞]
eindeutig bestimmt durch die VerteilungµT = P T−1:
E[T ] =
∫t µT (dt) ,
also auch durch die Verteilungsfunktion
FT (t) = P [T ≤ t] = µT [[0, t]], t ∈ R.
Der folgende Satz zeigt, wie man den Erwartungswert konkretausFT berechnet:
Universität Bonn Wintersemester 2009/2010
198 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Satz 6.11.Für eine ZufallsvariableT : Ω → [0,∞] gilt
E[T ] =
∫ ∞
0
P [T > t] dt =
∫ ∞
0
(1− FT (t)) dt.
Beweis.Wegen
T (ω) =
∫ T (ω)
0
dt =
∫ ∞
0
IT>t(ω)dt
erhalten wir
E[T ] = E
[∫ ∞
0
IT>tdt
]=
∫ ∞
0
E[IT>t
]dt =
∫ ∞
0
P [T > t] dt.
Hierbei haben wir im Vorgriff auf Kapitel 9 denSatz von Fubinibenutzt, der gewährleistet, dass
man zwei Lebesgueintegrale (das Integral übert und den Erwartungswert) unter geeigneten Vor-
aussetzungen (Produktmessbarkeit) vertauschen kann, siehe Satz 9.1.
Bemerkung (Stieltjesintegral). Das Lebesgue-Stieltjes-Integral∫h dF einer messbaren Funkti-
onh : R → [0,∞] bzgl. der VerteilungsfunktionF einer Wahrscheinlichkeitsverteilungµ aufR
ist definiert als das Lebesgueintegral
∫h(t) dF (t) :=
∫h(t) µ(dt).
Ist h stetig, dann lässt sich das Integral als Limes von Riemannsummen darstellen. Nach dem
Transformationssatz gilt für eine ZufallsvariableT : Ω → [0,∞]:
E[T ] =
∫t µT (dt) =
∫t dFT (t).
Die Aussage von Satz 6.11 folgt hieraus formal durch partielle Integration.
Beispiel(Exponentialverteilung). Für eine exponentialverteilte ZufallsvariableT mit Parameter
λ > 0 erhalten wir:
E[T ] =
∞∫
0
P [T > t] dt =
∞∫
0
e−λt dt =1
λ.
Es gilt also
Mittlere Wartezeit =1
Mittlere relative Häufigkeit pro Zeiteinheit
.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 199
Beispiel(Heavy tails). Seiα > 0. Für eine ZufallsvariableT : Ω → [0,∞) mit
P [T > t] ∼ t−α für t→ ∞
gilt
E[T ] =
∞∫
0
P [T > t] dt < ∞
genau dann, wennα > 1. Allgemeiner ist dasp-te Moment
E[T p] =
∞∫
0
P [T p > t] dt =
∞∫
0
P [T > t1/p]︸ ︷︷ ︸∼tα/p
dt
nur fürp < α endlich.
Zufallsvariablen mit Dichten
Die Verteilungen vieler Zufallsvariablen haben eine Dichte bzgl. des Lebesguemaßes, oder bzgl.
eines anderen geeigneten Referenzmaßes. Wir wollen uns nun überlegen, wie man in diesem Fall
den Erwartungswert berechnet.
Sei (S,S) ein messbarer Raum undν ein Maß auf(S,S) (z.B. das Lebesguemaß oder eine
Wahrscheinlichkeitsverteilung).
Definition. Eine Wahrscheinlichkeitsdichteauf (S,S, ν) ist eine messbare Funktion : S →[0,∞] mit ∫
S
(x) ν(dx) = 1.
Satz 6.12. (1). Ist eine Wahrscheinlichkeitsdichte auf(S,S, ν), dann wird durch
µ[B] :=
∫
B
(x) ν(dx) =
∫IB(x)(x) ν(dx) (6.2.2)
eine Wahrscheinlichkeitsverteilungµ auf (S,S) definiert.
(2). Für eine messbare Funktionh : S → [0,∞] gilt∫h(x) µ(dx) =
∫h(x)(x) ν(dx). (6.2.3)
Insbesondere folgt nach dem Transformationssatz:
E[h(X)] =
∫h(x)(x) ν(dx)
für jede ZufallsvariableX mit Verteilungµ.
Universität Bonn Wintersemester 2009/2010
200 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beweis.Wir zeigen zunächst, dassµ eine Wahrscheinlichkeitsverteilung ist: SindB1, B2, ... ∈ Sdisjunkt, so folgt
µ
[ ∞⋃
i=1
Bi
]=
∫I⋃∞
i=1 Bi(x) · (x) ν(dx)
= limn→∞
∫I⋃n
i=1 Bi(x) · (x) ν(dx) (wegen ≥ 0 und monotoner Konvergenz)
= limn→∞
n∑
i=1
∫
Bi
(x) ν(dx) = limn→∞
n∑
i=1
µ[Bi]
=∞∑
i=1
µ[Bi].
Zudem gilt:
µ[S] =
∫ dν = 1.
Die Aussage (6.2.3) über den Erwartungswert beweisen wir durch maßtheoretische Induktion:
(1). Die Aussage folgt unmittelbar, wennh = IB für B ∈ S gilt.
(2). Für Linearkombinationenh =∑n
i=1 ciIBifolgt die Aussage aus der Linearität beider Sei-
ten von (6.2.3) inh.
(3). Für allgemeineh ≥ 0 existiert eine Teilfolgehn aus Elementarfunktionen mithn ր h. Mit
monotoner Konvergenz folgt∫h dµ = lim
∫hn dµ = lim
∫hn dν =
∫h dν.
Bemerkung. Durch (6.2.2) wird die Dichte (x) der Wahrscheinlichkeitsverteilungµ bzgl. des
Maßesν für ν-fast allex eindeutig festgelegt: Existiert∈ L1(S,S, ν) mit∫
B
dν = µ[B] =
∫
B
˜dν für alleB ∈ S,
dann folgt:∫
>˜(− ˜) dν =
∫
<˜(− ˜) dν = 0, also
∫(− ˜)+ dν =
∫(− ˜)− dν = 0.
Somit erhalten wir:
(− ˜)+ = (− ˜)− = 0 ν-fast überall,
und damit = ˜ ν-fast überall.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 201
Notation: Die Aussage (6.2.3) rechtfertigt die folgende Notation füreine Wahrscheinlichkeits-
verteilungµ mit Dichte bzgl.ν:
µ(dx) = (x) ν(dx) bzw. dµ = dν bzw. µ = · ν.
Für die nach der Bemerkungν-fast überall eindeutig bestimmte Dichte vonµ bzgl.ν verwenden
wir dementsprechend auch die folgende Notation:
(x) =dµ
dν(x).
Wichtige Spezialfälle:
(1). MASSENFUNKTION ALSDICHTE BZGL. DES ZÄHLMASSES.
Das Zählmaß auf einer abzählbaren MengeS ist das durch
ν[B] = |B|, B ⊆ S,
definierte Maß aufS. Die Gewichtsfunktionx 7→ µ[x] einer Wahrscheinlichkeitsvertei-
lung µ auf S ist die Dichte vonµ bzgl. des Zählmaßesν. Insbesondere ist die Massen-
funktion einer diskreten ZufallsvariableX : Ω → S die Dichte der Verteilung vonX bzgl.
ν:
µX [B] = P [X ∈ B] =∑
a∈BpX(a) =
∫
B
pX(a)ν(da), für alleB ⊆ S.
Die Berechnungsformel für den Erwartungswert diskreter Zufallsvariablen ergibt sich da-
mit als Spezialfall von Satz 6.12:
E[h(X)]6.12=
∫h(a)pX(a)ν(da) =
∑
a∈Sh(a)pX(a) für alleh : S → [0,∞].
(2). DICHTEN BZGL. DES LEBESGUEMASSES
Eine Wahrscheinlichkeitsverteilungµ auf Rd mit Borelscherσ-Algebra hat genau dann
eine Dichte bzgl. des Lebesguemaßesλ, wenn
µ[(−∞, c1]× . . .× (−∞, cd]] =
c1∫
−∞
· · ·cd∫
−∞
(x1, . . . , xd) dxd · · · dx1
für alle (c1, . . . , cd) ∈ Rd gilt. Insbesondere hat die Verteilung einer reellwertigenZufalls-
variableX genau dann die DichtefX bzgl.λ, wenn
FX(c) = µX [(−∞, c]] =
c∫
−∞
fX(x) dx für alle c ∈ R
Universität Bonn Wintersemester 2009/2010
202 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
gilt. Die Verteilungsfunktion ist in diesem Fall eine Stammfunktion der Dichte, und damit
λ-fast überall differenzierbar mit Ableitung
F ′X(x) = fX(x) für fast allex ∈ R.
Für den Erwartungswert ergibt sich:
E[h(X)] =
∫
R
h(x)fX(x) dx
für alle messbaren Funktionenh : R → R mit h ≥ 0 oderh ∈ L1(R,B(R), µ).
Beispiel (Normalverteilungen). Die Dichte der Standardnormalverteilung bzgl. des Lebesgue-
maßes ist (x) = (2π)−1/2 · e−x2/2. Damit ergibt sich für den Erwartungswert und die Varianz
einer ZufallsvariableZ ∼ N(0, 1):
E[Z] =
∞∫
−∞
x · (2π)−1/2 · e−x2/2 dx = 0, und
Var[Z] = E[(Z − E[Z])2] = E[Z2]
=
∞∫
−∞
x2 · (2π)−1/2 · e−x2/2 dx
=
∞∫
−∞
1 · (2π)−1/2 · e−x2/2 dx = 1.
Hierbei haben wir im letzten Schritt partielle Integrationbenutzt.
IstX eineN(m,σ2)-verteilte Zufallsvariable, dann istZ = X−mσ
standardnormalverteilt, und es
gilt X = m+ σZ, also
E[X] = m+ σE[Z] = m,
und
Var[X] = Var[σZ] = σ2 Var[Z] = σ2.
Die Parameterm undσ geben also den Erwartungswert und die Standardabweichung der Nor-
malverteilung an.
(3). RELATIVE DICHTEN: Seienµ und ν zwei Wahrscheinlichkeitsverteilungen auf einem
messbaren Raum(S,S) mit Dichtenf bzw.g bezüglich eines Referenzmaßesλ (z.B. Zähl-
maß oder Lebesguemaß). Giltg > 0 λ-fast überall, dann hatµ bzgl.ν die Dichte
dµ
dν=
f
g=
dµ/dλ
dν/dλ,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 203
denn nach Satz 6.12 gilt:
µ[B] =
∫
B
f dλ =
∫
B
f
gg dλ
=
∫
B
f
gdν für alleB ∈ S.
In der Statistik treten relative Dichten als „Likelihoodquotienten“ auf, wobeif(x) bzw.
g(x) die „Likelihood“ eines Beobachtungswertesx bzgl. verschiedener möglicher zugrun-
deliegender Wahrscheinlichkeitsverteilungen beschreibt, s. Abschnitt 9.1.
Existenz von Dichten
Wir geben abschließend ohne Beweis den Satz von Radon-Nikodyman. Dieser Satz besagt, dass
eine Wahrscheinlichkeitsverteilung (oder allgemeiner ein σ-endliches Maß)µ genau dann ei-
ne Dichte bzgl. eines anderen (σ-endlichen) Maßesν hat, wenn alleν-Nullmengen auchµ-
Nullmengen sind. Ein Maßµ auf einem messbaren Raum(S,S) heißtσ-endlich, wenn eine
Folge von messbaren MengenBn ∈ S mit µ[Bn] <∞ undS =⋃n∈N
Bn existiert.
Definition. (1). Ein Maßµ auf (S,S) heißt absolutstetigbzgl. eines anderen Maßesν auf
demselben messbaren Raum (µ≪ ν) falls für alleB ∈ S gilt:
ν[B] = 0 =⇒ µ[B] = 0
(2). Die Maßeµ undν heißenäquivalent(µ ∼ ν), fallsµ≪ ν undν ≪ µ.
Beispiel. Ein Diracmaßδx, x ∈ R, ist nicht absolutstetig bzgl. das Lebesguemaßesλ aufR, denn
es giltλ[x] = 0, aberδx[x] > 0. Umgekehrt ist auch das Lebesguemaß nicht absolutstetig
bzgl. des Diracmaßes.
Satz 6.13(Radon-Nikodym). Für σ-endliche Maßeµ undν gilt µ ≪ ν genau dann, wenn eine
Dichte ∈ L1(S,S, ν) existiert mit
µ[B] =
∫
B
dν für alleB ∈ S.
Die eine Richtung des Satzes zeigt man leicht: Hatµ eine Dichte bzgl.ν, und giltν[B] = 0, so
folgt
µ[B] =
∫
B
dν =
∫ · IB dν = 0,
Universität Bonn Wintersemester 2009/2010
204 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
da · IB = 0 ν-fast überall. Der Beweis der Umkehrung ist nicht so einfach,und kann funk-
tionalanalytisch erfolgen, siehe z.B. Klenke: „Wahrscheinlichkeitstheorie“. Einen stochastischen
Beweis über Martingaltheorie werden wir in der Vorlesung „Stochastische Prozesse“ führen.
Beispiel (Absolutstetigkeit von diskreten Wahrscheinlichkeitsverteilungen). Sind µ und ν
Wahrscheinlichkeitsverteilungen (oderσ-endliche Maße) auf einer abzählbaren MengeS, dann
gilt µ ≪ ν genau dann, wennµ(x) = 0 für alle x ∈ S mit ν(x) = 0 gilt. In diesem Fall ist die
Dichte vonµ bzgl.ν durch
dµ
dν(x) =
µ(x)
ν(x)falls ν(x) 6= 0
beliebig sonst
gegeben. Man beachte, dass die Dichte nur fürν-fast allex, also für allexmit ν(x) 6= 0, eindeutig
bestimmt ist.
6.3 Varianz, Kovarianz und lineare Regression
Varianz und Standardabweichung
SeiX : Ω → R eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum(Ω,A, P ).Wie zuvor für diskrete Zufallsvariablen (s. Abschnitt 3.1)definieren wir auch im allgemeinen Fall
dieVarianzVar[X] und die Standardabweichungσ[X] durch
Var[X] := E[(X − E[X])2], σ[X] :=√
Var[X].
Auch in diesem Fall folgen aus der Linearität des Erwartungswerts die Rechenregeln
Var[X] = E[X2]− E[X]2, und (6.3.1)
Var[aX + b] = Var[aX] = a2 · Var[X] für allea, b ∈ R. (6.3.2)
Insbesondere ist die Varianz genau dann endlich, wennE[X2] endlich ist. Nach Korollar 6.5
gilt zudem genau dannVar[X] = 0, wennX P -f.s. konstant gleichE[X] ist. Aufgrund des
Transformationssatzes für den Erwartungswert können wir die Varianz auch allgemein aus der
VerteilungµX = P X−1 berechnen:
Korollar 6.14. Die VarianzVar[X] hängt nur von der VerteilungµX = P X−1 ab:
Var[X] =
∫(x− x)2 µX(dx) mit x = E[X] =
∫x µ(dx).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 205
Beweis.Nach Satz 6.12 gilt
Var[X] = E[(X − E[X])2] =
∫(x− E[X])2µX(dx)
mit E[X] =∫xµX(dx).
Beispiel(Empirisches Mittel und empirische Varianz). Ist die zugrundeliegende Wahrschein-
lichkeitsverteilung aufΩ eine empirische Verteilung
P =1
n
n∑
i=1
δωi
vonnElementenω1, . . . , ωn aus einer Grundgesamtheit (z.B. alle Einwohner von Bonn, odereine
Stichprobe daraus), dann ist die Verteilung einer AbbildungX : Ω → S (statistisches Merkmal,
z.B. Alter der Einwohner von Bonn) gerade die empirische Verteilung der auftretenden Werte
xi = X(ωi):
µX =1
n
n∑
i=1
δxi.
Die Gewichte der empirischen Verteilung sind die relativenHäufigkeiten
µX(a) =h(a)
n, h(a) = |1 ≤ i ≤ n : xi = a|.
Für den Erwartungswert einer Funktiong(X), g : S → R, ergibt sich
E[g(X)] =∑
a∈x1,...,xng(a) · h(a)
n=
1
n
n∑
i=1
g(xi),
d.h. der Erwartungswert bzgl. der empirischen Verteilung ist das arithmetische Mittel der Werte
g(xi).
IstX reellwertig, so erhalten wir als Erwartungswert und Varianz dasempirische Mittel
E[X] =∑
a∈x1,...,xna · h(a)
n=
1
n
n∑
i=1
xi =: xn,
und dieempirische Varianz
Var[X] = E[(X − E[X])2] =∑
a∈x1,...,xn(a− xn)
2 · h(a)n
=1
n
n∑
i=1
(xi − xn)2 = (x2)n − (xn)
2 =: σ2n.
Universität Bonn Wintersemester 2009/2010
206 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Sind diexi selbst unabhängige Stichproben von einer Wahrscheinlichkeitsverteilungµ, dann ist
die empirische Verteilungn−1n∑
i=1
δxinach dem Gesetz der großen Zahlen eine Approximation
vonµ, siehe Abschnitt 7.2 unten. Daher verwendet man das Stichprobenmittelxn und die Stich-
probenvarianzσ2n bzw. die renormierte Stichprobenvarianz
s2n =1
n− 1
n∑
i=1
(xi − xn)2
in der Statistik, um den Erwartungswert und die Varianz einer zugrundeliegenden (unbekannten)
Verteilung zu schätzen.
Beispiel (Exponentialverteilung). Für eine zum Parameterλ > 0 exponentialverteilte Zufalls-
variableT gilt E[T ] = 1λ. Mit partieller Integration folgt zudem:
E[T 2] =
∞∫
0
t2fT (t) dt =
∞∫
0
t2λe−λt dt
=
∞∫
0
2te−λt dt =2
λ
∞∫
0
tfT (t) dt
=2
λE[T ] =
2
λ2,
also
σ(T ) =√Var[T ] = (E[T 2]− E[T ]2)1/2 =
1
λ.
Die Standardabweichung ist also genauso groß wie der Erwartungswert!
Beispiel(Heavy Tails). Eine ZufallsvariableX : Ω → R mit Verteilungsdichte
fX(x) ∼ |x|−p für |x| → ∞
ist integrierbar fürp > 2. Fürp ∈ (2, 3] gilt jedoch
Var[X] =
∞∫
−∞
(x− E[X])2fX(x) dx = ∞.
Quadratintegrierbare Zufallsvariablen
Für einen gegebenen Wahrscheinlichkeitsraum(Ω,A, P ) bezeichnen wir mitL2(Ω,A, P ) den
Raum aller bezüglichP quadratintegrierbaren Zufallsvariablen:
L2(Ω,A, P ) = X : Ω → R messbar| E[X2] <∞.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 207
Der Raum ist ein Unterraum des Vektorraums allerA/B(R) messbaren Abbildungen, denn für
X, Y ∈ L2(Ω,A, P ) unda ∈ R gilt:
E[(aX + Y )2] ≤ E[2(aX)2 + 2Y 2] = 2a2E[X2] + 2E[Y 2] < ∞.
Zudem gilt
L2(Ω,A, P ) ⊆ L1(Ω,A, P ),
denn aus|X| ≤ (X2 + 1)/2 folgt
E[|X|] ≤ E
[1
2(X2 + 1)
]=
1
2(E[X2] + 1) < ∞
für alleX ∈ L2(Ω,A, P ). Hierbei haben wir wesentlich benutzt, dassP ein endliches Maß ist
- für unendliche Maße ist der RaumL2 nicht in L1 enthalten! Nach (6.3.1) ist umgekehrt eine
Zufallsvariable ausL1 genau dann inL2 enthalten, wenn sie endliche Varianz hat.
Auf dem Vektorraum
L2(Ω,A, P ) = L2(Ω,A, P )/ ∼
der Äquivalenzklassen vonP -fast sicher gleichen quadratintegrierbaren Zufallsvariablen wird
durch
(X, Y )L2 := E[XY ] und ‖X‖L2 := (X,X)1/2
L2
ein Skalarprodukt und eine Norm definiert. Hierbei ist der ErwartungswertE[XY ]wegen|XY | ≤(X2 + Y 2)/2 definiert. Insbesondere gilt dieCauchy-Schwarz-Ungleichung
|E[XY ]| ≤ E[X2]1/2 · E[Y 2]1/2 für alleX, Y ∈ L2(Ω,A, P ).
In der Analysis wird gezeigt, dassL2(Ω,A, P ) bzgl. desL2-Skalarprodukts ein Hilbertraum, also
vollständig bzgl. derL2-Norm ist.
Beste Prognosen
Angenommen wir wollen den Ausgang eines Zufallsexperiments vorhersagen, dass durch eine
reellwertige ZufallsvariableX : Ω → R beschrieben wird. Welches ist der beste Prognosewerta
für X(ω), wenn uns keine weiteren Informationen zur Verfügung stehen?
Die Antwort hängt offensichtlich davon ab, wie wir den Prognosefehler messen. Häufig verwen-
det man den mittleren quadratischen Fehler (meansquareerror)
MSE = E[(X − a)2]
Universität Bonn Wintersemester 2009/2010
208 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
bzw. die Wurzel (rootmeansquareerror)
RMSE = MSE1/2 = ‖X − a‖L2(Ω,A,P ).
Satz 6.15(Erwartungswert als besterL2-Prognosewert). IstX ∈ L2(Ω,A, P ), dann gilt für
alle a ∈ R:
E[(X − a)2] = Var[X] + (a− E[X])2 ≥ E[(X − E[X])2]
Der mittlere quadratische Fehler des Prognosewertesa ist also die Summe der Varianz vonX
und des Quadrats desBias (systematischer bzw. mittlerer Prognosefehler)a− E[X]:
MSE = Varianz+ Bias2.
Insbesondere ist der mittlere quadratische Fehler genau für a = E[X] minimal.
Beweis.Füra ∈ R gilt wegen der Linearität des Erwartungswertes:
E[(X − a)2] = E[(X − E[X] + E[X]− a)2]
= E[(X − E[X])2] + 2E[(X − E[X]) · (E[X]− a)]︸ ︷︷ ︸=(E[X]− E[X])︸ ︷︷ ︸
=0
·(E[X]−a)
+ E[(E[X]− a)2]
= Var[X] + (E[X]− a)2.
Verwendet man eine andere Norm, um den Prognosefehler zu messen, dann ergeben sich im
Allgemeinen andere beste Prognosewerte. Beispielsweise gilt:
Satz 6.16(Median als besterL1-Prognosewert). IstX ∈ L1(Ω,A, P ) undm ein Median der
Verteilung vonX, dann gilt für allea ∈ R:
E[|X − a|] ≥ E[|X −m|]
.
Beweis.Fürm ≥ a folgt die Behauptung aus der Identität
|X −m| − |X − a| ≤ (m− a)(I(−∞,m)(X)− I[m,∞)(X))
durch Bilden des Erwartungswertes. Der Beweis fürm ≤ a verläuft analog.
Insbesondere minimieren Stichprobenmittel und Stichprobenmedian einer Stichprobex1, . . . , xn ∈R also die Summe der quadratischen bzw. absoluten Abweichungen
∑(xi−a)2 bzw.
∑ |xi−a|.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 209
Kovarianz und Korrelation
SeienX undY quadratintegrierbare reellwertige Zufallsvariablen, die auf einem gemeinsamen
Wahrscheinlichkeitsraum(Ω,A, P ) definiert sind. Wie schon für diskrete Zufallsvariablen defi-
nieren wir wieder dieKovarianz
Cov[X, Y ] := E[(X − E[X])(Y − E[Y ])] = E[XY ]− E[X] · E[Y ]
und denKorrelationskoeffizienten
[X, Y ] :=Cov[X, Y ]
σ[X]σ[Y ],
falls σ[X] · σ[Y ] 6= 0. Die ZufallsvariablenX undY heißen unkorreliert, fallsCov[X, Y ] = 0
gilt, d.h. falls
E[XY ] = E[X] · E[Y ].
Um die Kovarianz zu berechnen, benötigen wir die gemeinsameVerteilung der Zufallsvariablen
X undY . Aus dem Transformationssatz für den Erwartungswert folgt:
Korollar 6.17. Die KovarianzCov[X, Y ] hängt nur von der gemeinsamen Verteilung
µX,Y = P (X, Y )−1
der ZufallsvariablenX undY ab:
Cov[X, Y ] =
∫ (x−
∫z µX(dz)
)(y −
∫z µY (dz)
)µX,Y (dx dy).
Beweis.Nach dem Transformationssatz gilt
Cov[X, Y ] = E[(X − E[X])(Y − E[Y ])]
=
∫ (x−
∫z µX(dz)
)(y −
∫z µY (dz)
)µX,Y (dx dy).
Aus der Linearität des Erwartungswertes folgt, dass die AbbildungCov : L2 ×L2 → R symme-
trisch und bilinear ist. Die VarianzVar[X] = Cov[X,X] ist die zugehörige quadratische Form.
Insbesondere gilt wie im diskreten Fall:
Var
[n∑
i=1
Xi
]=
n∑
i=1
Var[Xi] + 2 ·n∑
i,j=1
i<j
Cov[Xi, Xj ].
Universität Bonn Wintersemester 2009/2010
210 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Sind die ZufallsvariablenX1, . . . , Xn unkorreliert, dann folgt:
Var[X1 + . . .+Xn] =n∑
i=1
Var[Xi].
Die folgende Aussage ist ein Spezialfall der Cauchy-Schwarz-Ungleichung. Wir geben trotzdem
einen vollständigen Beweis, da dieser auch in Zusammenhang mit linearer Regression von Inter-
esse ist.
Satz 6.18(Cauchy-Schwarz). (1). FürX, Y ∈ L2 gilt:
|Cov[X, Y ]| ≤ Var[X]1/2 · Var[Y ]1/2 = σ[X] · σ[Y ]. (6.3.3)
(2). Im Fallσ[X] · σ[Y ] 6= 0 gilt für den Korrelationskoeffizienten
|[X, Y ]| ≤ 1. (6.3.4)
Gleichheit in (6.3.3) bzw. (6.3.4) gilt genau dann, wenn eina 6= 0 und einb ∈ R existieren,
sodassY = aX + b P -fast sicher gilt. Hierbei ist [X, Y ] = 1 im Falle a > 0 und
[X, Y ] = −1 für a < 0.
Beweis.Im Fall σ[X] = 0 gilt X = E[X] P -fast sicher, und die Ungleichung (6.3.3) ist trivia-
lerweise erfüllt. Wir nehmen nun an, dassσ[X] 6= 0 gilt.
(1). Füra ∈ R gilt:
0 ≤ Var[Y − aX] = Var[Y ]− 2aCov[X, Y ] + a2 Var[X] (6.3.5)
=
(a · σ[X]− Cov[X, Y ]
σ[X]
)2
− Cov[X, Y ]2
Var[X]+ Var[Y ].
Da der erste Term füra := Cov[X,Y ]σ[X]2
verschwindet, folgt:
Var[Y ]− Cov[X, Y ]2
Var[X]≥ 0.
(2). Die Ungleichung|[X, Y ]| ≤ 1 folgt unmittelbar aus (6.3.3). Zudem gilt genau dann
Gleichheit in (6.3.5) bzw. (6.3.3), wennVar[Y − aX] = 0 gilt, alsoY − aX P -fast si-
cher konstant ist. In diesem Fall folgt
Cov[X, Y ] = Cov[X, aX] = aVar[X],
also hat [X, Y ] dasselbe Vorzeichen wiea.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 211
Beispiel(Empirischer Korrelationskoeffizent). Ist die zugrundeliegende Wahrscheinlichkeits-
verteilung eine empirische VerteilungP = 1n
n∑i=1
δωi, und sindX, Y : Ω → R reellwertige
Abbildungen (statistische Merkmale), dann gilt
µX,Y =1
n
n∑
i=1
δ(xi,yi) mit xi = X(ωi) undyi = Y (ωi).
Als Kovarianz ergibt sich
Cov[X, Y ] =1
n
n∑
i=1
(xi − xn)(yi − yn) =1
n
(n∑
i=1
xiyi
)− xnyn.
Der entsprechendeempirische Korrelationskoeffizientder Daten(xi, yi), 1 ≤ i ≤ n, ist
[X, Y ] =Cov[X, Y ]
σ[X]σ[Y ]=
n∑i=1
(xi − xn)(yi − yn)
(n∑
i=1
(xi − xn)2)1/2( n∑
i=1
(yi − yn)2
)1/2=: rn.
Den empirischen Korrelationskoeffizienten verwendet man als Schätzer für die Korrelation von
Zufallsgrößen mit unbekannten Verteilungen.
Die Grafiken 6.3 und 6.3 zeigen Stichproben mit verschiedenen Korrelationskoeffizienten.
b
b
b b
b
bb
bb b
b
b
b
bb
b
b
b
b
b
b
b
b b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
bb
b
b
bb
b
b b
bb
b
b
b
b
b
b
b
bb
b
b bb b
b
b
b
b
b
b
b b
b
b
bb
bb
b
bb
b
b
bb
1
2
−1
−2
1 2−1−2 X
Y
= 1
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b
b
bbb
b
b
b
bb
b
b
b
bb
b
bb
b
b
b
bb
bb
b
bbb
b
b
b
bb
b
b
b
b b
b
b
b
b
b
b
1
2
−1
−2
1 2−1−2 X
Y
= 12
b b
b
b
b
b
bb
b
bb
b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
bb
b
b
b
bb
b
b
b
b
bb
b
b
b
b
b
b
b
b
b
b
bb
b
b
bb
b
bb
b
b
b
b
bb
b
b
b b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
1
2
−1
−2
1 2−1−2 X
Y
= 0
b
b
b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
bb
b
b
b
b
b
bb
b
b b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
b
bb
b
bb
b
b
b b
b
b
b
b b
bb
b
bb
b
b b
b
b
b
bb
bb
b
b
b
b
bb
b
b
b
b1
2
−1
−2
1 2−1−2 X
Y
= −12
bb
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b
b
bbb
bb
b
b
b
b b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
bb
bb
b
b
b
b
b
b
b
b
b
b
b
b b
bb
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
bb
b
b
b
b
bb
b
b
b
b
bb
b
b
b
b
b b
1
2
−1
−2
1 2−1−2 X
Y
= −1
Abbildung 6.2: Stichprobe von 100 Punkten von korreliertenStandardnormalverteilungen
Universität Bonn Wintersemester 2009/2010
212 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
bb
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b
b
bbb
bb
b
b
b
b b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
bb
bb
b
b
b
b
b
b
b
b
b
b
b
b b
bb
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
bb
b
b
b
b
bb
b
b
b
b
bb
b
b
b
b
b b
1
2
−1
−2
1 2−1−2 X
Y
= 1
Abbildung 6.3: Stichprobe von 100 Punkten von korreliertenStandardnormalverteilungen
Anwendung auf lineare Prognose (Regression)
SeienX, Y ∈ L2(Ω,A, P ) Zufallsvariablen mitσ[X] 6= 0. Angenommen, wir kennen den Wert
X(ω) in einem Zufallsexperiment und suchen die bestelineareVorhersage
Y (ω) = aX(ω) + b, (a, b ∈ R) (6.3.6)
für Y (ω) im quadratischen Mittel, d.h. den Minimierer des mittlerenquadratischen Fehlers,
MSE := E[(Y − Y )2],
unter alle ZufallsvariablenY , die affine Funktionen vonX sind.
Korollar 6.19. Der mittlere quadratische Fehler ist minimal unter allen ZufallsvariablenY =
aX + b (a, b ∈ R) für
Y (ω) = E[Y ] +Cov[X, Y ]
Var[X]· (X(ω)− E[X]).
Beweis.Es gilt
MSE = Var[Y − Y ] + E[Y − Y ]2
= Var[Y − aX] + (E[Y ]− aE[X]− b)2.
Der zweite Term ist minimal für
b = E[Y ]− aE[X],
und der erste Term für
a =Cov[X, Y ]
σ[X]2,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 213
siehe den Beweis der Cauchy-Schwarz-Ungleichung, Satz 6.18.Die bzgl. des mittleren quadra-
tischen Fehlers optimale Prognose fürY gestützt aufX ist also
Yopt = aX + b = E[Y ] + a(X − E[X]).
Beispiel(Regressionsgerade, Methode der kleinsten Quadrate). Im Beispiel der empirischen
Verteilung von oben erhalten wir die Regressionsgeradey = ax+ b, die die Quadratsummen∑
i=1
(axi + b− yi)2 = n · MSE
der Abweichungen minimiert. Es gilt
a =Cov[X, Y ]
σ[X]2=
n∑i=1
(xi − xn)(yi − yn)
n∑i=1
(xi − xn)2
und
b = E[Y ]− a · E[X] = yn − a · xn.
Die Regressionsgeraden sind in Grafik 6.3 eingezeichnet.
Beispiel(Zweidimensionale Normalverteilung). Die zweidimensionale NormalverteilungN(m,C)
ist die Verteilung imR2 mit Dichte
fm,C(x) =1
2π ·√detC
· exp(−1
2(x−m) · C−1(x−m)
), x ∈ R2.
Hierbei istm ∈ R2 undC =
(v1 c
c v2
)eine symmetrische positiv-definite Matrix mit Koeffizi-
entenc ∈ R und v1, v2 > 0. Mit σi :=√vi, i = 1, 2, und := c
σ1σ2gilt:
detC = v1v2 − c2 = σ21σ
22 · (1− 2), und
C−1 =1
detC
(v2 −c−c v1
)=
1
1− 2·
1σ21
− σ1σ2
− σ1σ2
1σ22
,
also
fm,C(x) =
exp
(− 1
2(1−2)
[(x1−m1
σ1
)2− 2x1−m1
σ1· x2−m2
σ2+(
x2−m2
σ2
)2])
2πσ1σ2√1− 2
.
Die folgende Aussage zeigt, dass die Koeffizientenmi, σi und tatsächlich der Mittelwert, die
Standardabweichung und die Korrelation der Koordinatenx1 undx2 sind:
Behauptung:
Universität Bonn Wintersemester 2009/2010
214 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
(1). fm,C ist eine Wahrscheinlichkeitsdichte bzgl. des Lebesguemaßes imR2.
(2). Für reellwertige ZufallsvariablenX1, X2 mit gemeinsamer VerteilungµX1,X2 = N(m,C)
undi = 1, 2 gilt
E[Xi] = mi, Var[Xi] = vi, und Cov[X1, X2] = c, (6.3.7)
d.h.m ist der Mittelwertvektor undC = (Cov[Xi, Xj ])i,j die Kovarianzmatrix der Nor-
malverteilungN(m,C).
Der Beweis der Behauptung wird der Leserin/dem Leser als Übungüberlassen - wir zeigen nur
exemplarisch die Berechnung der Kovarianz im Fallm = 0. Mit quadratischer Ergänzung können
wir den Exponenten in der Dichtef0,C(x) schreiben als
− 1
2(1− 2)
(x1σ1
− x2σ2
)2
− 1
2
(x2σ2
)2
.
Mit m(x2) =x2σ1σ2
erhalten wir dann nach dem Satz von Fubini:
∫
R2
x1x2f0,C(x) dx
=1
2πσ1σ2√
1− 2
∫ ∫x1x2 exp[−
1
2(1− 2)σ21
(x1 − m(x2))2] dx1 exp
(− x222σ2
2
)dx2
=1√2πσ2
2
∫x2 · m(x2)︸ ︷︷ ︸x22σ1/σ2
· exp(− x222σ2
2
)dx2 = σ1σ2 = c,
wobei wir im zweiten und dritten Schritt die Formeln für den Erwartungswert und die Varianz von
eindimensionalen Normalverteilungen verwendet haben. Nach dem Transformationssatz ergibt
sich:
E[X1X2] =
∫x1x2 µX1,X2(dx) = c.
Da auf ähnliche WeiseE[X1] = E[X2] = 0 folgt, ist c die Kovarianz vonX1 undX2.
Bemerkung. Ist X = (X1, X2) ein N(m,C)-verteilter Zufallsvektor, dann ist jede Linear-
kombinationY = α1X1 + α2X2, α ∈ R2, normalverteilt mit Mittelwertα · m und Varianz
α · Cα. Auch dies kann man durch eine explizite Berechnung der Verteilungsfunktion aus der
gemeinsamen Dichte vonX1 undX2 zeigen. Wir werden multivariate Normalverteilungen sys-
tematischer in Abschnitt 9.3 untersuchen, und dort auch einen eleganteren Beweis der letzten
Aussage mithilfe von charakteristischen Funktionen geben.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 215
Beispiel(Autoregressiver Prozess). SeienX0 undZn, n ∈ N, unabhängige reellwertige Zufalls-
variablen mitZn ∼ N(0, 1) für allen. Der durch das „stochastische Bewegungsgesetz“
Xn = αXn−1︸ ︷︷ ︸lineares
Bewegungsgesetz
+ εZn︸︷︷︸zufällige Störung,
Rauschen
, n ∈ N, (6.3.8)
definierte stochastische Prozess(Xn)n=0,1,2,... heißtautoregressiver Prozess AR(1)mit Parame-
ternε, α ∈ R. Autoregressive Prozesse werden zur Modellierung von Zeitreihen eingesetzt. Im
allgemeineren autoregressiven Modell AR(p), p ∈ N, mit Parameternε, α1, . . . , αp ∈ R lautet
das Bewegungsgesetz
Xn =
p∑
i=1
αiXn−i + εZn, n ≥ p.
Grafik 6.3 zeigt simulierte Trajektorien von AR(1)- und AR(2)-Prozessen:
Das folgende Lemma fasst einige grundlegende Eigenschaften des AR(1) Modells zusammen.
Lemma 6.20.Für den AR(1)-Prozess mit Parameternε, α undm ∈ R, σ > 0 gilt:
(1). Xn−1 ∼ N(m,σ2) =⇒ Xn ∼ N(αm,α2σ2 + ε2).
(2). Für |α| < 1 ist die Verteilungµ = N(0, ε2
1−α2 ) ein Gleichgewicht, d.h.
X0 ∼ µ =⇒ Xn ∼ µ ∀n ∈ N.
Bei StartverteilungP X−10 = µ gilt:
Cov[Xn, Xn−k] = αk · ε2
1− α2für alle 0 ≤ k ≤ n.
Exponentieller Abfall der Korrelationen
Universität Bonn Wintersemester 2009/2010
216 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ
Beweis.Gilt Xn−1 ∼ N(m,σ2), dann ist(Xn−1, Zn) bivariat normalverteilt, also ist auch die
LinearkombinationXn = aXn−1+ εZn normalverteilt. Der Erwartungswert und die Varianz von
Xn ergeben sich aus (6.3.7). Der Beweis der übrigen Aussagen wird dem Leser als Übungsauf-
gabe überlassen.
Bemerkung. (1). Der AR(1)-Prozess ist eineMarkovkettemit Übergangswahrscheinlichkeiten
p(x, ·) = N(αx, ε2), s. Abschnitt 9.1 unten.
(2). Ist die gemeinsame Verteilung der StartwerteX0, X1, . . . , Xp−1 eine multivariate Normal-
verteilung, dann ist der AR(p)-Prozess einGaussprozess, d.h. die gemeinsame Verteilung
vonX0, X1, . . . , Xn ist für jedesn ∈ N eine multivariate Normalverteilung.
Unabhängigkeit und Unkorreliertheit
Wir zeigen abschließend, dass auch für allgemeine ZufallsvariablenX undY aus Unabhängigkeit
die Unkorreliertheit von beliebigen Funktionenf(X) und g(Y ) folgt. SeienX : Ω → S und
Y : Ω → T Zufallsvariablen mit Werten in messbaren Räumen(S,S) und(T, T ).
Satz 6.21.Es sind äquivalent:
(1). Die ZufallsvariablenX undY sind unabhängig, d.h.
P [X ∈ A, Y ∈ B] = P [X ∈ A] · P [Y ∈ B] für alleA ∈ S undB ∈ T
(2). Die Zufallsvariablenf(X) undg(Y ) sind unkorreliert für alle messbaren Funktionenf, g
mit f, g ≥ 0 bzw.f(X), g(Y ) ∈ L2(Ω,A, P ), d.h.
E[f(X) · g(Y )] = E[f(X)] · E[g(Y )]. (6.3.9)
Beweis.Offensichtlich folgt (1) aus (2) durch Wahl vonf = IA undg = IB. Die umgekehrte Im-
plikation folgt durch maßtheoretische Induktion: Gilt (1), dann ist (6.3.9) für Indikatorfunktionen
f undg erfüllt. Wegen der Linearität beider Seiten dieser Gleichung in f undg gilt (6.3.9) auch
für beliebige Elementarfunktionen. Für messbaref, g ≥ 0 betrachten wir Folgen von Elementar-
funktionenfn, gn mit fn ր f, gn ր g. Die Aussage (6.3.9) folgt durch monotone Konvergenz.
Allgemeine Funktionen zerlegen wir in ihren Positiv- und Negativanteil, und wenden die Aus-
sage auf diese an. Also giltCov[f(X), g(Y )] = 0 für alle messbarenf, g mit f, g ≥ 0 bzw.
f(X), g(Y ) ∈ L2(Ω,A, P ).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 217
Korollar 6.22. SindX, Y ∈ L1(Ω,A, P ) unabhängig, so gilt:
X · Y ∈ L1(Ω,A, P ) und E[XY ] = E[X] · E[Y ].
Beweis.Nach Satz 6.21 gilt:
E[|XY |] = E[|X|] · E[|Y |] < ∞.
Die Formel fürE[XY ] folgt durch die ZerlegungenX = X+ −X− undY = Y + − Y −.
Universität Bonn Wintersemester 2009/2010
Kapitel 7
Gesetze der großen Zahlen
In diesem Kapitel beweisen wir verschiedene Gesetze der großen Zahlen, d.h. wir leiten Bedin-
gungen her, unter denen die Mittelwerte1n
n∑i=1
Xi einer Folge(Xi)i∈N von reellwertigen Zufalls-
variablen gegen ihren Erwartungswert konvergieren. Dabeiunterscheiden wir verschiedene Arten
der Konvergenz, die wir zunächst genauer untersuchen wollen.
7.1 Grundlegende Ungleichungen und Konvergenz von Zu-
fallsvariablen
Konvergenzbegriffe für Zufallsvariablen
SeienYn, n ∈ N, undY reellwertige Zufallsvariablen, die auf einem gemeinsamenWahrschein-
lichkeitsraum(Ω,A, P ) definiert sind. Wir betrachten die folgenden Konvergenzbegriffe für die
Folge(Yn)n∈N:
Definition. (1). Fast sichere Konvergenz:
Die Folge(Yn)n∈N konvergiertP -fast sicher gegenY , falls gilt:
P[limn→∞
Yn = Y]
= P [ω ∈ Ω|Yn(ω) → Y (ω)] = 1.
(2). Stochastische Konvergenz(Convergence in probability):
Die Folge(Yn)n∈N konvergiertP -stochastisch gegenY (NotationYnP→ Y ), falls
limn→∞
P [|Yn − Y | > ε] = 0 für alle ε > 0 gilt.
218
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN 219
(3). Lp-Konvergenz(1 ≤ p <∞):
Die Folge(Yn)n∈N konvergiert inLp(Ω,A, P ) gegenY , falls
limn→∞
E[|Yn − Y |p] = 0.
Ein Gesetz der großen Zahlen bezüglich fast sicherer Konvergenz heißtstarkes Gesetz der
großen Zahlen, ein G.d.g.Z. bezüglich stochastischer Konvergenz heißtschwaches Gesetz der
großen Zahlen. Wir wollen nun die Zusammenhänge zwischen den verschiedenen Konvergenz-
begriffen untersuchen.
Satz 7.1. (1). Fast sichere Konvergenz impliziert stochastische Konvergenz.
(2). Die umgekehrte Implikation gilt im Allgemeinen nicht.
Beweis. (1). KonvergiertYn P -fast sicher gegenY , dann gilt fürε > 0:
1 = P [|Yn − Y | < ε schließlich]
= P
[⋃
m
⋂
n≥m
|Yn − Y | < ε]
= limm→∞
P
[⋂
n≥m
|Yn − Y | < ε]
≤ limm→∞
infn≥m
P [|Yn − Y | < ε]
= lim infn→∞
P [|Yn − Y | < ε].
Es folgt limn→∞
P [|Yn − Y | < ε] = 1 für alle ε > 0, d.h.Yn konvergiert auchP -stochastisch
gegenY .
(2). Sei andererseitsP das Lebesguemaß aufΩ = (0, 1] mit Borelscherσ-Algebra. Wir be-
trachten die Zufallsvariablen
Y1 = I(0,1], Y2 = I(0, 12], Y3 = I( 1
2,1], Y4 = I(0, 1
4], Y5 = I( 1
4, 12], Y6 = I( 1
2, 34], Y6 = I( 3
4,1], . . .
Dann gilt
P [|Yn| > ε] = P [Yn = 1] → 0 für alleε > 0,
also konvergiertYn stochastisch gegen 0, obwohl
lim supYn(ω) = 1 für alleω ∈ Ω gilt.
Universität Bonn Wintersemester 2009/2010
220 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Hier ist ein weiteres Beispiel, das den Unterschied zwischenstochastischer und fast sicherer
Konvergenz zeigt:
Beispiel. SindT1, T2, . . . unterP unabhängigeExp(1)-verteilte Zufallsvariablen, dann konver-
giertTn/ log n P -stochastisch gegen 0, denn
P
[∣∣∣∣Tnlog n
∣∣∣∣ ≥ ε
]= P [Tn ≥ ε · log n] = n−ε n→∞→ 0
für alleε > 0. Andererseits gilt nach (5.1.6) aber
lim supn→∞
Tnlog n
= 1 P -fast sicher,
also konvergiertTn/ log n nichtP -fast sicher.
Obwohl die stochastische Konvergenz selbst nicht fast sichere Konvergenz impliziert, kann man
aus einer Verschärfung von stochastischer Konvergenz die fast sichere Konvergenz schließen.
Wir sagen, dass eine FolgeYn, n ∈ N, von Zufallsvariablen auf(Ω,A, P ) schnell stochastisch
gegenY konvergiert, falls
∞∑
n=1
P [|Yn − Y | ≥ ε] < ∞ für alleε > 0.
Lemma 7.2. Aus schneller stochastischer Konvergenz folgt fast sichere Konvergenz.
Beweis.Wir können o.B.d.A.Y = 0 annehmen. KonvergiertYn schnell stochastisch gegen0,
dann gilt:
P [lim sup |Yn| ≤ ε] ≥ P [|Yn| ≥ ε nur endlich oft] = 1.
Es folgt
P [lim sup |Yn| 6= 0] = P
⋃
ε∈Q+
lim sup |Yn| > ε
= 0.
Ähnlich zeigt man:
Lemma 7.3. KonvergiertYn P -stochastisch gegenY , dann existiert eine TeilfolgeYnk, dieP -fast
sicher gegenY konvergiert.
Beweis.Wieder können wir o.B.d.A.Y = 0 annehmen. KonvergiertYn stochastisch gegen0,
dann existiert eine TeilfolgeYnkmit
P
[|Ynk
| ≥ 1
k
]≤ 1
k2.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN 221
Nach dem Lemma von Borel-Cantelli folgt
P
[|Ynk
| ≥ 1
knur endlich oft
]= 1,
alsoYnk→ 0 P -fast sicher.
Als nächstes beweisen wir eine Erweiterung derCebyšev-Ungleichung, die wir an vielen Stellen
verwenden werden. Insbesondere impliziert sie, dass stochastische Konvergenz schwächer ist als
Lp-Konvergenz.
Die Markov-Cebyšev-Ungleichung
SeiX : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum(Ω,A, P ). Wir verwen-
den die folgende Notation:
Notation: E[X ; A] := E[X · IA] =∫AXdP .
Satz 7.4(Allgemeine Markov-Ungleichung). Seih : [0,∞] → [0,∞] monoton wachsend und
Borel-messbar. Dann gilt
P [|X| ≥ c] ≤ E[h(|X|) ; |X| ≥ c]
h(c)≤ E[h(|X|)]
h(c)für alle c > 0 mit h(c) 6= 0.
Beweis.Dah nichtnegativ und monoton wachsend ist, gilt
h(|X|) ≥ h(|X|) · I|X|≥c ≥ h(c) · I|X|≥c,
also auch
E[h(|X|)] ≥ E[h(|X|) ; |X| ≥ c] ≥ h(c) · P [|X| ≥ c].
Wichtige Spezialfälle:
(1). Markov - Ungleichung: Fürh(x) = x erhalten wir:
P [|X| ≥ c] ≤ E[|X|]c
für alle c > 0.
Insbesondere gilt für eine ZufallsvariableX mit E[|X|] = 0:
P [|X| ≥ c] = 0 für alle c > 0,
also auchP [|X| > 0] = 0, d.h.X = 0 P -fast sicher.
Universität Bonn Wintersemester 2009/2010
222 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
(2). Cebyšev - Ungleichung: Für h(x) = x2 undX = Y − E[Y ] mit Y ∈ L1(Ω,A, P )erhalten wir:
P [|Y − E[Y ]| ≥ c] ≤ E[(Y − E[Y ])2]
c2=
Var[Y ]
c2für alle c > 0.
Diese Ungleichung haben wir bereits in Abschnitt 3.2 im Beweis des schwachen Gesetzes
der großen Zahlen verwendet.
(3). Exponentielle Abschätzung: Fürh(x) = exp(tx) mit t > 0 erhalten wir wegen
IX≥c ≤ e−tcetX :
P [X ≥ c] = E[IX≥c] ≤ e−tc · E[etX ].
Die Abbildung t 7→ E[etX ] heißtmomentenerzeugende Funktionder Zufallsvariablen
X. Exponentielle Ungleichungen werden wir in Abschnitt 8.2 zur Kontrolle der Wahr-
scheinlichkeitengroßer Abweichungenvom Gesetz der großen Zahlen verwenden.
Als erste Anwendung der allgemeinen Markovungleichung zeigen wir für reellwertige Zufalls-
variablenX,Xn (n ∈ N):
Korollar 7.5 (Lp-Konvergenz impliziert stochastische Konvergenz). Für 1 ≤ p <∞ gilt:
E[|Xn −X|p] → 0 ⇒ P [|Xn −X| > ε] → 0 für alle ε > 0.
Beweis.Nach der Markovungleichung mith(x) = xp gilt:
P [|Xn −X| ≥ ε] ≤ 1
εpE[|Xn −X|p].
Bemerkung. Aus stochastischer Konvergenz folgt im Allgemeinen nichtLp-Konvergenz (Übung).
Es gilt aber: KonvergiertXn → X stochastisch, und ist die Folge der Zufallsvariablen|Xn|p
(n ∈ N) gleichmäßig integrierbar, d.h.
supn∈N
E[|Xn|p ; |Xn| ≥ c] → 0 für c→ ∞,
dann konvergiertXn gegenX in Lp (Verallgemeinerter Satz von Lebesgue). Wir benötigen diese
Aussage im Moment nicht, und werden sie daher erst in der Vorlesung »Stochastische Prozesse«
beweisen.
Als nächstes wollen wir den Zusammenhang zwischenLp-Konvergenz für verschiedene Werte
vonp ≥ 1 untersuchen. Dazu verwenden wir eine weitere fundamentaleUngleichung:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN 223
Die Jensensche Ungleichung
Ist ℓ(x) = ax + b eine affine Funktion aufR, undX ∈ L1 eine integrierbare Zufallsvariable,
dann folgt aus der Linearität des Lebesgueintegrals:
E[ℓ(X)] = E[aX + b] = aE[X] + b = ℓ(E[X]) (7.1.1)
Da konvexe Funktionen Suprema einer Familie von affinen Funktionen (nämlich der Tangenten
an den Funktionsgraphen der konvexen Funktion) sind, ergibt sich für konvexe Funktionen eine
entsprechendeUngleichung:
Satz 7.6(Jensensche Ungleichung). IstP eine Wahrscheinlichkeitsverteilung,X ∈ L1(Ω,A, P )eine reellwertige Zufallsvariable, undh : R → R eine konvexe Abbildung, dann istE[h(X)−] <
∞, und es gilt
h(E[X]) ≤ E[h(X)].
Warnung: Diese Aussage gilt (wie auch (7.1.1)) nur für die Integration bzgl. eines Wahrschein-
lichkeitsmaßes!
Bevor wir die Jensensche Ungleichung beweisen, erinnern wirkurz an die Definition und ele-
mentare Eigenschaften von konvexen Funktionen:
Bemerkung. Eine Funktionh : R → R ist genau dann konvex, wenn
h(λx+ (1− λ)y) ≤ λh(x) + (1− λ)h(y) für alleλ ∈ [0, 1] undx, y ∈ R
gilt, d.h. wenn alle Sekanten oberhalb des Funktionsgraphen liegen.
1
2
3
1 2 3 4−1−2−3−4x y
Abbildung 7.1: Sekante an konvexer Funktion
Universität Bonn Wintersemester 2009/2010
224 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Hieraus folgt, dass jede konvexe Funktion stetig ist: Füra < b < x < y < c < d gilt nämlich
h(b)− h(a)
b− a≤ h(y)− h(x)
y − x≤ h(d)− h(c)
d− c.
Also sind die Differenzenquotientenh(y)−h(x)y−x
gleichmäßig beschränkt auf(b, c), und somit ist
h gleichmäßig stetig auf(b, c). Da konvexe Funktionen stetig sind, sind sie auch messbar. Die
Existenz des ErwartungswertesE[h(X)] in (−∞,∞] folgt dann ausE[h(X)−] <∞.
Wir beweisen nun die Jensensche Ungleichung:
Beweis.Ist h konvex, dann existiert zu jedemx0 ∈ R eine affine Funktionℓ (Stützgerade) mit
ℓ(x0) = h(x0) und ℓ ≤ h, siehe die Analysis Vorlesung oder[A. K LENKE: „WAHRSCHEIN-
LICHKEITSTHEORIE“, Abschnitt 7.2].
0.5
1.0
1.5
2 4x0
Abbildung 7.2: Darstellung vonℓ(x) undh(x)
Wählen wirx0 := E[X], dann folgt
h(E[X]) = ℓ(E[X]) = E(ℓ[X]) ≤ E[h(X)].
Der Erwartungswert auf der rechten Seite ist definiert, dah(X) durch die integrierbare Zufalls-
variableℓ(X) nach unten beschränkt ist. Insbesondere giltE[h(X)−] ≤ E[ℓ(X)−] <∞.
Korollar 7.7 (Lq-Konvergenz impliziert Lp-Konvergenz). Für 1 < p ≤ q gilt:
‖X‖p := E[|X|p] 1p ≤ ‖X‖q.
Insbesondere folgtLp-Konvergenz ausLq-Konvergenz.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN 225
Beweis.Nach der Jensenschen Ungleichung gilt
E[|X|p]qp ≤ E[|X|q],
da die Funktionh(x) = |x|q/p für q ≥ p konvex ist.
Nach dem Korollar gilt fürp ≤ q:
Lp(Ω,A, P ) ⊇ Lq(Ω,A, P ),
und
Xn → X in Lq ⇒ Xn → X in Lp.
Man beachte, dass diese Aussage nur fürendliche Maßewahr ist, da im Beweis die Jensensche
Ungleichung verwendet wird.
Mithilfe der Jensenschen Ungleichung beweist man auch dieHölderungleichung:
E[|XY |] ≤ ‖X‖p · ‖Y ‖q für p, q ∈ [1,∞] mit1
p+
1
q= 1.
7.2 Starke Gesetze der großen Zahlen
Wir werden nun Gesetze der großen Zahlen unter verschiedenen Voraussetzungen an die zugrun-
deliegenden Zufallsvariablen beweisen. Zunächst nehmen wir an, dassX1, X2, . . . ∈ L2(Ω,A, P )quadratintegrierbare Zufallsvariablen sind, deren Varianzen gleichmäßig beschränkt sind, und de-
ren Korrelationen hinreichend schnell abklingen:
Annahme: „Schnelles Abklingen der positiven Korrelation“
(A) Es existiert eine Folgecn ∈ R+ (n ∈ N) mit∞∑
n=0
cn <∞
und
Cov[Xi, Xj ] ≤ c|i−j| für alle i, j ∈ N. (7.2.1)
Die Bedingung (A) ist insbesondere erfüllt, wenn dieKorrelationen exponentiell abfallen, d.h.
wenn
|Cov[Xi, Xj ]| ≤ c · α|i−j|
für ein α ∈ (0, 1) und c ∈ R+ gilt. Sind etwa die ZufallsvariablenXi unkorreliert, und ist die
Folge derVarianzen beschränkt, d.h. gilt
Universität Bonn Wintersemester 2009/2010
226 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
(A1) Cov[Xi, Xj ] = 0 für alle i, j ∈ N, und
(A2) v := supi
Var[Xi] <∞,
dann ist die Annahme (A) mitc0 = v und cn = 0 für n > 0 erfüllt. In diesem Fall haben wir
bereits in Abschnitt 3.2 ein schwaches Gesetz der großen Zahlen bewiesen.
Wichtig: Es wirdkeine Unabhängigkeit vorausgesetzt!
Sei nun
Sn = X1 + . . .+Xn
die Summe der erstenn Zufallsvariablen.
Das schwache Gesetz der großen Zahlen
Den Beweis des schwachen Gesetzes der großen Zahlen aus Abschnitt 3.2 können wir auf den
hier betrachteten allgemeinen Fall erweitern:
Satz 7.8(Schwaches Gesetz der großen Zahlen,L2-Version). Unter der Voraussetzung (A) gilt
für alle n ∈ N undε > 0:
E
[(Sn
n− E[Sn]
n
)2]
≤ v
n, und (7.2.2)
P
[∣∣∣∣Sn
n− E[Sn]
n
∣∣∣∣ ≥ ε
]≤ v
ε2n(7.2.3)
mit v := c0 + 2 ·∞∑n=1
cn <∞. Gilt insbesondereE[Xi] = m für alle i ∈ N, dann folgt
Sn
n→ m in L2(Ω,A, P ) undP -stochastisch.
Beweis.Unter Verwendung der Voraussetzung an die Kovarianzen erhalten wir
E
[(Sn
n− E[Sn]
n
)2]
= Var
[Sn
n
]=
1
n2Var[Sn]
=1
n2
n∑
i,j=1
Cov[Xi, Xj ] ≤ 1
n2
n∑
i=1
n∑
j=1
c|i−j|
≤ 1
n2
n∑
i=1
∞∑
k=−∞c|k| =
v
n
Die zweite Behauptung folgt daraus durch Anwenden derCebyšev-Ungleichung.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN 227
Bemerkung. (1). Im Fall unkorrelierter ZufallsvariablenXi (Annahmen (A1) und (A2)) ist die
Aussage ein Spezialfall einer allgemeinen funktionalanalytischen Sachverhalts:
Das Mittel von beschränkten orthogonalen Vektoren im Hilbertraum
L2(Ω,A, P ) = L2(Ω,A, P )/ ∼ konvergiert gegen0.
Unkorreliertheit derXi bedeutet gerade, dass die Zufallsvariablen
Yi := Xi − E[Xi]
orthogonal inL2 sind - beschränkte Varianzen derXi ist gleichbedeutend mit der Be-
schränktheit derL2 Normen derYi. Es gilt
Sn − E[Sn] =n∑
i=1
Yi,
also
E
[(Sn
n− E[Sn]
n
)2]
=
∥∥∥∥∥1
n
n∑
i=1
Yi
∥∥∥∥∥
2
L2
=1
n2
n∑
i=1
n∑
j=1
〈Yi, Yj〉L2
=1
n2
n∑
i=1
‖Yi‖2L2 ≤ 1
nsupi
‖Yi‖2L2 .
(2). DieL2-Konvergenz und stochastische Konvergenz von(Sn − E[Sn])/n gegen0 gilt auch,
falls die Korrelationen „langsam“ abklingen, d.h. falls (7.2.1) für eine nicht summierbare
Nullfolge cn erfüllt ist. In diesem Fall erhält man allerdings im Allgemeinen keine Ab-
schätzung der OrdnungO( 1n) für den Fehler in (7.2.2) bzw. (7.2.3).
(3). Eine für große n deutlich bessere Abschätzung des Fehlers in (7.2.3) (mit exponentiellem
Abfall in n) erhält man bei Unabhängigkeit und exponentieller Integrierbarkeit derXi mit-
hilfe derexponentiellen Ungleichung, siehe Satz 8.3 unten.
Das starke Gesetz für quadratintegrierbare Zufallsvariablen
Unter derselben Voraussetzung wie in Satz 7.8 gilt sogarP -fast sichere Konvergenz:
Satz 7.9(Starkes Gesetz großer Zahlen,L2-Version). Unter der Voraussetzung (A) konvergiert
Sn(ω)
n− E[Sn]
n−→ 0
Universität Bonn Wintersemester 2009/2010
228 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
für P -fast alleω ∈ Ω. Insbesondere gilt
Sn
n−→ m P -fast sicher,
fallsE[Xi] = m für alle i.
Der Übersichtlichkeit halber führen wir den Beweis zunächstunter den stärkeren Voraussetzun-
gen (A1) und (A2). Der allgemeine Fall ist eine Übungsaufgabe, die sich gut zum Wiederholen
der Beweisschritte eignet:
Beweis unter den Annahmen (A1) und (A2).Wir können o.B.d.A.E[Xi] = 0 für alle i voraus-
setzen – andernfalls betrachten wir die zentrierten ZufallsvariablenXi := Xi−E[Xi]; diese sind
wieder unkorreliert mit beschränkten Varianzen. Zu zeigenist dann:
Sn
n→ 0 P -fast sicher.
Wir unterteilen den Beweis in mehrere Schritte:
(1). Schnelle stochastische Konvergenz gegen0 entlang der Teilfolgenk = k2: Aus derCebyšev-
Ungleichung folgt:
P
[∣∣∣∣Sk2
k2
∣∣∣∣ ≥ ε
]≤ 1
ε2Var
[Sk2
k2
]≤ 1
ε2k2supi
Var[Xi].
Da die Varianzen beschränkt sind, ist der gesamte Ausdruck durch die Summanden einer
summierbaren Reihe beschränkt. Somit ergibt sich nach Borel-Cantelli:
Sk2(ω)
k2→ 0
für alleω außerhalb einer NullmengeN1.
(2). Wir untersuchen nun die Fluktuationen der FolgeSn zwischen den Werten der Teilfolge
nk = k2. Sei
Dk := maxk2≤l<(k+1)2
|Sl − Sk2|.
Wir zeigenschnelle stochastische Konvergenz gegen0 für Dk/k2. Für ε > 0 haben wir
P
[Dk
k2≥ ε
]= P
⋃
k2≤l<(k+1)2
|Sl − Sk2| > εk2
≤k2+2k∑
l=k2
P [|Sl − Sk2| > εk2] ≤ const.k2
,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN 229
denn nach derCebyšev-Ungleichung gilt fürk2 ≤ l ≤ k2 + 2k:
P [|Sl − Sk2| > εk2] ≤ 1
ε2k4Var[Sl − Sk2 ] ≤ 1
ε2k4Var
[l∑
i=k2+1
Xi
]
≤ l − k2
ε2k4supi
Var[Xi] ≤ const· kk4.
Nach Lemma 7.2 folgt daherDk(ω)
k2→ 0
für alleω außerhalb einer NullmengeN2.
(3). Zu gegebenemn wählen wir nunk = k(n) mit k2 ≤ n < (k + 1)2. Durch Kombination
der ersten beiden Schritte erhalten wir:∣∣∣∣Sn(ω)
n
∣∣∣∣ ≤ |Sk2(ω)|+Dk(ω)
n≤∣∣∣∣Sk2(ω)
k2
∣∣∣∣+Dk(ω)
k2−→ 0 für n→ ∞
für alleω außerhalb der NullmengeN1∪N2. Also konvergiertSn/n P -fast sicher gegen0.
Beispiel (Random Walk im Rd). SeiSn = X1 + ... + Xn ein Random Walk imRd mit unab-
hängigen identisch verteilten InkrementenXi mit Verteilungµ. Gilt
E[‖Xi‖2] =
∫
Rd
‖x‖2 µ(dx) < ∞,
dann folgt nach dem schwachen Gesetz der großen Zahlen (angewandt auf die Komponenten
S(k)n =
n∑i=1
X(k)i des VektorsSn):
Sn(ω)
n−→ m für P -fast alleω,
wobeim =∫Rd
xµ(dx) der Schwerpunkt der Inkrementverteilung ist. Insbesondere gilt fürm 6= 0:
Sn ∼ m · n für n→ ∞ P -fast sicher,
d.h.Sn wächst linear mit Geschwindigkeitm. Im Fallm = 0 gilt dagegen
Sn(ω)
n→ 0 P -fast sicher,
Universität Bonn Wintersemester 2009/2010
230 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
d.h. der Random Walk wächst sublinear. Eine viel präzisere Beschreibung der pfadweisen Asymp-
totik des Random Walk im Fallm = 0 liefert derSatz vom iterierten Logarithmus:
lim supn→∞
Sn(ω)√n log log n
= +1 P -fast sicher,
lim infn→∞
Sn(ω)√n log log n
= −1 P -fast sicher,
siehe z.B. [BAUER: „WAHRSCHEINLICHKEITSTHEORIE“].
Beispiel (Wachstum in zufälligen Medien). Um ein zufälliges Populationswachstum zu be-
schreiben, definieren wir ZufallsvariablenXn (n ∈ N) durch
X0 = 1, Xn = Yn ·Xn−1,
d.h.Xn =∏n
i=1 Yi. Hierbei nehmen wir an, dass die WachstumsratenYi unabhängige identisch
verteilte Zufallsvariablen mitYi > 0 P -f.s. sind. Seim = E[Yi].
(1). ASYMPTOTIK DER ERWARTUNGSWERTE: Da dieYi unabhängig sind, gilt:
E[Xn] =n∏
i=1
E[Yi] = mn.
Die mittlere Populationsgröße wächst also imsuperkritischen Fallm > 1 exponentiell und
fällt im subkritischen Fallm < 1 exponentiell ab.
Konkretes Beispiel:In einem Glücksspiel setzt der Spieler in jeder Runde die Hälfte seines
Kapitals. Mit Wahrscheinlichkeit12
erhält er dasc-fache des Einsatzes zurück, und mit
Wahrscheinlichkeit12
erhält er nichts zurück. Hier gilt:
Yi =
12(1 + c) mit p = 1
2
12
mit p = 12
,
also
m = E[Yi] =1
4(1 + c) +
1
4=
2 + c
4.
Das Spiel ist also „fair“ fürc = 2 und „superfair“ fürc > 2.
(2). ASYMPTOTIK VON Xn(ω): Wir nehmen nun an, dasslog Y1 ∈ L2 gilt. Nach dem starken
Gesetz der großen Zahlen folgt dann:
1
nlogXn =
1
n
n∑
i=1
log Yi → E[log Y1] =: α P -f.s.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN 231
Also existiert fürε > 0 einN(ω) mit N(ω) <∞ P -fast sicher,
Xn(ω) ≤ e(α+ε)n und Xn(ω) ≥ e(α−ε)n für allen ≥ N(ω).
Fürα < 0 fällt Xn alsoP -fast sicher exponentiell ab, währendXn für α > 0 P -fast sicher
exponentiell wächst.
(3). ZUSAMMENHANG VON α UND m: Nach der Jensenschen Ungleichung gilt:
α = E[log Y1] ≤ logE[Y1] = logm.
Hierbei haben wir benutzt, dass der Logarithmus eine konkave, bzw.− log eine konvexe
Funktion ist. Im subkritischen Fallm < 1 ist also auchα strikt negativ, d.h.Xn fällt auch
P -f.s. exponentiell ab. Im superkritischen Fallm > 1 kann es aber passieren, dasstrotzdem
α < 0 gilt, d.h. obwohl die Erwartungswerte exponentiell wachsen, fällt Xn P -fast sicher
exponentiell! Im Beispiel
Yi =
12(1 + c) mit p = 1
2
12
mit p = 12
von oben wachsen die Erwartungswerte exponentiell fürc > 2, aber es gilt
α = E[log Yi] =1
2
(log
1 + c
2+ log
1
2
)=
1
2log
1 + c
4≥ 0 ⇔ c ≥ 3.
Für c ∈ (2, 3) ist das Spiel also superfair mit fast sicherem exponentiellem Bankrott!
Die Voraussetzungen des Satzes von Lebesgue sind in dieser Situation nicht erfüllt, denn
es gilt:
E[Xn] ր ∞, obwohlXn → 0 P -fast sicher.
Von L2 nachL1 mit Unabhängigkeit
Sind ZufallsvariablenX, Y : Ω → S unabhängig, so sindf(X) und g(Y ) für beliebige be-
schränkte oder nichtnegative Funktionenf, g : S → R unkorreliert. Bisher konnten wir zeigen,
dass das starke Gesetz der großen Zahlen für unkorrelierte (bzw. schwach korrelierte) Zufalls-
variablenXn ∈ L2 mit gleichmäßig beschränkten Varianzen gilt. Die Unabhängigkeit derXn
ermöglicht es, diese Aussage auf integrierbare Zufallsvariablen (d.h.L1 stattL2) zu erweitern:
Satz 7.10(Kolmogorovs Gesetz der großen Zahlen). SeienX1, X2, ... ∈ L1(Ω,A, P ) paar-
weise unabhängig und identisch verteilt mitE[Xi] = m. Dann gilt:
limn→∞
1
n
n∑
i=1
Xi = m P -fast sicher.
Universität Bonn Wintersemester 2009/2010
232 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Kolmogorov hatte eine entsprechende Aussage unter der Annahme von Unabhängigkeit (statt
paarweiser Unabhängigkeit) bewiesen. Der Beweis unter der schwächeren Voraussetzung stammt
von Etemadi (1981).
Bemerkung (Dynamische Systeme, Ergodensatz). In einer dynamischen Interpretation bedeu-
tet die Aussage
1
n
n∑
i=1
Xi(ω) −→ m =
∫x µXi
(dx) P -fast sicher,
des starken Gesetzes der großen Zahlen, dass die „zeitlichen Mittelwerte“ der Zufallsvariablen
Xi gegen den „räumlichen Mittelwert“m konvergieren. Dies ist ein Spezialfall eines viel allge-
meinerenErgodensatzes, der eine entsprechende Aussage für ergodische dynamischeSysteme
liefert, siehe z.B. BREIMAN : PROBABILITY oder DURRETT: PROBABILITY : THEORY AND EX-
AMPLES.
von Satz 7.10.Wir führen den Beweis in mehreren Schritten.
(1). Reduktion auf nichtnegative Zufallsvariablen.
Wir können o.B.d.A.Xi ≥ 0 für alle i ∈ N voraussetzen. Andernfalls zerlegen wirXi =
X+i −X−
i . Die ZufallsvariablenX+i , i ∈ N, bzw.X−
i , i ∈ N, sind jeweils Funktionen der
Xi, und daher wieder paarweise unabhängig. Aus dem Gesetz der großen Zahlen fürX+i
undX−i folgt das Gesetz der großen Zahlen für die ZufallsvariablenXi.
(2). Reduktion auf Gesetz der großen Zahlen fürYi := Xi · IXi≤i.
Nach dem Lemma von Borel-Cantelli gilt
P [Yi 6= Xi unendlich oft] = 0,
denn
∞∑
i=1
P [Yi 6= Xi] =∞∑
i=1
P [Xi > i]
=∞∑
i=1
P [X1 > i] (Xi identisch verteilt)
≤∫ ∞
0
P [X1 > x] dx (P [X1 > x] monoton fallend)
= E[X1] < ∞.
Also konvergiert1n
∑ni=1Xi P -fast sicher gegenm, falls dasselbe für1
n
∑ni=1 Yi gilt.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.2. STARKE GESETZE DER GROSSEN ZAHLEN 233
Sei nun
Sn =n∑
i=1
Yi.
Die ZufallsvariablenYi sind wieder paarweise unabhängig, und es gilt0 ≤ Yi ≤ i.
(3). Konvergenz der Erwartungswerte.
Da die ZufallsvariablenYi nicht mehr identisch verteilt sind, bestimmen wir zunächstden
Grenzwert der Erwartungswerte der MittelwerteSn/n. Nach dem Satz von der monotonen
Konvergenz gilt
E[Yi] = E[Xi ; Xi ≤ i] = E[X1 · IX1≤i]−→E[X1] = m, für i→ ∞,
also auch
E
[Sn
n
]=
1
n
n∑
i=1
E[Yi] −→ m für n→ ∞.
(4). P -fast sichere Konvergenz vonSn
nentlang der Teilfolgenkn = ⌊αn⌋ , α > 1.
Vorbemerkung: Es gilt
∑
n≥m
1
k2n=
1
⌊αm⌋2+
1
⌊αm+1⌋2+ ... ≤ const.
⌊αm⌋2=
const.k2m
mit einer vonm unabhängigen Konstanten.
Behauptung:Skn
kn−→ lim
n→∞E
[Skn
kn
]= m P -fast sicher.
Beweis der Behauptung: Nach dem Lemma von Borel-Cantelli genügt es,
∞∑
n=1
P
[∣∣∣∣Skn − E[Skn ]
kn
∣∣∣∣ ≥ ε
]< ∞
zu zeigen. Dies ist der Fall, wenn
∞∑
n=1
Var
[Skn
kn
]<∞
gilt. Wegen
Var[Yi] ≤ E[Y 2i ] = E[X2
i ; Xi ≤ i] = E[X21 ; X1 ≤ i]
Universität Bonn Wintersemester 2009/2010
234 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
erhalten wir mithilfe der Vorbemerkung
∞∑
n=1
Var
[Skn
kn
]=
∞∑
n=1
1
k2n·
kn∑
i=1
Var[Yi]
≤∞∑
i=1
E[X21 ; X1 ≤ i] ·
∑
n:kn≥i
1
k2n
≤ const.·∞∑
i=1
E[X2
1 ; X1 ≤ i]· 1i2
≤ const.·∞∑
i=1
i∑
j=1
j2 · P [X1 ∈ (j − 1, j]] · 1i2
= const.·∞∑
j=1
j2 · P [X1 ∈ (j − 1, j]] ·∞∑
i=j
1
i2
≤ const.·∞∑
j=1
j · P [X1 ∈ (j − 1, j]]
= const.· E[ ∞∑
j=1
j · IX1∈(j−1,j]
]
≤ const.· E[X1 + 1] < ∞.
(5). P -fast sichere Konvergenz vonSn
n.
Für l ∈ N mit kn ≤ l ≤ kn+1 gilt wegenYi ≥ 0:
Skn ≤ Sl ≤ Skn+1 .
Es folgtknkn+1
· Skn
kn=
Skn
kn+1
≤ Sl
l≤ Skn+1
kn=kn+1
kn· Skn+1
kn+1
.
Fürn→ ∞ erhalten wir wegenkn+1
kn→ α und Skn (ω)
kn→ m:
m
α≤ lim inf
Sl(ω)
l≤ lim sup
Sl(ω)
l≤ αm
für alle ω außerhalb einer vonα abhängenden NullmengeNα. Fürω außerhalb der Null-
menge⋃
α>1α∈Q
Nα folgt somit:
liml→∞
Sl(ω)
l= m.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.3. EMPIRISCHE VERTEILUNGEN 235
Korollar 7.11 (Gesetz der großen Zahlen ohne Integrierbarkeit). SeienX1, X2... paarweise
unabhängige, identisch verteilte, nicht-negative Zufallsvariablen. Dann gilt:
limn→∞
1
n·
n∑
i=1
Xi(ω) = E[X1] ∈ [0,∞] P -fast sicher.
Beweis.Nach Satz 7.10 gilt die Aussage im FallE[X1] < ∞. FürE[X1] = ∞ erhalten wir für
k ∈ N:
lim infn→∞
1
n
n∑
i=1
Xi ≥ lim infn→∞
1
n
n∑
i=1
(Xi ∧ k) = E[X1 ∧ k] P -fast sicher.
Fürk → ∞ folgt dann mit monotoner Konvergenz
lim infn→∞
1
n
n∑
i=1
Xi ≥ E[X1] = ∞,
und damit die Behauptung.
7.3 Empirische Verteilungen
Schätzen von Kenngrößen einer unbekannten Verteilung
Angenommen, wir haben eine Stichprobe aus reellen BeobachtungswertenX1, X2, . . . , Xn ge-
geben, und möchten die zugrundeliegende Wahrscheinlichkeitsverteilungµ auf (R,B(R)) mög-
lichst weitgehend rekonstruieren. Im einfachsten Modell interpretieren wir die Beobachtungs-
werte als Realisierungen unabhängiger ZufallsvariablenX1, X2, . . . mit Verteilungµ.
(1). SCHÄTZEN DESERWARTUNGSWERTES: Sei∫|x| µ(dx) <∞. Um den Erwartungswert
m =
∫x µ(dx)
zu schätzen, verwenden wir dasempirische Mittel
Xn :=1
n
n∑
i=1
Xi.
Das empirische Mittel ist einerwartungstreuer Schätzerfür m, d.h.Xn ist eine Funkti-
on von den BeobachtungswertenX1, . . . , Xn mit E[Xn] = m. Obere Schranken für den
SchätzfehlerP [|Xn − m| > ε], ε > 0, erhält man z.B. mithilfe derCebyšev- oder der
exponentiellen Markov-Ungleichung. Fürn→ ∞ gilt nach dem Gesetz der großen Zahlen
Xn −→ m P -fast sicher,
d.h.Xn ist einekonsistenteFolge von Schätzern fürm.
Universität Bonn Wintersemester 2009/2010
236 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
(2). SCHÄTZEN DER VARIANZ : Um die Varianz
v =
∫(x−m)2 µ(dx)
der zugrundeliegenden Verteilung zu schätzen, verwendet man meistens dierenormierte
Stichprobenvarianz
Vn =1
n− 1
n∑
i=1
(Xi −Xn)2.
Der Vorfaktor 1n−1
(statt 1n) gewährleistet unter anderem, dassVn ein erwartungstreuer
Schätzer fürv ist, denn aus
1
n
n∑
i=1
(Xi −Xn)2 =
1
n
n∑
i=1
(Xi −m)2 − (Xn −m)2 (7.3.1)
Stichprobenvarianz= MSE − Stichprobenbias2
folgt
E
[1
n
n∑
i=1
(Xi −Xn)2
]=
1
n
n∑
i=1
Var[Xi]− Var[Xn] =n− 1
nv,
alsoE[Vn] = v.
Um zu zeigen, dassVn eine konsistente Folge von Schätzern fürv ist, können wir erneut
das Gesetz der großen Zahlen anwenden. Da die ZufallsvariablenXi − Xn, 1 ≤ i ≤ n,
selbst nicht unabhängig sind, verwenden wir dazu die Zerlegung (7.3.1). Nach dem starken
Gesetz der großen Zahlen für nichtnegative Zufallsvariablen erhalten wir
n− 1
nVn =
1
n
n∑
i=1
(Xi −m)2 − (Xn −m)2 −→ v P -fast sicher,
also auchVn → v P -fast sicher.
(3). SCHÄTZEN VON INTEGRALEN: Allgemeiner können wir für jede Funktionf ∈ L1(S,S, µ)das Integral
θ =
∫f dµ
erwartungstreu durch dieempirischen Mittelwerte
θn =1
n
n∑
i=1
f(Xi)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.3. EMPIRISCHE VERTEILUNGEN 237
schätzen. Dies haben wir schon in Kapitel 3 für Monte Carlo Verfahren verwendet. Da die
Zufallsvariablenf(Xi) wieder unabhängig und identisch verteilt sind mit Erwartungswert
θ, gilt nach dem starken Gesetz der großen Zahlen:
θn −→ θ P -fast sicher. (7.3.2)
(4). SCHÄTZEN DER VERTEILUNG: Die gesamte Verteilungµ können wir durch dieempiri-
sche Verteilung
µn(ω) =1
n
n∑
i=1
δXi(ω)
der Zufallsstichprobe schätzen.µn ist eine „zufällige Wahrscheinlichkeitsverteilung,“ d.h.
eine Zufallsvariable mit Werten im RaumWV (R) der Wahrscheinlichkeitsverteilungen
auf (R,B(R)). Aus (7.3.2) ergibt sich die folgende Approximationseigenschaft der empi-
rischen Verteilungen:
∫f dµn =
1
n
n∑
i=1
f(Xi)n→∞−→
∫f dµ (7.3.3)
P -fast sicher für allef ∈ L1(S,S, µ).
Konvergenz der empirischen Verteilungsfunktionen
Für dieempirischen Verteilungsfunktionen
Fn(c) = µn[(−∞, c]] =1
n|1 ≤ i ≤ n : Xi ≤ c|
von unabhängigen, identisch verteilten, reellwertigen ZufallsvariablenX1, X2, . . . mit Vertei-
lungsfunktionF ergibt sich wegenFn(c) =∫I(−∞,c] dµn:
limn→∞
Fn(c) = F (c) P -fast sicher für allec ∈ R. (7.3.4)
Diese Aussage kann man noch etwas verschärfen:
Satz 7.12(Glivenko-Cantelli). SindX1, X2, . . . unabhängig und identisch verteilt mit Vertei-
lungsfunktionF , dann gilt für die empirischen VerteilungsfunktionenFn:
supc∈R
|Fn(c)− F (c)| −→ 0 P -fast sicher. (7.3.5)
Universität Bonn Wintersemester 2009/2010
238 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Beweis.Wir führen den Beweis unter der zusätzlichen Annahme, dassF stetig ist – für den
allgemeinen Fall siehe z.B.Klenke: Wahrscheinlichkeitstheorie. Sieε > 0 gegeben. IstF stetig,
dann existierenk ∈ N und Konstanten
−∞ = c0 < c1 < c2 < . . . < ck = ∞ mit F (ci)− F (ci−1) ≤ε
2
für alle 1 ≤ i ≤ k. DaFn nach 7.3.4 mit Wahrscheinlichkeit1 punktweise gegenF konvergiert,
existiert zudem einn0 ∈ N mit
max0≤i≤n
|Fn(ci)− F (ci)| <ε
2für allen ≥ n0.
Wegen der Monotonie der Verteilungsfunktionen folgt dann
Fn(c)− F (c) ≤ Fn(ci)− F (ci−1) ≤ ε
2+ Fn(ci)− F (ci) < ε,
und entsprechend
F (c)− Fn(c) ≤ F (ci)− Fn(ci−1) ≤ ε
2+ F (ci)− Fn(ci) < ε,
für allen ≥ n0, c ∈ R, und1 ≤ i ≤ k mit ci−1 ≤ c ≤ ci. Also gilt auch
supc∈R
|Fn(c)− F (c)| < ε für allen ≥ n0.
Bemerkung (QQ-Plot). In parametrischen statistischen Modellen nimmt man von vornherein
an, dass die beobachteten Daten Realisierungen von Zufallsvariablen sind, deren Verteilung aus
einer bestimmten Familie von Wahrscheinlichkeitsverteilungen stammt, z.B. der Familie aller
Normalverteilungen. Um zu entscheiden, ob eine solche Annahme für gegebene reellwertige Da-
tenx1, . . . , xn gerechtfertigt ist, kann man die empirische Verteilungsfunktion mit der tatsäch-
lichen Verteilungsfunktion vergleichen. Ein praktikables graphisches Verfahren ist der Quantil-
Quantil-Plot, bei dem die Quantile der empirischen und der theoretischen Verteilung gegenein-
ander aufgetragen werden. Um auf Normalverteilung zu testen, plottet man beispielsweise die
Punkte (Φ−1
(k − 1
2
n
), x(k)
), k = 1, 2, . . . , n,
wobeiΦ die Verteilungsfunktion der Standardnormalverteilung ist, und
x(1) ≤ x(2) ≤ . . . ≤ x(n)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.3. EMPIRISCHE VERTEILUNGEN 239
die Ordnungsstatistiken vonx1, . . . , xn, also die(k − 12)/n-Quantile der empirischen Verteilung
sind. Ist die zugrundeliegende Verteilung eine Normalverteilung mit Mittelm und Standardab-
weichungσ, dann liegen die Punkte für großen näherungsweise auf einer Geraden mit Steigung
σ und Achsenabschnittm, da für die Verteilungsfunktion und die Quantile der theoretischen Ver-
teilung dann
F (c) = P [X ≤ c] = P [σZ +m ≤ c] = P
[Z ≤ c−m
σ
]= Φ
(c−m
σ
),
bzw.
F−1(u) = m+ σΦ−1(u)
gilt. Die folgende Grafik zeigt QQ-Plots bzgl. der Normalverteilung für verschiedene Datensätze.
Histogramme und Multinomialverteilung
Die empirische Verteilungµn(ω) = 1n
n∑i=1
δXi(ω) von ZufallsvariablenX1, . . . , Xn ist selbst ei-
ne Zufallsvariable mit Werten im Raum der Wahrscheinlichkeitsverteilungen. Wir wollen nun
die Verteilung dieser Zufallsvariablen explizit berechnen, falls dieXi unabhängig und identisch
verteilt mit endlichem WertebereichS sind. Haben die Zufallsvariablen keinen endlichen Wer-
tebereich, dann kann man die Aussagen trotzdem anwenden, indem man den Wertebereich in
endlich viele Teilmengen (Klassen) zerlegt.
DasHistogrammvonn Beobachtungswertenx1, . . . , xn, die in einer endlichen MengeS liegen,
ist der Vektor
~h = (ha)a∈S, ha = |1 ≤ i ≤ n|xi = a|,
der Häufigkeiten der möglichen Wertea ∈ S unterx1, . . . , xn. Graphisch stellt man ein Histo-
gramm durch ein Balkendiagramm dar:
Universität Bonn Wintersemester 2009/2010
240 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
ha
a
hb
b
hc
c
hd
d
Abbildung 7.3: Histogramm der Klassena, b, c undd mit den jeweiligen Häufigkeitenha, hb, hc
undhd
Der Raum Hist(n, S) aller möglichen Histogramme vonn Beobachtungswerten ist eine Teilmen-
ge von0, 1, . . . , nS:
Hist(n, S) = ~h = (ha)a∈S|ha ∈ Z+,∑
a∈Sha = n ⊆ 0, 1, . . . , nS.
Sie nunµ eine Wahrscheinlichkeitsverteilung auf der endlichen MengeS. Wir wollen die Vertei-
lung des Histogrammvektors bestimmen, wenn die Beobachtungswerte unabhängige Stichproben
von der Verteilungµ sind. Wir betrachten also unabhängige ZufallsvariablenX1, . . . , Xn auf ei-
nem Wahrscheinlichkeitsraum(Ω,A , P ) mit Verteilungµ und die Häufigkeiten
Ha(ω) := |1 ≤ i ≤ n : Xi(ω) = a|
der möglichen Wertea ∈ S. Die ZufallsvariableHa ist Bin(n, p)-verteilt mit p = µ[a]. Wir
berechnen nun diegemeinsame Verteilungaller dieser Häufigkeiten, d.h. die VerteilungµH des
Zufallsvektors
H = (Ha)a∈S : Ω −→ Hist(n, S)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.4. ENTROPIE 241
mit Werten im Raum der Histogramme. Dazu verwenden wir die Unabhängigkeit derXi. Mit
I = 1, . . . , n erhalten wir:
µH(~k) = P [Ha = ka ∀a ∈ S]
= P [Xi = a genauka-mal für allea ∈ S]
=∑
I=⋃
a∈SIa
|Ia|=ka
P [Xi = a ∀ i ∈ Ia ∀ a ∈ S]
=∑
I=⋃
a∈SIa
|Ia|=ka
∏
a∈Sµ[a]ka
=
(n~k
)∏
a∈Sµ[a]ka .
Hierbei laufen die Summen über alle disjunkten Zerlegungenvon I = 0, 1, . . . , n in Teilmen-
genia, a ∈ S, mit jeweilska Elementen, und derMultinomialkoeffizient
(n~k
):=
n!∏a∈S
ka!, ka ∈ 0, 1, . . . , n mit
∑
a∈Ska = n,
gibt die Anzahl der Partitionen vonn Elementen in Teilmengen von jeweilska Elementen an.
Definition. Die Verteilung des HistogrammvektorsH heißtMultinomialverteilung für n Stich-
proben mit Ergebniswahrscheinlichkeitenµ(a), a ∈ S.
Bemerkung. Im Fall |S| = 2 ist H(ω) eindeutig festgelegt durchH1(ω), und die Zufallsva-
riableH1 ist binomialverteilt mit Parameternn undp = µ[1]. In diesem Sinn ergibt sich die
Binomialverteilung als Spezialfall der Multinomialverteilung.
7.4 Entropie
Wir definieren nun die Entropie einer diskreten Wahrscheinlichkeitsverteilung. Mithilfe des Ge-
setzes der großen Zahlen können wir eine statistische Interpretation dieser Größe geben, aus der
sich insbesondere der Quellenkodierungssatz von Shannon ergibt.
Universität Bonn Wintersemester 2009/2010
242 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Definition und Eigenschaften
Wir bemerken zunächst, dass die auf[0,∞) definierte Funktion
u(x) :=
x log x für x > 0
0 für x = 0
stetig und strikt konvex ist mit
u(x) ≤ 0 für allex ∈ [0, 1], (7.4.1)
u(x) ≥ x− 1 für allex ≥ 0, (7.4.2)
und absolutem Minimumu(1/e) = −1/e.
0.2
0.4
−0.2
−0.4
−0.6
−0.8
−1.0
−1.2
−1.4
0.5 1.0
1e
Abbildung 7.4: Graph der Funktionu(x) (blau) und ihrer unteren Schrankex− 1 (rot)
Sei nunS eine abzählbare Menge, undµ = (µ(x))x∈S eine Wahrscheinlichkeitsverteilung aufS.
Definition. Die Größe
H(µ) := −∑
x∈Sµ(x) 6=0
µ(x) log µ(x) = −∑
x∈Su(µ(x)) ∈ [0,∞]
heißtEntropieder Wahrscheinlichkeitsverteilungµ.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.4. ENTROPIE 243
Anschaulich können wir− log µ(x) interpretieren als Maß für die »Überraschung« bzw. den
»Informationsgewinn«, falls eine Stichprobe von der Verteilung µ den Wertx hat. Die »Überra-
schung« ist umso größer, je unwahrscheinlicherx ist. Die EntropieH(µ) ist dann die »mittlere
Überraschung« bzw. der »mittlere Informationsgewinn« beim Ziehen einer Stichprobe vonµ.
Eine wichtige Eigenschaft der Entropie, die auch die Wahl des Logarithmus erklärt, ist:
Satz 7.13(Faktorisierungseigenschaft). Für beliebige diskrete Wahrscheinlichkeitsverteilun-
genµ undν gilt:
H(µ⊗ ν) = H(µ) +H(ν).
Der mittlere Informationszuwachs in einem aus zwei unabhängigen Experimenten zusammenge-
setzten Zufallsexperiment ist also die Summe der einzelnenmittleren Informationszuwächse.
Beweis.Nach Definition der Entropie gilt:
H(µ⊗ ν) =∑
x,yµ(x)ν(y) 6=0
µ(x)ν(y) log(µ(x)ν(y))
= −∑
x:µ(x) 6=0
µ(x) log(µ(x))−∑
y:ν(y) 6=0
ν(y) log(ν(y))
= H(µ) +H(ν).
Wir bestimmen nun auf einer gegebenen abzählbaren MengeS die Wahrscheinlichkeitsverteilun-
gen mit minimaler bzw. maximaler Entropie.
Extrema der Entropie:
(1). Entropieminima: Nach (7.4.1) ist die Entropie stets nicht-negativ, und es gilt:
H(µ) = 0 ⇐⇒ µ(x) ∈ 0, 1 ∀x ∈ S ⇐⇒ µ ist ein Diracmaß.
Die Diracmaße sind also die Entropieminima. Ist das Zufallsexperiment deterministisch,
d.h.µ ein Diracmaß, dann tritt bei Ziehen einer Stichprobe vonµ keine Überraschung bzw.
kein Informationszuwachs auf.
(2). Entropiemaximum: Ist S endlich, dann gilt für alle Wahrscheinlichkeitsverteilungenµ
aufS:
H(µ) ≤ − log
(1
|S|
)= H(US),
Universität Bonn Wintersemester 2009/2010
244 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
wobeiUS die Gleichverteilung aufS ist. Nach der Jensenschen Ungleichung gilt nämlich
−∑
x∈Su(µ(x)) = −|S| ·
∫u(µ(x)) US(dx)
≤ −|S| · u(∫
µ(x) US(dx)
)
= −|S| · u(
1
|S|
)= − log
1
|S|
mit Gleichheit genau dann, wennµ die Gleichverteilung ist.
Die Gleichverteilung maximiert also die Entropie auf einemendlichen Zustandsraum. An-
schaulich können wir die Gleichverteilung als eine »völligzufällige« Verteilung auffassen
– d.h. wir verwenden die Gleichverteilung als Modell, wenn wir keinen Grund haben, einen
der Zustände zu bevorzugen. Die Entropie ist in diesem Sinneein Maß für die»Zufällig-
keit«(bzw.»Unordnung«) der Wahrscheinlichkeitsverteilungµ.
Auf einer abzählbar unendlichen Menge existiert keine Wahrscheinlichkeitsverteilung mit
maximaler Entropie.
Beispiel (Entropie von Markovketten ). Sei p(x, y) (x, y ∈ S) eine stochastische Matrix auf
einer endlichen MengeS, die die GleichverteilungUS als Gleichgewicht hat, d.h. für alley ∈ S
gilt:∑
x∈Sp(x, y) = |S| ·
∑
x∈SUS(x) p(x, y) = |S| · US(y) = 1. (7.4.3)
Beispielsweise istp die Übergangsmatrix eines Random Walks auf dem diskreten Kreis Zk =
Z/(kZ), der symmetrischen GruppeSn („Mischen eines Kartenspiels“), oder dem diskreten Hy-
perwürfel0, 1n („Ehrenfestmodell“).
Der folgende Satz zeigt, dass die EntropieH(µpn) der Verteilung zur Zeitn einer Markovkette
mit Startverteilungµ und Übergangsmatrixp monoton wächst:
Satz 7.14(Zunahme der Entropie). Ist p eine stochastische Matrix aufS mit (7.4.3), dann gilt:
H(µp) ≥ H(µ)
für jede Wahrscheinlichkeitsverteilungµ auf S. Insbesondere istn 7→ H(µpn) monoton wach-
send.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.4. ENTROPIE 245
Beweis.Aus der Jensenschen Ungleichung folgt:
−H(µp) =∑
y∈Su
(∑
x∈Sµ(x)p(x, y)
)
≤∑
y∈S
∑
x∈Su(µ(x))p(x, y)
=∑
x∈Su(µ(x)) = −H(µ).
Hierbei haben wir im zweiten Schritt benutzt, dass die Funktion u konvex ist, und dassx 7→p(x, y) nach (7.4.3) für jedesy ∈ S die Gewichtsfunktion einer Wahrscheinlichkeitsverteilung
ist.
In der Interpretation der statistischen Physik geht die zeitliche Entwicklung auf makroskopischer
Ebene (Thermodynamik) von einem geordneten hin zu einem ungeordneten Zustand maxima-
ler Entropie (»thermodynamische Irreversibilität«). Trotzdem ist auf mikroskopischer Ebene die
Dynamik rekurrent, d.h. jeder Zustandx ∈ S wird von der Markovkette mit Wahrscheinlichkeit
1 unendlich oft besucht – dies dauert nur eventuell astronomisch lange. Die Einführung eines
Markovmodells durch die österreichischen Physiker Tatjana und Paul Ehrenfest konnte eine ent-
sprechende Kontroverse von Zermelo („Dynamik kehrt immer wieder zurück“) und Boltzmann
(„soll solange warten“) lösen.
Statistische Interpretation der Entropie
Seiµ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren MengeS. Die Wahrscheinlich-
keit einer Folge von Ausgängenx1, . . . , xn bei Entnehmen einer Stichprobe ausn unabhängigen
Zufallsgrößen mit Verteilungµ beträgt
pn(x1, ..., xn) =n∏
i=1
µ(xi).
Der gemittelte Informationszuwachs durch Auswertung der Wertex1, . . . , xn ist also
− 1
nlog pn(x1, ..., xn).
Mithilfe des Gesetzes der großen Zahlen können wir die Asymptotik dieser Größen fürn → ∞untersuchen:
Satz 7.15(Shannon - Mc Millan). SeienX1, X2, . . . : Ω → S unterP unabhängige Zufallsva-
riablen mit Verteilungµ. Dann giltP -fast sicher
− 1
nlog pn(X1, . . . , Xn) −→ H(µ) für n→ ∞.
Universität Bonn Wintersemester 2009/2010
246 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Beweis.Mit Wahrscheinlichkeit1 gilt µ(Xi) > 0 für alle i, also nach Korollar 7.11:
− 1
nlog pn(X1, . . . , Xn) = − 1
n
n∑
i=1
log µ(Xi)n→∞−→ −
∫log µ dµ = H(µ).
Bemerkung(Exponentielle Skala). Die Aussage des Satzes besagt, dass auf der „exponentiellen
Skala“ fast sicher
pn(X1, . . . , Xn) ≃ e−nH(µ)
gilt, d.h. beide Ausdrücke sind asymptotisch äquivalent bis auf subexponentielle (also z.B. poly-
nomiell) wachsende Faktoren. Eine asymptotische Beschreibung von Wahrscheinlichkeiten auf
der exponentiellen Skala ist Gegenstand der Theorie großerAbweichungen, siehe Abschnitt Satz
8.3 und Kapitel 11 unten.
Entropie und Kodierung
Wir betrachten nun eine Anwendung der Entropie auf diemöglichst effiziente Beschreibung/Ko-
dierung einer Zufallsfolge.Eine unbekannte Signalfolge mit Werten in einer endlichen MengeS
(dem zugrundeliegenden „Alphabet“) beschreibt man im einfachsten A-Priori-Modell durch un-
abhängige ZufallsvariablenX1, X2, ... mit Verteilungµ, wobeiµ(x) die relative Häufigkeit des
Buchstabensx in der verwendeten Sprache ist. Eine „perfekte“ Kodierung ordnet jedem Wort mit
einer vorgegebenen Anzahln von Buchstaben, also jedem Element des ProduktraumsSn, eine
Binärfolge zu. Will man alle Wörter mitn Buchstaben perfekt kodieren, werdenn · log |S| Bits
benötigt. Wir betrachten stattdessen „effiziente“ Kodierungen, die nur den „meisten“ Wörtern mit
n Buchstaben eindeutig eine Binärfolge zuordnen.
Definition. Eine Folge von MengenBn ⊆ Sn (n ∈ N) heißtwesentlichbzgl.µ, falls
P [(X1, ..., Xn) ∈ Bn] = µn[Bn] → 1 für n→ ∞.
1− 10, 1k
Sn
Abbildung 7.5: Perfekte Kodierung
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
7.4. ENTROPIE 247
irgendwie
1− 10, 1k
Sn
Bn
Abbildung 7.6: Effiziente Kodierung bzgl. einer Folge von wesentlichen MengenBn.
Korollar 7.16 (Maßkonzentrationssatz von McMillan). Für jedesε > 0 ist die Folge
Bn :=(x1, ...xn) ∈ Sn
∣∣ e−n(H(µ)+ε) ≤ pn(x1, ..., xn) ≤ e−n(H(µ)−ε), n ∈ N,
wesentlich bzgl.µ, und es gilt
|Bn| ≤ en(H(µ)+ε) für alle n ∈ N.
Beweis.Es gilt
Bn =
(x1, ...xn) ∈ Sn
∣∣∣∣H(µ)− ε ≤ − 1
nlog pn(x1, ..., xn) ≤ H(µ) + ε
. (7.4.4)
Da aus der fast sicheren Konvergenz von− 1nlog pn(X1, ..., Xn) gegen die EntropieH(µ) die
stochastische Konvergenz folgt, ist die FolgeBn (n ∈ N) nach Satz 7.15 wesentlich bzgl.µ.
Zudem gilt wegenpn(x1, ..., xn) ≥ e−n(H(µ)+ε) für (x1, . . . , xn) ∈ Bn:
1 ≥ P [(X1, ..., Xn) ∈ Bn] =∑
x∈Bn
pn(x1, ..., xn) ≥ |Bn| · e−n(H(µ)+ε),
also|Bn| ≤ en(H(µ)+ε)
Der Maßkonzentrationssatz zeigt, dass Folgen von wesentlichen Mengen existieren, die auf der
exponentiellen Skala nicht viel schneller alsexp(n ·H(µ)) wachsen.
Wie groß sind wesentliche Mengen mindestens? Fürp ∈ (0, 1) sei
K(n, p) = inf |An| |An ⊆ Sn mit P [(X1, ..., Xn) ∈ An] ≥ p
die mindestens benötigte Anzahl von Wörtern, um den Text(X1, ..., Xn) mit Wahrscheinlich-
keit ≥ p korrekt zu erfassen. Dann istlog2K(n, p) die für eine korrekte binäre Kodierung von
(X1, ..., Xn) mit Wahrscheinlichkeit≥ p mindestens benötigte Anzahl von Bits.
Universität Bonn Wintersemester 2009/2010
248 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN
Satz 7.17(Quellenkodierungssatz von Shannon). Für alle p ∈ (0, 1) gilt:
limn→∞
1
nlogK(n, p) = H(µ), bzw.
limn→∞
1
nlog2K(n, p) = H2(µ) := −
∑
x:µ(x) 6=0
µ(x) log2 µ(x).
Insbesondere gilt: IstAn (n ∈ N) wesentlich bzgl.µ, so ist
lim infn→∞
1
nlog |An| ≥ H(µ).
Bemerkung. (1). Die Größe1nlog2K(n, p) kann als die für eine mit Wahrscheinlichkeit≥
p korrekte Kodierung benötigte Zahl von Bits pro gesendetem Buchstaben interpretiert
werden.
(2). Der Quellenkodierungssatz zeigt, dass es keine Folge von wesentlichen Mengen gibt, die
auf der exponentiellen Skala deutlich langsamer wächst alsdie im Maßkonzentrationssatz
konstruierten Folgen.
Beweis.Wir zeigen separat eine obere und eine untere Schranke für1nlogK(n, p):
Obere Schranke: lim supn→∞
1nlogK(n, p) ≤ H(µ):
Zum Beweis seiε > 0 gegeben. Nach Korollar 7.16 ist die Folge
Bn =x ∈ Sn
∣∣e−n(H(µ)+ε) ≤ pn(x1, ..., xn) ≤ e−n(H(µ)−ε)
wesentlich bzgl.µ, und 1nlog |Bn| ≤ H(µ) + ε. Wegen
limn→∞
P [(X1, ..., Xn) ∈ Bn] = 1 > p, (7.4.5)
folgt
lim supn→∞
1
nlogK(n, p) ≤ lim sup
n→∞
1
nlog |Bn| ≤ H(µ) + ε.
Die Behauptung ergibt sich fürε→ 0.
Untere Schranke: lim infn→∞
1nlogK(n, p) ≥ H(µ):
SeienAn ⊆ Sn mit P [(X1, ..., Xn) ∈ An] ≥ p. Dann gilt wegen (7.4.5) und (7.4.4) auch
p ≤ lim infn→∞
P [(X1, ..., Xn) ∈ An ∩ Bn] ≤ lim infn→∞
(|An ∩ Bn| · e−n(H(µ)−ε)
),
also für alleε > 0
lim infn→∞
1
nlog |An| ≥ lim inf
n→∞
1
nlog |An ∩ Bn| ≥ H(µ)− ε.
Für ε→ 0 folgt
lim infn→∞
1
nlog |An| ≥ H(µ).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
Kapitel 8
Grenzwertsätze
SindXi : Ω → R, i ∈ N, unabhängige identisch verteilte (i.i.d.) Zufallsvariablen mit Erwartungs-
wertm, dann konvergieren die MittelwerteSn
nder SummenSn =
n∑i=1
Xi nach dem Gesetz der
großen Zahlen fürn → ∞ fast sicher gegenm. Wir wollen nun die Verteilung vonSn für große
n genauer untersuchen. Dabei unterscheidet man zwei unterschiedliche Arten von Aussagen:
• Zentrale Grenzwertsätzebeschreiben „typische“ Fluktuationen um den Grenzwert ausdem
Gesetz der großen Zahlen, d.h. die asymptotische Form der Verteilung vonSn/n in Berei-
chen der GrößenordnungO(1/√n) um den Erwartungswertm, siehe Abschnitt 8.4.
• Aussagen übergroße Abweichungenbeschreiben asymptotisch die Wahrscheinlichkeiten
der seltenen Abweichungen der GrößenordnungO(1) von Sn/n vom Erwartungswertm.
Diese Wahrscheinlichkeiten fallen unter geeigneten Voraussetzungen exponentiell ab, siehe
Abschnitt 8.2.
Mit dem Satz von de Moivre/Laplace bzw. der Bernsteinungleichung haben wir bereits entspre-
chende Aussagen kennengelernt, falls dieXi Bernoulli-verteilte Zufallsvariablen sind. In die-
sem Kapitel werden wir sehen, dass keine spezifische Form derVerteilung vorausgesetzt werden
muss, sondern die Aussagen ganz allgemein unter geeignetenIntegrierbarkeitsbedingungen gel-
ten.
Ein wichtiges Hilfsmittel zum Beweis allgemeiner Grenzwertsätze sind momentenerzeugende
und charakteristische Funktionen:
249
250 KAPITEL 8. GRENZWERTSÄTZE
8.1 Charakteristische und Momentenerzeugende Funktionen
In diesem Abschnitt führen wir charakteristische und momentenerzeugende Funktionen von re-
ellen Zufallsvariablen ein und beweisen einige grundlegende Aussagen über diese Funktionen.
Insbesondere zeigen wir, dass sich die Verteilung einer reellen Zufallsvariable eindeutig aus ihrer
charakteristischen Funktion rekonstruieren lässt.
Definition und Eigenschaften
Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum undX : Ω → R eine reellwertige Zufallsvariable mit
Verteilungµ.
Definition. (1). Die FunktionM : R → (0,∞],
M(t) := E[etX ] =
∫
R
etx µ(dx),
heißtmomentenerzeugende Funktionender ZufallsvariableX bzw. der Verteilungµ.
(2). Die Funktionφ : R → C,
φ(t) := E[eitX ] =
∫
R
eitx µ(dx),
heißtcharakteristische FunktionvonX bzw.µ.
Da die Funktionent 7→ etx undt 7→ eitx für t ∈ R nichtnegativ bzw. beschränkt sind, sind die Er-
wartungswerte definiert. Dabei wird der Erwartungswert einer komplexwertigen Zufallsvariable
separat für Real- und Imaginärteil berechnet.
Rechenregeln Die folgenden Rechenregeln ergeben sich unmittelbar aus derDefinition:
(1). SindX undY unabhängige reellwertige Zufallsvariablen auf(Ω,A, P ), dann gilt
MX+Y (t) = MX(t) ·MY (t) und φX+Y (t) = φX(t) · φY (t)
für alle t ∈ R.
(2). Füra, b ∈ R gilt
MaX+b(t) = ebt ·MX(at) und φaX+b(t) = eibt · φX(at)
für alle t ∈ R.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 251
(3). Für momentenerzeugende bzw. charakteristische Funktionen gilt stets
M(0) = φ(0) = 1, und
φ(−t) = φ(t) für alle t ∈ R.
Die Funktionφ(−t) =∫e−itxµ(dx) ist dieFouriertransformationdes Maßesµ. Istµ absolutste-
tig bzgl. des Lebesguemaßes mit Dichtef , dann istφ(−t) die Fouriertransformation der Funktion
f :
φ(t) =
∫
R
e−itxf(x) dx = f(t).
Entsprechend ist
M(−t) =
∫
R
e−tx µ(dx) (t > 0)
dieLaplacetransformationdes Maßesµ bzw. der Dichtef .
Bemerkung (Zusammenhang vonM und φ). (1). Gilt M(s) < ∞ für ein s > 0 (bzw. ana-
log für eins < 0), dann istM auf dem Intervall[0, s] (bzw. [s, 0]) endlich, denn nach der
Jensenschen Ungleichung folgt:
M(t) = E[etX ] ≤ E[esX ]t/s < ∞ für alle t ∈ [0, s] bzw. t ∈ [s, 0].
(2). GiltM(t) <∞ auf(−δ, δ) für einδ > 0, dann istM analytisch fortsetzbar auf den Streifen
z ∈ C : |Re(z)| < δ in der komplexen Zahlenebene, und es gilt
φ(t) = M(it) für alle t ∈ R.
Die letzte Bemerkung ermöglicht manchmal eine vereinfachteBerechnung der charakteristischen
Funktion.
Beispiel. (1). Für eine standardnormalverteilte ZufallsvariableZ gilt:
MZ(t) =1√2π
∫ ∞
−∞etx−x2/2dx = et
2/2 1√2π
∫ ∞
−∞e−(x−t)2/2dx = et
2/2 <∞ für alle t ∈ R.
Also ist die charakteristische Funktion gegeben durch
φZ(t) = MZ(it) = e−t2/2 für alle t ∈ R.
Universität Bonn Wintersemester 2009/2010
252 KAPITEL 8. GRENZWERTSÄTZE
(2). Eine normalverteilte ZufallsvariableX mit Mittel m und Varianzσ2 können wir darstellen
alsX = σZ +m mit Z ∼ N(0, 1). Also gilt:
MX(t) = emt MZ(σt) = exp
(mt+
σ2t2
2
),
φX(t) = exp
(imt− σ2t2
2
).
SindX1, ..., Xn unabhängige,N(m,σ2)-verteilte Zufallsvariablen, dann erhalten wir:
φX1+...+Xn(t) =n∏
i=1
φXi(t) = exp
(inmt− nσ2t2
2
).
Da die rechte Seite die charakteristische Funktion vonN(nm, nσ2) ist, folgt nach dem
Fourierinversionssatz (s.u., Satz 8.2):
X1 + ...+Xn ∼ N(nm, nσ2) .
(3). Die Binomialverteilung mit Parameternn undp ist die Verteilung der Summe∑n
i=1 Yi von
unabhängigenBernoulli(p)-verteilten ZufallsvariablenY1, ..., Yn. Also sind
φ(t) =n∏
i=1
φYi(t) =
(1− p+ peit
)n, und
M(t) =(1− p+ pet
)n
die charakteristische und momentenerzeugende Funktion vonBin(n, p).
(4). DieCauchyverteilungist die absolutstetige Wahrscheinlichkeitsverteilung auf R mit
Dichte
f(x) =1
π(1 + x2)(x ∈ R).
Für eine Cauchyverteilte ZufallsvariableX gilt MX(t) = ∞ für alle t 6= 0
(und sogarE[|X|n] = ∞ ∀n ∈ N). Trotzdem existiert
φX(t) = e−|t| für alle t ∈ R .
Die charakteristische Funktion ist allerdings bei0 nicht differenzierbar.
Wir zeigen nun, dass sich die MomenteE[Xn] einer ZufallsvariableX : Ω → R unter geeigne-
ten Voraussetzungen aus der momentenerzeugenden bzw. charakteristischen Funktion berechnen
lassen. Die nötigen Voraussetzungen sind allerdings im Fall der momentenerzeugenden Funktion
viel stärker:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 253
Satz 8.1. (1). IstM endlich auf(−δ, δ), δ > 0, dann gilt
E[ezX ] =∞∑
n=0
zn
n!E[Xn] für alle z ∈ C mit |z| < δ.
Insbesondere folgt
M(t) =∞∑
n=0
tn
n!E[Xn] für alle t ∈ (−δ, δ) ,
und somit
M (n)(0) = E[Xn] für alle n ≥ 0 .
(2). IstE[|X|n] <∞ für einn ∈ N, dann giltφ ∈ Cn(R) und
φ(n)(t) = in · E[XneitX ] für alle t ∈ R . (8.1.1)
Beweis. (1). Aus der Voraussetzung und dem Satz von der monotonen Konvergenz folgt für
s ∈ (0, δ):∞∑
n=0
sn
n!E[|X|n] = E
[es|X|] ≤ E
[esX]+ E
[e−sX
]< ∞ .
Insbesondere existieren alle MomenteE[Xn], n ∈ N, sowie die exponentiellen Momente
E[ezX ] für z ∈ C mit |Re(z)| < δ. Nach dem Satz von Lebesgue erhalten wir für diesez
zudem∞∑
n=0
zn
n!E[Xn] = lim
m→∞E
[m∑
n=0
(zX)n
n!
]= E
[lim
m→∞
m∑
n=0
(zX)n
n!
]= E[ezX ] ,
daes|X| für s ≥ |z| eine Majorante der Partialsummen ist.
(2). Wir zeigen die Behauptung durch Induktion nachn. Fürn = 0 gilt (8.1.1) nach Definition
vonφ(t). IstE[|X|n+1] < ∞, dann folgt nach Induktionsvoraussetzung und mit dem Satz
von Lebesgue:
φ(n)(t+ h)− φ(n)(t)
h=
1
hE[(iX)n
(ei(t+h)X − eitX
)]
= E
[(iX)n
1
h
∫ t+h
t
iXeisX ds
]→ E
[(iX)n+1 eitX
]
für h→ 0, also
φn+1(t) = E[(iX)n+1 · eitX ].
Die Stetigkeit der rechten Seite int folgt ebenfalls aus dem Satz von Lebesgue und der
VoraussetzungE[|X|n+1] <∞.
Universität Bonn Wintersemester 2009/2010
254 KAPITEL 8. GRENZWERTSÄTZE
Beispiel. Für eine ZufallsvariableX mit DichtefX(x) = const. · e−|x|1/2 gilt E[|X|n] < ∞ für
allen ∈ N. Also ist die charakteristische Funktion beliebig oft differenzierbar. Die momentener-
zeugende FunktionM(t) = E[etX ] ist hingegen nur fürt = 0 endlich.
Bemerkung (Satz von Bochner). Eine Funktionφ : R → C ist genau dann eine charakteristi-
sche Funktion einer Wahrscheinlichkeitsverteilung aufR, wenn gilt:
(1). φ(0) = 1 und |φ(t)| ≤ 1 für alle t ∈ R.
(2). φ ist gleichmäßig stetig.
(3). φ ist nicht negativ definit, d.h.n∑
i,j=1
φ(ti − tj)zizj ≥ 0 ∀n ∈ N, t1, ..., tn ∈ R, z1, ..., zn ∈ C.
Dass jede charakteristische Funktion einer Wahrscheinlichkeitsverteilung die Eigenschaften (1)-
(3) hat, prüft man leicht nach (Übung). Der Beweis der umgekehrten Aussage findet sich z.B. in
Vol. II des Lehrbuchs von Feller.
Inversion der Fouriertransformation
Die folgende zentrale Aussage zeigt, dass eine Wahrscheinlichkeitsverteilungeindeutigdurch ih-
re charakteristische Funktionφ festgelegt ist, und liefert eineexplizite Formelzur Rekonstruktion
der Verteilung ausφ:
Satz 8.2(Lévys Inversionsformel). Seiφ die charakteristische Funktion einer Zufallsvariable
X mit Verteilungµ. Dann gilt:
(1).
1
2µ[a] + µ[(a, b)] +
1
2µ[b] =
1
2πlimT→∞
∫ T
−T
e−ita − e−itb
itφ(t) dt ∀ a < b .
(2). Gilt∫∞−∞ |φ(t)| dt <∞, dann istµ absolutstetig mit stetiger Dichte
f(x) =1
2π
∫ ∞
−∞e−itx φ(t) dt.
Bemerkung. (1). Die Verteilungµ ist durch (1) eindeutig festgelegt, denn fürc, d ∈ R mit
c < d gilt:
1
2µ[a] + µ[(a, b)] +
1
2µ[b] =
1
2
(µ[[a, b]
]+ µ
[(a, b)
])→ µ[(c, d)] ,
für aց c undbր d.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 255
(2). Ist die Verteilungµ absolutstetig mit quadratintegrierbarer Dichtef , dann ist auch die
entsprechende charakteristische Funktion
φ(t) =
∞∫
−∞
eitxf(x) dx
quadratintegrierbar. Die Aussage (2) aus Satz 8.2 ist in diesem Fall die klassischeFourier-
inversionsformel der Analysis, siehe z.B. Forster „Analysis 3“.
Im Beweis der Inversionsformel verwenden wir den Satz von Fubini, der besagt, dass wir die
Integrationsreihenfolge in Doppelintegralen vertauschen dürfen, wenn der Integrand produktin-
tegrierbar ist. Für den Beweis des Satzes von Fubini verweisen wir auf die Analysisvorlesung
oder Abschnitt 9.1.
von Satz 8.2. (1). SeiT > 0 unda < b. Nach dem Satz von Fubini können wir die Integrati-
onsreihenfolge in dem folgendem Doppelintegral vertauschen, und erhalten:
1
2π
∫ T
−T
e−ita − e−itb
itφ(t)︸︷︷︸ dt =
=∫eitx µ(dx)
1
π
∫ ∫ T
−T
eit(x−a) − eit(x−b)
2itdt
︸ ︷︷ ︸=: g(T,x)
µ(dx) (8.1.2)
Dabei haben wir benutzt, dass der Integrand produktintegrierbar ist, da aus der Lipschitz-
Stetigkeit der Abbildungy 7→ eiy mit KonstanteL = 1 folgt, dass∣∣∣∣eit(x−a) − eit(x−b)
it
∣∣∣∣ ≤|t · (x− a)− t · (x− b)|
|t| = |a− b| gilt.
Weiterhin erhalten wir, wegeneit(x−a) = cos(t·(x−a))+i sin(t·(x−a)), cos(x) = cos(−x)undsin(x) = − sin(−x):
g(T, x) =
∫ T
0
sin(t · (x− a))
tdt −
∫ T
0
sin(t · (x− b))
tdt
=
∫ T ·(x−a)
0
sin u
udu −
∫ T ·(x−b)
0
sin u
udu
= S(T · (x− a)) − S(T · (x− b))
wobei
S(t) :=
∫ t
0
sin u
udu
der Integralsinus ist. Mithilfe des Residuensatzes (siehe Funktionentheorie) zeigt man:
limt→∞
S(t) =π
2, lim
t→−∞S(t) = −π
2.
Universität Bonn Wintersemester 2009/2010
256 KAPITEL 8. GRENZWERTSÄTZE
Damit erhalten wir:
limT→∞
g(T, x) =π
2sgn(x− a) − π
2sgn(x− b) = π · I(a,b)(x) +
π
2· Ia,b(x) ,
wobei wir sgn(0) := 0 setzen. DaS beschränkt ist, ist auchg(T, x) beschränkt inT undx.
Nach dem Satz von Lebesgue folgt daher aus (8.1.2) fürT → ∞1
2π
∫ T
−T
e−ita − e−itb
itφ(t) dt =
1
π
∫g(T, x) µ(dx)
T→∞−→ µ[(a, b)] +1
2µ[a, b] .
(2). Istφ integrierbar, dann ist die Funktion(t, x) 7→ e−itx φ(t) produktintegrierbar auf
[a, b]× R für alle−∞ < a < b <∞. Also ist die Funktion
f(x) :=1
2π
∫ ∞
−∞e−itx φ(t) dt
integrierbar auf[a, b], und es gilt nach dem Satz von Fubini und (1):∫ b
a
f(x) dx =1
2π
∫ ∞
−∞φ(t)
∫ b
a
e−itx dx
︸ ︷︷ ︸= e−ita−e−itb
it
dt(1)=
1
2µ[a] + µ[(a, b)] +
1
2µ[b] .
Insbesondere folgt∫ b−ε
a+ε
f(x) dx ≤ µ [(a, b)] ≤∫ b
a
f(x) dx ∀ ε > 0,
also fürεց 0:
µ[(a, b)] =
∫ b
a
f(x) dx .
8.2 Erste Anwendungen auf Grenzwertsätze
Charakteristische und momentenerzeugende Funktionen werden häufig beim Beweis von Grenz-
wertsätzen der Wahrscheinlichkeitstheorie vewendet. Wirskizzieren an dieser Stelle schon ein-
mal die Anwendung charakteristischer Funktionen zum Beweisdes zentralen Grenzwertsatzes
und zeigen anschließend, wie obere Schranken für die Wahrscheinlichkeiten großer Abweichun-
gen vom Gesetz der großen Zahlen mithilfe momentenerzeugender Funktionen hergeleitet wer-
den können. Der detaillierte Beweis des zentralen Grenzwertsatzes wird dann nach weiteren Vor-
bereitungen in Abschnitt 8.3 ausgeführt. Die Analyse der Asymptotik der Wahrscheinlichkeiten
großer Abweichungen auf der exponentiellen Skala werden wir in Kapitel 11 durch den Beweis
einer unteren Schranke vervollständigen.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 257
Zentraler Grenzwertsatz
SeienX1, X2, ... ∈ L 2(Ω,A, P ) unabhängige und identisch verteilte Zufallsvariablen mitE[Xi] =
0 für alle i, und seiSn = X1 + ...+Xn. Nach dem Gesetz der großen Zahlen gilt:
Sn
n→ 0 P -fast sicher.
Wie sieht die Verteilung vonSn für große n aus?
Um eine asymptotische Darstellung zu erhalten, reskalieren wir zunächst so, dass die Varianz
konstant ist. Es gilt
Var[Sn] = n · Var[X1],
also ist
Var
[Sn√n
]=
1
n· Var[Sn] = Var[X1] =: σ2
unabhängig vonn.
Um die Asymptotik der Verteilungen der entsprechend standardisierten SummenSn√n
zu bestim-
men, betrachten wir die charakteristischen Funktionen. Dadie SummandenXi unabhängig und
identisch verteilt sind, erhalten wir
φ Sn√n(t) = φSn
(t√n
)Xi iid=
[φX1
(t√n
)]n.
WegenX1 ∈ L 2(Ω,A, P ) ist φX1 zweimal stetig differenzierbar, und die Taylorentwicklung bei
t = 0 ist gegeben durch
φX1(t) = 1 + i · E[X1] · t−1
2E[X2
1 ] · t2 + o(t2) = 1− 1
2σ2t2 + o(t2).
Damit folgt:
φ Sn√n(t) =
(1− σ2t2
2n+ o
(t2
n
))n
nր∞−→ exp
(−σ
2t2
2
)= φN(0,σ2)(t) ∀ t ∈ R.
Wir werden im nächsten Abschnitt zeigen, dass aus der Konvergenz der charakteristischen Funk-
tionen unter geeigneten Voraussetzungen die schwache Konvergenz (Definition s.u.) der Vertei-
lungen folgt. Somit ergibt sich:
Zentraler Grenzwertsatz: Die Verteilung der standardisierten SummenSn√n
konvergiert schwach
gegen die NormalverteilungN(0, σ2).
Den detaillierten Beweis werden wir in Abschnitt 8.3 führen.Der zentrale Grenzwertsatz erklärt,
warum die Normalverteilungen in der Stochastik von so großer Bedeutung sind:
Universität Bonn Wintersemester 2009/2010
258 KAPITEL 8. GRENZWERTSÄTZE
Bemerkung (Universalität der Normalverteilung ). Die Limesverteilung im zentralen Grenz-
wertsatz ist unabhängig von der Verteilung vonX1, vorausgesetzt, es giltX1 ∈ L 2(Ω,A, P ).
Große Abweichungen vom Gesetz der großen Zahlen
SeienX1, X2, ... ∈ L 1(Ω,A, P ) i.i.d. Zufallsvariablen mit Erwartungswertm und momentener-
zeugender Funktion
M(t) = E[etX1 ] ,
und seiSn = X1 + ...+Xn.
Der folgende Satz verschärft dienicht-asymptotischeobere Schranke für große Abweichungen
vom Gesetz der großen Zahlen aus der Bernstein-Ungleichung (Satz 2.6), und verallgemeinert
diese auf nicht Bernoulliverteilte Zufallsvariablen.
Satz 8.3(Chernoff). Für alle n ∈ N unda ∈ R gilt:
P
[Sn
n≥ a
]≤ e−nI(a) falls a ≥ m, bzw.
P
[Sn
n≤ a
]≤ e−nI(a) falls a ≤ m,
wobei die exponentielle AbfallrateI(a) gegeben ist durch
I(a) = supt∈R
(at− logM(t)).
Beweis.Wir zeigen diese Aussage im Falla ≥ m – der Beweis füra ≤ m verläuft analog. Der
Beweis erfolgt in drei Schritten:
(1). Zentrieren:Wir können o.B.d.A.m = 0 annehmen. Andernfalls betrachten wir die zentrier-
ten ZufallsvariablenXi = Xi − E[Xi], die wieder unabhängig und identisch verteilt sind.
Man überzeugt sich leicht, dass aus der Behauptung fürXi die Behauptung fürXi folgt
(Übung).
(2). Exponentielle Markovungleichung:Für allet ≥ 0 gilt:
P
[Sn
n≥ a
]= P [Sn ≥ na] ≤ e−tnaE[etSn ]
Xi iid= e−tna E[etX1 ]n = e−(at−logM(t))·n.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 259
(3). Optimieren der Abschätzung:Bilden wir das Infimum der für verschiedenet ≥ 0 erhalte-
nen Abschätzungen, dann ergibt sich:
P
[Sn
n≥ a
]≤ inf
t≥0e−(at−logM(t))·n = e− supt≥0(at−logM(t))·n.
Es bleibt zu zeigen, dass
supt≥0
(at− logM(t)) = supt∈R
(at− logM(t)) = I(a).
Dies ist in der Tat der Fall, denn fürt < 0 unda ≥ 0 gilt nach der Jensenschen Ungleichung
und der Voraussetzungm = 0:
at− logM(t) ≤ − logE[etX1 ] ≤ −E[log etX1 ]
= −tm = 0 = a · 0− logM(0).
Bemerkung (Kumulantenerzeugende Funktion, Legendretransformation). (1). Die Funk-
tion Λ(t) := logM(t) heißt logarithmische momentenerzeugendeoderkumulantenerzeu-
gende FunktionvonX1. Diese Funktion hat u.a. folgende Eigenschaften:
(a) Λ ist konvex undunterhalbstetig, d.h.lim infs→t
Λ(s) ≥ Λ(t) für alle t ∈ R.
(b) Λ(0) = 0.
(c) Gilt M(t) <∞ auf (−δ, δ) für ein δ > 0, dann ist
Λ′(0) =M ′(0)
M(0)= m, und
Λ′′(0) =M ′′(0)
M(0)− M ′(0)2
M(0)2= E[X2
1 ]− E[X1]2 = Var[X1].
Die höheren Ableitungen vonΛ heißenKumulantenvonX1.
(2). Die RatenfunktionI ist dieLegendre-Transformation vonΛ:
I(a) = supt∈R
fa(t) mit fa(t) = at− Λ(t),
d.h.I(a) ist der negative Achsenabschnitt der (eindeutigen) Tangente an den Graphen von
Λ mit Steigunga (wobeiI(a) = ∞, falls keine solche Tangente existiert).
Universität Bonn Wintersemester 2009/2010
260 KAPITEL 8. GRENZWERTSÄTZE
1
2
3
4
−1
−2
1 2 3−1 t
logM(t)
I(a)
−I(a)
Abbildung 8.1: Geometrische Darstellung der RatenfunktionI(a) als negativer Achsenabschnitt
der eindeutigen Tangente mit Steigunga (rot) an die Kumulantenerzeugende Funktion (blau)
Wichtige Eigenschaften der Ratenfunktion sind:
(a) I ist wieder konvex und unterhalbstetig.
(b) I(a) ≥ fa(0) = 0 ∀a ∈ R.
(c) Gilt M(t) < ∞ auf (−δ, δ) für ein δ > 0, dann istfa ∈ C∞(−δ, δ) mit fa(0) = 0
undf ′a(0) = a−m. Also folgt:
I(a) = sup fa > 0 ∀ a 6= m.
Unter der Voraussetzung der letzten Bemerkung (c) ist die exponentielle Abfallrate strikt posi-
tiv, d.h. es ergibt sich einexponentieller Abfall der Wahrscheinlichkeiten großer Abweichungen!
Sind die ZufallsvariablenXi nicht exponentiell integrierbar, dann kann es auch passieren, dass
I(a) = 0 für a 6= m. Die Wahrscheinlichkeiten großer Abweichungen fallen in diesem Fall lang-
samer als exponentiell ab, denn es gilt auch eine asymptotische untere Schranke mit derselben
RatenfunktionI, siehe Satz 12.7 unten.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 261
Beispiel. Für konkrete Verteilungen der ZufallsvariablenXi kann man die Kumulantenerzeugen-
de FunktionΛ und die RatenfunktionI häufig explizit berechnen:
(1). Für normalverteilte ZufallsvariablenXi ∼ N(m,σ2) gilt I(a) = (a−m)2
2σ2 , also
P
[Sn
n≥ a
]≤ e−
(a−m)2n
2σ2 für allea ≥ m.
Die Ratenfunktion hat eine Nullstelle beim Erwartungswertm, da die MittelwertSn/n
gegen diese konvergieren. Jenseits vonm fallen die Wahrscheinlichkeiten exponentiell ab,
und zwar mit einer Rate die quadratisch wächst.
1
2
3
4
5
6
1 2 3 4−1−2
Abbildung 8.2: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion
einerN (1, 1)-verteilten Zufallsvariable
(2). FürXi ∼ Exp(λ) gilt
I(a) =
λa− 1− log(λa) für a > 0
∞ für a ≤ 0.
In diesem Fall hat die Ratenfunktion eine Nullstelle beim Erwartungswert1/λ. Da nicht
positive Werte mit Wahrscheinlichkeit 1 nicht auftreten, hat die Ratenfunktion auf dem
Intervall (−∞, 0] den Wert+∞.
Universität Bonn Wintersemester 2009/2010
262 KAPITEL 8. GRENZWERTSÄTZE
1
2
3
4
5
6
7
8
1 2 3 4 5 6
Abbildung 8.3: Legendre-Transformierte der logarithmischen momentenerzeugenden Funktion
einerExp(2)-verteilten Zufallsvariable
(3). FürXi ∼ Bernoulli(p) erhält man
I(a) = a log
(a
p
)+ (1− a) log
(1− a
1− p
)für a ∈ (0, 1).
1
1
Abbildung 8.4: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion
einer Bernoulli(1/2)-verteilten Zufallsvariable
WegenI(a) ≥ 2(a− p)2 verschärft die Abschätzung aus dem Satz von Chernoff in diesem
Fall die in Satz 2.6 hergeleitete obere Schranke
P
[Sn
n≥ a
]≤ e−2(a−p)2n für a ≥ p.
Wir werden später sehen, dassI(a) sich als relative Entropie der Bernoulli(a)-Verteilung
bzgl. der Bernoulli (p)-Verteilung interpretieren lässt.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ 263
Beispiel (Ehrenfestmodell im Gleichgewicht). Es befinden sichn = 1023 Moleküle in einem
Gefäß. Jedes Molekül sei mit Wahrscheinlichkeit12
in der linken bzw. rechten Hälfte. SeienXi
(1 ≤ i ≤ n) Bernoulli(12
)-verteilte unabhängige Zufallsvariablen, wobeiXi = 1 dafür steht,
dass sich dasi-te Molekül in der linken Hälfte befindet. Der AnteilSn/n der Moleküle in dieser
Hälfte konvergiert nach dem Gesetz der großen Zahlen fast sicher gegen1/2.
Wie groß istp := P[Sn
n≥ 1
2+ 10−10
]?
Eine Abschätzung mit derCebyšev-Ungleichung liefert:
p ≤ 1020 · Var[Sn
n
]=
1
4· 10−3 =
1
4000.
Durch Anwenden der exponentiellen Abschätzung erhält man dagegen die viel präzisere Aussage
p ≤ e−2n(10−10)2 = e−2000 .
Eine Abweichung von der Größenordnung10−10 vom Mittelwert ist alsopraktisch unmöglich !
Die makroskopische GrößeSn/n ist daher de facto deterministisch.
8.3 Verteilungskonvergenz
SeiS ein metrischer Raum mit Borelscherσ-AlgebraB(S), zum BeispielS = R oderS = Rd.
Wir wollen nun einen für den zentralen Grenzwertsatz angemessenen Konvergenzbegriff für die
Verteilungenµn einer FolgeYn von Zufallsvariablen mit Werten inS einführen. Naheliegend
wäre es zu definieren, dass eine Folgeµn von Wahrscheinlichkeitsverteilungen auf(S,B(S))gegen eine Wahrscheinlichkeitsverteilungµ konvergiert, wennµ[A] = limµn[A] für jedeMenge
A ∈ B(S) gilt. Ein solcher Konvergenzbegriff erweist sich jedoch sofort als zu restriktiv, z.B.
würde eine Folge von diskreten Wahrscheinlichkeitsverteilungen in diesem Sinne niemals gegen
eine Normalverteilung konvergieren. Einen angemesseneren Grenzwertbegriff erhält man durch
Berücksichtigung der Topologie aufS:
Definition. (1). Schwache Konvergenz von Wahrscheinlichkeitsverteilungen: Eine Folge(µn)n∈N
von Wahrscheinlichkeitsverteilungen aufS (mit Borelscherσ-Algebra)konvergiert schwach
gegen eine Wahrscheinlichkeitsverteilungµ aufS (µnw→ µ), falls
∫f dµn −→
∫f dµ für alle stetigen, beschränktenf : S → R gilt.
Universität Bonn Wintersemester 2009/2010
264 KAPITEL 8. GRENZWERTSÄTZE
(2). Konvergenz in Verteilung von Zufallsvariablen: Eine Folge(Yn)n∈N von Zufallsvariablen
mit Werten inS konvergiert in Verteilunggegen eine ZufallsvariableY bzw. gegen die
Verteilung vonY , falls
Verteilung(Yn)w−→ Verteilung(Y ),
d.h. falls
E[f(Yn)] −→ E[f(Y )] für alle f ∈ Cb(S) gilt.
Konvergenz in Verteilung bezeichnet man auf Englisch als „convergence in distribution“ oder
„convergence in law.“ Entsprechend verwendet man die KurzschreibweisenYnD→ Y oderYn
L→Y , fallsYn in Verteilung gegenY konvergiert.
Beachte: Die ZufallsvariablenYn, n ∈ N, und Y können bei der Verteilungskonvergenzauf
verschiedenen Wahrscheinlichkeitsräumendefiniert sein!
Schwache Konvergenz von Wahrscheinlichkeitsverteilungen
Um den Begriff der schwachen Konvergenz besser zu erfassen, beginnen wir mit einigen Bemer-
kungen und Beispielen:
Bemerkung. (1). Die hier definierte Form der schwachen Konvergenz entspricht nicht der im
funktionalanalytischen Sinn definierten schwachen Konvergenz auf dem Vektorraum al-
ler beschränkten signierten Maße auf(S,B(S)), sondern einer schwach∗-Konvergenz auf
diesem Raum, siehe z.B. ALT: L INEARE FUNKTIONALANALYSIS .
(2). Wir werden in Satz 8.5 zeigen, dass im FallS = R die Folgeµn genau dann schwach
gegenµ konvergiert, wenn für die Verteilungsfunktionen
Fµn(x) −→ Fµ(x) für alle Stetigkeitsstellenx vonF ,
d.h. für allex ∈ R mit µ[x] = 0, gilt.
Neben schwacher Konvergenz betrachtet man häufig u.a. auch die folgenden Konvergenzarten
auf positiven bzw. beschränkten signierten Maßen:
• Vage Konvergenz:µn konvergiert vage gegenµ, falls∫f dµn −→
∫f dµ
für alle stetigen Funktionenf mit kompaktem Träger gilt.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ 265
• Konvergenz in Variationsdistanz:µn konvergiertµ in Variationsdistanz,falls
‖µ− µn‖TV :=1
2sup
f :S→R messbarmit |f | ≤ 1
∣∣∣∣∫f dµ−
∫f dµn
∣∣∣∣ −→ 0.
Die Variationsdistanz zweier Wahrscheinlichkeitsverteilungen lässt sich auch wie folgt dar-
stellen:
‖µ− ν‖TV = supA∈S
|µ[A]− ν[A]|.
Im diskreten Fall gilt
‖µ− ν‖TV =1
2
∑
x∈S|µ[x]− ν[x]| .
Diesen Abstandsbegriff haben wir bereits in Abschnitt 3.5 bei der Konvergenz ins Gleich-
gewicht von Markovketten verwendet.
Offensichtlich folgt aus der Konvergenz in Variationsdistanz die schwache Konvergenz, aus der
wiederum die vage Konvergenz folgt:
‖µn − µ‖TV → 0 =⇒ µnw→ µ =⇒ µn → µ vage.
Die folgenden Beispiele verdeutlichen die unterschiedlichen Konvergenzbegriffe:
Beispiel. (1). Diracmaße: Fürx, xn ∈ S (n ∈ N) mit xn → x gilt δxn
w→ δx.
Beweis:
∫f dδxn = f(xn) → f(x) =
∫f dδx für allef ∈ Cb(R).
Alternativer Beweis im FallS = R:
Fδxn (c) = I[xn,∞)(c)n→∞→ I[x,∞)(c) = Fδx(c) für alle c 6= x,
d.h. für alle Stetigkeitsstellen vonFδx .
In diesem Beispiel gilt i.A. keine Konvergenz in Variationsnorm, denn‖δxn − δx‖TV = 1
für xn 6= x.
Universität Bonn Wintersemester 2009/2010
266 KAPITEL 8. GRENZWERTSÄTZE
(2). Degeneration/Diracfolge:Auf S = R1 konvergiert die Folgeµn := N(0, 1n) von Normal-
verteilungen mit degenerierender Varianz schwach gegen das Diracmaßδ0, denn mit dem
Satz von Lebesgue folgt fürf ∈ Cb(R)∫f dµn =
∫f(x)
1√2π/n
e−x2
2/n dx
y=√nx
=
∫f
(y√n
)1√2π
e−y2
2 dy
Lebesgue−→ f(0) ·∫
1√2π
e−y2
2 dy
︸ ︷︷ ︸= 1
=
∫f dδ0.
1
2
3
1 2 3−1−2−3
Abbildung 8.5: Schwache Konvergenz der NormalverteilungenN(0, 1/n) gegenδ0.
(3). Schwache vs. vage Konvergenz:Die Folgeµn = N(0, n) konvergiert vage gegen das
Nullmaßµ mit µ[A] = 0 für alle A. In der Tat gilt fürf ∈ C(R) mit f(x) = 0 für
x 6∈ [−K,K]:
∣∣∣∣∫f dµn
∣∣∣∣ =
∣∣∣∣∣∣
K∫
−K
f(x) · 1√2πn
e−x2/2ndx
∣∣∣∣∣∣≤ 2K√
2πn· sup |f | n→∞−→ 0.
Es gilt aber keine schwache Konvergenz, da∫
1 dµn = µn[R] = 1 6→ 0.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ 267
Die Masse wandert in diesem Fall ins Unendliche ab.
1 2 3 4 5 6 7 8−1−2−3−4−5−6−7−8
Abbildung 8.6: Konvergenz der Dichten der NormalverteilungenN(0, n) gegen die Nullfunktion.
(4). Wartezeiten:Die WartezeitTp auf den ersten Erfolg bei unabhängigen Ereignissen mit
Erfolgswahrscheinlichkeitp ∈ (0, 1) ist geometrisch verteilt:
P [Tp > k] = (1− p)k für allek ∈ N.
Sei nun eine Intensitätλ > 0 gegeben. Um kontinuierliche Wartezeiten zu approximieren,
betrachten wir unabhängige Ereignisse, die zu den Zeitpunkten i/n, n ∈ N, mit Wahr-
scheinlichkeitλ/n stattfinden. Dann ist1nTλ/n die Wartezeit bis zum ersten Eintreten eines
Ereignisses. Fürn→ ∞ gilt:
P
[1
nTλ
n> x
]= P
[Tλ
n> nx
]=
(1− λ
n
)⌊nx⌋nր∞−→ e−λx ∀x ≥ 0.
Also konvergiert die Verteilung von1nTλ/n schwach gegen die Exponentialverteilung mit
Parameterλ. Konvergenz in Variationsdistanz gilt nicht, da die approximierenden Vertei-
lungen diskret, und die Grenzverteilungen stetig sind.
(5). Diskrete Approximation von Wahrscheinlichkeitsverteilungen: Allgemeiner können wir
eine gegebene Wahrscheinlichkeitsverteilung auf verschiedene Arten durch diskrete Wahr-
scheinlichkeitsverteilungen, also Konvexkombinationenvon Diracmaßen approximieren:
(a) Klassische numerische Approximation:Seiµ eine absolutstetige Wahrscheinlich-
keitsverteilung auf[0, 1] mit Dichtefunktion proportional zug(x), und sei
µn :=n∑
i=1
w(i)n δ i
n,
Universität Bonn Wintersemester 2009/2010
268 KAPITEL 8. GRENZWERTSÄTZE
mit
w(i)n =
g( in)
n∑j=1
g( jn).
Dann konvergiertµn schwach gegenµ, denn∫
f dµn =n∑
i=1
w(i)n f
(i
n
)=
1n
∑ni=1 f
(in
)g(in
)
1n
∑ni=1 g
(in
)
nր∞−→∫ 1
0fg dx
∫ 1
0g dx
=
∫f dµ ∀ f ∈ C([0, 1]).
1
11n
2n
. . . n−1n
g(x)
Abbildung 8.7: Stützstellen und Gewichte einer deterministischen Approximation vonµ.
Die Stützstelleni/n und die Gewichtew(i)n können natürlich auch auf andere Art
gewählt werden, z.B. kann die hier verwendete naive Approximation des Integrals
durch eine andere deterministische Quadraturformel ersetzt werden.
(b) Monte-Carlo-Approximation : Sei(S,S, µ) ein beliebiger Wahrscheinlichkeitsraum.
SindX1, X2, ... : Ω → S unabhängige Zufallsvariablen auf(Ω,A, P ) mit Verteilung
µ, dann konvergieren dieempirischen Verteilungen
µn(ω, •) :=1
n
n∑
i=1
δXi(ω)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ 269
P -f.s. schwach gegenµ, denn fürf ∈ Cb(S) gilt nach dem starken Gesetz großer
Zahlen fürP -fast alleω∫
f dµn(ω, •) =1
n
n∑
i=1
f(Xi(ω))︸ ︷︷ ︸iid,
beschränkt
GdgZ−→ E[f(X1)] =
∫f dµ.
Konvergenz der Verteilungen von Zufallsvariablen
Im Gegensatz zu anderen Konvergenzbegriffen für eine Folge(Yn)n∈N von Zufallsvariablen be-
zieht sich die Verteilungskonvergenz nur auf die Verteilungen derYn. Insbesondere können die
ZufallsvariablenYn und der GrenzwertY alle auf unterschiedlichen Wahrscheinlichkeitsräumen
definiert sein. Wir untersuchen nun den Zusammenhang der schwachen Konvergenz der Vertei-
lungen mit anderen Konvergenzarten in dem Fall, dassYn (n ∈ N) undY reellwertigeZufallsva-
riablen sind, die auf einemgemeinsamen Wahrscheinlichkeitsraum(Ω,A, P ) definiert sind.
Satz 8.4.KonvergiertYn P -fast sicher oderP -stochastisch gegenY , dann konvergiertYn auch
in Verteilung gegenY .
Beweis.Seif ∈ Cb(R). KonvergiertYn fast sicher gegenY , dann konvergiert auchf(Yn) fast
sicher gegenf(Y ). Nach dem Satz von Lebesgue folgt
E[f(Yn)] −→ E[f(Y )].
KonvergiertYn nur stochastisch gegenY , dann hat jede Teilfolge(Ynk)k∈N von (Yn)n∈N eine fast
sicher gegenY konvergente Teilfolge(Ynkl)l∈N. Wie zuvor folgt
E[f(Ynkl)] −→ E[f(Y )].
Also hat jede Teilfolge der Folge(E[f(Yn)])n∈N der Erwartungswerte eine gegenE[f(Y )] kon-
vergente Teilfolge, d.h. es gilt erneut
E[f(Yn)] −→ E[f(Y )].
Wir beweisen nun eine partielle Umkehrung der Aussage aus Satz 8.4:
Satz 8.5(Skorokhod - Darstellung und Charakterisierung der schwachen Konvergenz).
Seienµn, µ Wahrscheinlichkeitsverteilungen auf(R,B(R)) mit VerteilungsfunktionenFn bzw.F .
Dann sind äquivalent:
Universität Bonn Wintersemester 2009/2010
270 KAPITEL 8. GRENZWERTSÄTZE
(1). Die Folge(µn)n∈N konvergiert schwach gegenµ.
(2). Fn(c) → F (c) für alle Stetigkeitsstellenc vonF .
(3). Es existieren ZufallsvariablenGn, G auf
(Ω,A, P ) = ((0, 1),B((0, 1)),U(0,1))
mit Verteilungenµn bzw.µ, sodassGn → G P -fast sicher.
Beweis.„(3) ⇒ (1)“ folgt aus Satz 8.4.
„(1) ⇒ (2)“: Für c ∈ R gilt:
Fn(c) =
∫I(−∞,c] dµn und F (c) =
∫I(−∞,c] dµ. (8.3.1)
Seiε > 0. Wir definieren stetige Approximationen der Indikatorfunktion I(−∞,c] durch
fε(x) =
1 für x ≤ c− ε
0 für x ≥ c
c−xε
für x ∈ [(c− ε, c)
, und gε(x) =
1 für x ≤ c
0 für x ≥ c+ ε
c+ε−xε
für x ∈ (c, c+ ε)
.
1
c− ε c c+ ε
fε
gε
Abbildung 8.8: Stetige Approximationen vonI(−∞,c].
Es gilt
I(−∞,c−ε] ≤ fε ≤ I(−∞,c] ≤ gε ≤ I(−∞,c+ε]. (8.3.2)
Konvergiertµn schwach gegenµ, dann folgt nach (8.3.1) und (8.3.2):
lim inf Fn(c) ≥ lim inf
∫fε dµn =
∫fε dµ ≥ F (c− ε), und
lim supFn(c) ≤ lim sup
∫gε dµn =
∫gε dµ ≤ F (c+ ε).
Für εց 0 erhalten wir
lim supFn(c) ≤ F (c) = limεց0
F (c+ ε),
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ 271
und
lim inf Fn(c) ≥ F (c) = limεց0
F (c− ε),
falls F bei c stetig ist.
„(2) ⇒ (3)“: Für u ∈ (0, 1) betrachten wir die minimalen und maximalenu-Quantile
G(u) := infx ∈ R | F (x) ≥ u, und G(u) := infx ∈ R | F (x) > u
der Verteilungµ, siehe Abschnitt 4.4. Entsprechend seienGn undGn die minimalen und maxi-
malenu-Quantile der Verteilungµn. Analog zum Beweis von Satz 4.20 zeigt man, dassG und
G bzw.Gn undGn unter der GleichverteilungP = U(0,1) Zufallsvariablen mit Verteilungµ bzw.
µn sind. Wir zeigen nun, dass aus (2) folgt:
Behauptung:Gn → G P -fast sicher undGn → G P -fast sicher.
Damit ist dann die Implikation „(2)⇒ (3)“ bewiesen. Den Beweis der Behauptung führen wir in
mehreren Schritten durch:
(a) Offensichtlich giltG ≤ G, undGn ≤ Gn für allen ∈ N.
(b) G = G undGn = Gn P -fast sicher, denn:
P [G 6= G] = P [G < G] = P
[⋃
c∈QG ≤ c < G
]
≤∑
c∈QP [G ≤ c \ G ≤ c] =
∑
c∈Q(P [G ≤ c]︸ ︷︷ ︸
=F (c)
−P [G ≤ c]︸ ︷︷ ︸=F (c)
) = 0 .
(c) Wir zeigen nun:
lim supGn(u) ≤ G(u), und lim inf Gn(u) ≥ G(u). (8.3.3)
Zum Beweis der ersten aussage genügt es zu zeigen, dass
lim supGn(u) ≤ c für alle c > G(u) mit µ[c] = 0 (8.3.4)
gilt, denn es existieren höchstens abzählbar vielec mit µ[c] 6= 0. Für c > G(u) mit
µ[c] = 0 gilt aber nach Definition vonG und nach (2):
u < F (c) = limn→∞
Fn(c),
also existiert einn0 ∈ N mit
Fn(c) > u für allen > n0. (8.3.5)
Universität Bonn Wintersemester 2009/2010
272 KAPITEL 8. GRENZWERTSÄTZE
Aus (8.3.5) folgt
Gn(u) ≤ c für n ≥ n0,
und somit
lim supGn(u) ≤ c.
Damit haben wir die erste Aussage in (8.3.3) bewiesen. Die zweite Aussage zeigt man auf
ähnliche Weise.
(d) Aus (a)-(c) folgtP -fast sicher:
lim supGn
(a)
≤ lim supGn
(c)
≤ G(b)= G
(3)
≤ lim inf Gn
(a)
≤ lim inf Gn,
also
limGn = G und limGn = G.
Ein wesentlicher Schritt, um den oben skizzierten Beweis desZentralen Grenzwertsatzes zu ver-
vollständigen, ist es, zu zeigen, dass die Verteilungen derstandardisierten Summen von unab-
hängigen, identisch verteilten, quadratintegrierbaren Zufallsvariablen eine schwach konvergente
Teilfolge haben:
Existenz schwach konvergenter Teilfolgen
Eine Folge von Wahrscheinlichkeitsverteilungen auf einerendlichenMengeS = x1, . . . , xdkönnen wir als beschränkte Folge inRd auffassen. Daher existiert stets eine konvergente Teilfolge
– der Grenzwert ist wieder eine Wahrscheinlichkeitsverteilung aufS. Für unendliche MengenS
gilt eine entsprechende Aussage im Allgemeinen nicht. Wir beweisen nun ein Kriterium für die
Existenz schwach konvergenter Teilfolgen für Folgen von Wahrscheinlichkeitsverteilungen auf
R1. Dazu setzen wir voraus, dass die Masse nicht ins unendlicheabwandert:
Definition. Eine Folgeµn ∈ WV (R) heißtstraff (engl. tight), falls zu jedemε > 0 einc ∈ (0,∞)
existiert mit
µn([−c, c]) ≥ 1− ε für alle n ∈ N.
Eine straffe Folge von Wahrscheinlichkeitsverteilungen ist also gleichmäßig auf Kompakta kon-
zentriert. Die Masse kann daher fürn→ ∞ nicht ins Unendliche abwandern.
Beispiel. Die Folgeµn = N(mn, σ2n),mn ∈ R, σn > 0, ist genau dann straff, wenn die Folgen
mn undσn der Mittelwerte und Standardabweichungen beschränkt sind.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ 273
Satz 8.6(Helly-Bray ). Jede straffe Folgeµn ∈ WV (R) hat eine schwach konvergente Teilfolge.
Bemerkung. (1). Das Kriterium lässt sich deutlich verallgemeinern: Eine entsprechende Aus-
sage gilt für Folgen von Wahrscheinlichkeitsverteilungenauf beliebigen vollständigen se-
parablen metrischen Räumen (Satz von Prohorov, siehe z.B.Billingsley: Convergence of
probability measures). Die endlichen Intervalle[−c, c] in der Definition von Straffheit er-
setzt man in diesem Fall durch kompakte Mengen.
(2). Der RaumWV (R) aller Wahrscheinlichkeitsverteilungen auf[−∞,∞] ist sogarkompakt
bezüglich der schwachen Topologie, d.h.jede Folgeµn ∈ WV (R) hat eine schwach kon-
vergente Teilfolge. Der Beweis verläuft analog zu dem von Satz 8.6. Es folgt, dass jede
Folgeµn ∈ WV (R) eine vag konvergente Teilfolge hat. Der Limes ist jedoch i.A. kein
Wahrscheinlichkeitsmaß aufR, da die Masse ins unendliche abwandern kann. Allgemei-
ner gilt: IstS kompakt, dann istWV (S) kompakt bzgl. der schwachen Konvergenz.
Wir beweisen nun den Satz von Helly-Bray:
Beweis.Seiµn (n ∈ N) eine straffe Folge von Wahrscheinlichkeitsverteilungen auf R. Um die
Existenz einer schwach konvergenten Teilfolge zu zeigen, betrachten wir die Folge der Vertei-
lungsfunktionenFn. Wir zeigen die Aussage in mehreren Schritten:
(1). Es existiert eine Teilfolge(Fnk)k∈N, sodassFnk
(x) für alle x ∈ Q konvergiert:
Zum Beweis verwenden wir ein Diagonalverfahren: Seix1, x2, ... eine Abzählung vonQ.
Wegen0 ≤ Fn ≤ 1 existiert eine Teilfolge(Fn(1)k)k∈N, für dieF
n(1)k(x1) konvergiert. Ebenso
existiert eine Teilfolge(Fn(2)k)k∈N von (F
n(1)k)k∈N, für die F
n(2)k(x2) konvergiert, usw. Die
DiagonalfolgeFnk(x) := F
n(k)k(x) konvergiert dann für allex ∈ Q.
Fürx ∈ Q setzen wirF (x) := limk→∞ Fnk(x). Nach (1) existiert der Grenzwert, außerdem
ist die FunktionF : Q → [0, 1]Der Limes existiert nach 1. fürx ∈ Q und die Funktion
F : Q → [0, 1] monoton wachsend, da die FunktionenFnkmonoton wachsend sind.
(2). Stetige Fortsetzung vonF auf [0, 1]: Fürx ∈ R setzen wir
F (x) := infF (y) | y ∈ Q, y > x.
Die folgenden Eigenschaften der FunktionF prüft man leicht nach:
(a) Die FunktionF ist rechtsstetig, monoton wachsend, und es gilt0 ≤ F ≤ 1.
(b) Fnk(x) → F (x) für allex ∈ R, an denenF stetig ist.
Universität Bonn Wintersemester 2009/2010
274 KAPITEL 8. GRENZWERTSÄTZE
(3). Aus (a)folgt, dass durch
µ[(a, b]] := F (b)− F (a), −∞ < a ≤ b <∞,
ein positives Maß aufR definiert wird mit
µ[R] = limc→∞
µ[(−c, c]] ∈ [0, 1].
Wir zeigen nun, dassµ eineWahrscheinlichkeitsverteilungaufR ist, falls die Folge(µn)n∈N
straff ist. Es gilt nämlich:
µ[(−c, c]] = F (c)− F (−c) = limk→∞
(Fnk(c)− Fnk
(−c)) = limk→∞
µnk[(−c, c]] (8.3.6)
für fast allec. Aus der Straffheit von(µn)n∈N folgt, dass zu jedemε > 0 ein c(ε) ∈ R
existiert mit
µnk[(−c, c]] ≥ 1− ε für allek.
Aus (8.3.6) folgt dannµ[(−c, c]] ≥ 1− ε, falls c groß genug ist, und damit fürεց 0:
µ[R] ≥ 1, also µ(R) = 1.
(4). Aus (b) folgt nun nach Satz 8.5, dass die Folge(µnk)k∈N schwach gegenµ konvergiert.
Schwache Konvergenz über charakteristische Funktionen
Unter Verwendung der Existenz schwach konvergenter Teilfolgen einer straffen Folge von Wahr-
scheinlichkeitsverteilungen zeigen wir nun, dass eine Folge von Wahrscheinlichkeitsverteilun-
gen aufR genau dann schwach konvergiert, wenn die charakteristischen Funktionen gegen eine
Grenzfunktion konvergieren, die bei0 stetig ist:
Satz 8.7(Stetigkeitssatz, Konvergenzsatz von Lévy). Seien(µn)n∈N Wahrscheinlichkeitsver-
teilungen auf(R,B(R)) mit charakteristischen Funktionen
φn(t) =
∫eitx µn(dx).
Dann gilt:
(1). Konvergiertµn schwach gegen eine Wahrscheinlichkeitsverteilungµ, dann konvergieren
auch die charakteristischen Funktionen:
φn(t) → φ(t) :=
∫eitx µ(dx) für alle t ∈ R.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.3. VERTEILUNGSKONVERGENZ 275
(2). Konvergiert umgekehrtφn(t) für alle t ∈ R gegen einen Limesφ(t), und istφ stetig bei
t = 0, dann istφ die charakteristische Funktion einer Wahrscheinlichkeitsverteilungµ,
undµn konvergiert schwach gegenµ.
Bemerkung. (1). Die Stetigkeit vonφ bei 0 ist wesentlich. Zum Beispiel ist die Folgeµn =
N(0, n) nicht schwach konvergent, aber die charakteristischen Funktionen konvergieren
punktweise:
φn(t) = e−t2
2nn↑∞→
0 falls t 6= 0
1 falls t = 0.
(2). Eine Aussage wie im Satz gilt auch für Wahrscheinlichkeitsverteilungen aufRd. Hier defi-
niert man die charakteristische Funktionφ : Rd → C durch
φ(t) =
∫
Rd
eit·x µ(dx), t ∈ Rd.
Beweis.Der erste Teil der Aussage folgt unmittelbar auseitx = cos(tx) + i sin(tx), denn
Kosinus und Sinus sind beschränkte stetige Funktionen.
Der Beweis des zweiten Teils der Aussage erfolgt nun in mehreren Schritten. Wir nehmen an,
dass die charakteristischen Funktionenφn(t) punktweise gegen eine bei0 stetige Grenzfunktion
φ(t) konvergieren.
(1). Relative Kompaktheit: Jede Teilfolge von(µn)n∈N hat eine schwach konvergente Teilfolge.
Dies ist der zentrale Schritt im Beweis. Nach dem Satz von Helly-Bray genügt es zu zei-
gen, dassµn (n ∈ N) unter den Voraussetzungen straff ist. Dazu schätzen wir dieWahr-
scheinlichkeitenµn[|x| ≥ c] mithilfe der charakteristischen Funktionen ab. Da die Funktion
f(u) = 1 − sinuu
für u 6= 0 strikt positiv ist mit lim|u|→∞
f(u) = 1, existiert eine Konstante
a > 0 mit f(u) ≥ a für alle |u| ≥ 1. Damit erhalten wir fürε > 0:
µn
[|x| ≥ 1
ε
]
= µn [x ∈ R | |εx| ≥ 1] ≤ 1
a
∫ (1− sin εx
εx
)
︸ ︷︷ ︸= 1
2ε
ε∫−ε
(1−cos(xt))dt
µn(dx)
(8.3.7)Fubini=
1
2aε
∫ ε
−ε
(1− Re(φn(t)))dtnր∞−→
Lebesgue
1
2aε·∫ ε
−ε
(1− Re(φ(t)))dt.
Universität Bonn Wintersemester 2009/2010
276 KAPITEL 8. GRENZWERTSÄTZE
Sei nunδ > 0 vorgegeben. Istε hinreichend klein, dann gilt wegen der vorausgesetzten
Stetigkeit vonφ bei0:
|1− Re(φ(t))| = |Re(φ(0)− φ(t))| ≤ δa
2für alle t ∈ [−ε, ε].
Also können wir die rechte Seite von (8.3.7) durchδ/2 abschätzen, und somit existiert ein
n0 ∈ N mit
µn
[|x| ≥ 1
ε
]≤ δ für allen ≥ n0. (8.3.8)
Diese Aussage gilt natürlich auch, falls wirε noch kleiner wählen. Zudem gilt (8.3.8) auch
für allen < n0, falls ε klein genug ist. Also istµn (n ∈ N) straff.
(2). Der Grenzwertjederschwach konvergenten Teilfolge von(µn)n∈N hat die charakteristische
Funktionφ.
Zum Beweis sei(µnk)k∈N eine Teilfolge von(µn)n∈N undµ eine Wahrscheinlichkeitsver-
teilung mitµnk
w→ µ. Dann gilt nach dem ersten Teil der Aussage des Satzes:
φµ(t) = limk→∞
φnk(t) = φ(t) für alle t ∈ R.
(3). Schwache Konvergenz von(φn)n∈N.
Nach dem Inversionssatz existiert höchstens eine Wahrscheinlichkeitsverteilungµmit cha-
rakteristischer Funktionφ. Also konvergieren nach (2) alle schwach konvergenten Teilfol-
gen von(µn)n∈N gegen denselben Limesµ. Hieraus folgt aber, zusammen mit (1), dass
(µn)n∈N schwach gegenµ konvergiert, denn fürf ∈ Cb(S) hat jede Teilfolge von∫f dµn
eine gegen∫f dµ konvergente Teilfolge, und somit gilt
∫f dµn →
∫f dµ.
8.4 Der Zentrale Grenzwertsatz
Wir können nun den in Abschnitt 8.2 skizzierten Beweis des Zentralen Grenzwertsatzes (engl.
Central Limit Theorem) vervollständigen. Wir zeigen zunächst, dass ein zentraler Grenzwertsatz
für Summen beliebiger unabhängiger, identisch verteilterZufallsvariablen mit endlicher Vari-
anz gilt. Diese Aussage wurde zuerst 1900 von Lyapunov bewiesen, der damit den Satz von de
Moivre/Laplace (1733) deutlich verallgemeinern konnte. Am Ende dieses Abschnitts beweisen
wir eine noch allgemeinere Version des Zentralen Grenzwertsatzes, die auf Lindeberg und Feller
zurückgeht.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ 277
Zentraler Grenzwertsatz für Summen von i.i.d. Zufallsvariablen
Satz 8.8(Zentraler Grenzwertsatz – 1. Version). SeienX1, X2, ... ∈ L2(Ω,A, P ) unabhän-
gige, identisch verteilte Zufallsvariablen mit Varianzσ2 und sei
Sn = X1 + ...+Xn .
Dann konvergieren die Verteilungen der standardisierten Summen
Sn =Sn − E[Sn]√
n=
1√n
n∑
i=1
(Xi − E[Xi])
schwach gegenN(0, σ2).
Bemerkung. (1). Alternativ kann man die standardisierten Summen auf Varianz1 normieren,
und erhältSn − E[Sn]
σ · √nD−→ Z,
wobeiZ eine standardnormalverteilte Zufallsvariable ist.
(2). Die VoraussetzungXi ∈ L2(Ω,A, P ) ist wesentlich. Bei unendlicher Varianz derXi kön-
nen sich andere Grenzverteilungen für die geeignet renormierten SummenSn−anbn
(an ∈R, bn > 0) ergeben. Als Grenzverteilungen können i.A. die sogenannten stabilen Vertei-
lungen auftreten, siehe dazu z.B. Satz 8.12 unten.
(3). Im Fall σ2 = 0 gilt die Aussage auch. Hierbei interpretieren wir das Diracmaßδm als
degenerierte NormalverteilungN(m, 0).
Wir beweisen nun den Zentralen Grenzwertsatz in der oben stehenden Form:
Beweis.O.B.d.A. seiE[Xi] = 0, ansonsten betrachten wir die zentrierten ZufallsvariablenXi :=
Xi−E[Xi]. Nach dem Konvergenzsatz von Lévy genügt es zu zeigen, dass die charakteristischen
Funktionen der standardisierten SummenSn punktweise gegen die charakteristische Funktion der
NormalverteilungN(0, σ2) konvergieren, d.h.
φSn(t) → φN(0,σ2)(t) = e−
σ2t2
2 ∀ t ∈ R. (8.4.1)
Da die ZufallsvariablenXi unabhängig, identisch verteilt und zentriert sind, gilt für t ∈ R:
φSn(t)
E[Sn]=0= φSn
(t√n
)Xi iid=
(φX1
(t√n
))n
.
Universität Bonn Wintersemester 2009/2010
278 KAPITEL 8. GRENZWERTSÄTZE
AusX1 ∈ L2 folgt φX1 ∈ C2(R), und
φX1(t) = E[eitX1 ] = 1 + itE[X1] +(it)2
2E[X2
1 ] + o(t2) = 1− t2σ2
2+ o(t2),
wobeio für eine Funktiono : R+ → C mit limε↓0|o(ε)|ε
= 0 steht. Damit erhalten wir:
φSn(t) =
(1− t2σ2
2n+ o
(t2
n
))n
.
Wir vermuten, dass dieser Ausdruck fürn→ ∞ gegene−t2σ2
2 strebt. Dies kann man beweisen, in-
dem man den Logarithmus nimmt, und die Taylorapproximationlog(1+w) = w+o(|w|) verwen-
det. Da die charakteristische Funktion komplexwertig ist,muss dazu allerdings der Hauptzweig
der komplexen Logarithmusfunktion verwendet werden.
Wir zeigen stattdessen die Konvergenz ohne Verwendung von Aussagen aus der Funktionentheo-
rie: Für komplexe Zahlenzi, wi ∈ C mit |zi|, |wi| ≤ 1 gilt nach der Dreiecksungleichung∣∣∣∣∣
n∏
i=1
zi −n∏
i=1
wi
∣∣∣∣∣ = |(z1 − w1)z2z3 · · · zn + w1(z2 − w2)z3z4 · · · zn + . . .+ w1 · · ·wn−1(zn − wn)|
≤n∑
i=1
|zi − wi|.
Damit erhalten wir:∣∣∣∣φSn
(t)− exp
(−t
2σ2
2
)∣∣∣∣ =
∣∣∣∣(1− t2σ2
2n+ o
(t2
n
))n
− exp
(−t
2σ2
2n
)n∣∣∣∣
≤ n ·∣∣∣∣1−
t2σ2
2n+ o
(t2
n
)− exp
(−t
2σ2
2n
)∣∣∣∣ .
Da die rechte Seite fürn→ ∞ gegen0 konvergiert, folgt (8.4.1) und damit die Behauptung.
Beispiel. (1). SindX1, X2, . . . unabhängig mitP [Xi = 1] = p und P [Xi = 0] = 1 − p,
dann istSn =n∑
i=1
Xi binomialverteilt mit Parameternn undp. Die Aussage des Zentralen
Grenzwertsatzes folgt in diesem Fall aus dem Satz von de Moivre/Laplace.
(2). Sind die ZufallsvariablenXi unabhängig und Poissonverteilt mit Parameterλ > 0, dann ist
Sn =n∑
i=1
Xi Poissonverteilt mit Parameternλ. Der Zentrale Grenzwertsatz liefert in diesem
Fall eine Normalapproximation für Poissonverteilungen mit großer Intensität (Übung).
(3). SindX1, X2, . . . unabhängige,N(m,σ2)-verteilte Zufallsvariablen, dann gilt
Sn =X1 +X2 + . . .+Xn − nm√
n∼ N(0, σ2)
für allen ∈ N (und nicht nur asymptotisch!).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ 279
Warum tritt die Normalverteilung im Limes auf? Wie schon im letzten Beispiel bemerkt,
gilt
Xi ∼ N(0, σ2) unabhängig ⇒ X1 + . . .+Xn√n
∼ N(0, σ2).
Die zentrierten Normalverteilungen sind also „invariant“unter derReskalierungstransformation
aus dem zentralen Grenzwertsatz. Man kann sich leicht plausibel machen, dass eine Grenzvertei-
lung der standardisierten Summen unabhängiger quadratintegrierbarer Zufallsvariablen eine ent-
sprechende Invarianzeigenschaft haben muss. Tatsächlichsind die zentrierten Normalverteilun-
gen die einzigen nichtdegenerierten Wahrscheinlichkeitsverteilungen mit dieser Invarianz. Aus
dem Zentralen Grenzwertsatz folgt sogar:
Korollar 8.9. Seiµ eine Wahrscheinlichkeitsverteilung aufR mit∫x2µ(dx) <∞. Gilt
X, Y ∼ µ unabhängig ⇒ X + Y√2
∼ µ, (8.4.2)
dann istµ eine zentrierte Normalverteilung.
Bemerkung. Die Aussage gilt auch ohne die Voraussetzung∫x2µ(dx) < ∞ ; der Beweis ist
aber aufwändiger, siehe z.B. BREIMAN : PROBABILITY .
Beweis.SeienX1, X2, . . . unabhängige Zufallsvariablen mit Verteilungµ. Aus der Vorausset-
zung (8.4.2) folgtE[Xi] =∫x µ(dx) = 0 für alle i ∈ N, und durch Induktion:
(X1 + . . .+Xn)√n
∼ µ für n = 2k, k ∈ N.
Wegen∫x2µ(dx) < ∞ sind dieXi quadratintegrierbar. Durch Anwenden des zentralen Grenz-
wertsatzes auf die standardisierten Summen folgt, dassµ eine zentrierte Normalverteilung ist.
Normalapproximationen
Die Normalverteilungsasymptotik der standardisierten Summen wird häufig verwendet, um Wahr-
scheinlichkeiten näherungsweise zu berechnen. Wir betrachten zunächst ein typisches Beispiel:
Beispiel (Versicherungsgesellschaft mitn Verträgen). Eine Versicherungsgesellschaft habe
mit n Kunden Verträge abgeschlossen. Beim Eintreten des Schadenfalls für Vertragi muss die
LeistungXi ≥ 0 gezahlt werden. Wir nehmen an, dass gilt:
Xi ∈ L2 i.i.d. mit E[Xi] = m, Var[Xi] = σ2.
Universität Bonn Wintersemester 2009/2010
280 KAPITEL 8. GRENZWERTSÄTZE
Die Prämie pro Vertrag betrageΠ = m + λσ2, wobeim die erwartete Leistung ist undλσ2 mit
λ > 0 einem Risikozuschlag entspricht. Die Einnahmen nach einer Zeitperiode betragen dann
n ·Π, die AusgabenSn = X1 + ...+Xn. Wir wollen die Wahrscheinlichkeit des Ruinereignisses
Sn > k + nΠ,
berechnen, wobeik das Anfangskapital bezeichnet. Hierbei nehmen wir implizit an, dass nicht
verzinst wird, und die Abrechnung nur am Schluß einer Zeitperiode erfolgt. Wenn die standardi-
sierten Schadenssummen mithilfe einer ZGS-Näherung approximiert werden, ergibt sich:
P [Ruin] = P [Sn > k + nΠ] = P [Sn − E[Sn] > k + nλσ2]
= P
[Sn − E[Sn]
σ√n
>k
σ√n+ λσ
√n
]
≈ P
[Z >
k
σ√n+ λσ
√n
],
wobei Z eine standardnormalverteilte Zufallsvariable ist. Der Ausdruck auf der rechten Seite
geht fürn → ∞ gegen0. Eine große Anzahl von Verträgen sollte also eine kleine Ruinwahr-
scheinlichkeit implizieren. Fürn = 2000, σ = 60 undλ = 0, 05% ergibt sich beispielsweise:
k = 0 : P [Ruin] ≈ 9%,
k = 1500 : P [Ruin] ≈ 3%.
Nach einer solchen Überschlagsrechnung sollte man das verwendete Modell und die Approxi-
mationsschritte einer kritischen Analyse unterziehen. Inunserem Fall stellen sich unmittelbar
mehrere Fragen:
(1). Wir haben die ZGS-Näherung verwendet, obwohl die auftretenden Schranken für die stan-
dardisierten Summen vonn abhängen. Ist das in diesem Fall zulässig?
(2). Ist die Quadratintegrierbarkeit derXi eine sinnvolle Modellannahme, und was ergibt sich
andernfalls?
(3). In einem realistischen Modell kann man nicht davon ausgehen, dass dieXi identisch ver-
teilt sind. Gilt trotzdem ein Zentraler Grenzwertsatz?
(4). Ist die Unabhängigkeitsannahme gerechtfertigt?
Wir werden nun auf die ersten drei Fragen näher eingehen. Dasfolgende Beispiel zeigt, dass
man in der Tat vorsichtig sein sollte, wenn man vonn abhängige Quantile von standardisierten
Summen durch entsprechende Quantile von Normalverteilungen ersetzt:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ 281
Beispiel (Eine zu naive ZGS-Approximation). SeienXi, i ∈ N, unabhängige, identisch ver-
teilte Zufallsvariablen mitE[Xi] = 0 und Var[Xi] = 1, und seia > 0. Mit einer ZGS-
Approximation erhalten wir für großen:
P
[1
n
n∑
i=1
Xi ≥ a
]= P
[1√n
n∑
i=1
Xi ≥ a√n
]
≈ 1√2π
∫ ∞
a√n
e−x2
2 dx
= e−na2
2 · 1√2π
∫ ∞
0
e−a√ny− y2
2 dy(x = a
√n+ y
)
= e−na2
2 · 1√2πn
∫ ∞
0
e−az− z2
2n dz(z =
√ny)
∼ 1√2πa2n
· exp(−na
2
2
)
Dies ist abernicht die korrekte Asymptotik fürn → ∞. Auf der exponentiellen Skala gilt näm-
lich
P
[1
n
n∑
i=1
Xi ≥ a
]∼ exp (−nI(a)) ,
wobei I(a) die Ratenfunktion aus dem Satz von Chernoff ist. Diese ist im Allgemeinen von
na2/2 verschieden. Die ZGS-Approximation ist hier nicht anwendbar, daa√n vonn abhängt!
Dass die Näherung aus dem Beispiel oben trotzdem recht gut funktioniert, wenn die Zufallsva-
riablenXi dritte Momente haben, garantiert die folgendeAbschätzung der Konvergenzgeschwin-
digkeit im Zentralen Grenzwertsatz:
Satz 8.10(Berry-Esséen). SeienXi ∈ L3 i.i.d. Zufallsvariablen,Z ∼ N(0, 1), und seien
Fn(x) := P
[Sn − E[Sn]
σ√n
≤ x
],
Φ(x) := P [Z ≤ x].
Dann gilt folgende Abschätzung:
supx∈R
|Fn(x)− Φ(x)| ≤ 3 · E[|X1 − E[X1]|3]σ3√n
.
Den Beweis dieser Aussage findet man etwa im Buch PROBABILITY THEORY von R. Durrett
(4.10).
Universität Bonn Wintersemester 2009/2010
282 KAPITEL 8. GRENZWERTSÄTZE
Für die Normalapproximation der BinomialverteilungBin(n, p) ergibt sich beispielsweise
3 · E[|X1 − E[X1]|3]σ3√n
=3 · ((1− p)2 + p2)√
np(1− p).
Für p → 0 oder p → 1 divergiert die rechte Seite. Wir erhalten also möglicherweise einen
hohen Approximationsfehler fürp nahe0 oder1. In diesen Fällen empfiehlt sich in der Tat die
Verwendung der Poisson-Approximation anstelle des zentralen Grenzwertsatzes.
Heavy Tails, Konvergenz gegenα-stabile Verteilungen
Als nächstes betrachten wir ein Beispiel, welches zeigt, dass die Voraussetzung der Quadratinte-
grierbarkeit der Zufallsvariablen essentiell für den zentralen Grenzwertsatz ist:
Seienα ∈ (1, 2), r ∈ (0,∞), und seienX1, X2, . . . : Ω → R unabhängige identisch verteilte
absolutstetige Zufallsvariablen, deren Dichtefunktion
fXi(x) = |x|−α−1 für alle |x| ≥ r
erfüllt. Da die Dichte für|x| → ∞ nur langsam abfällt, sind die Zufallsvariablen nicht quadratin-
tegrierbar; sie sind aber integrierbar. Daher ergibt sich ein anderes asymptotisches Verhalten der
charakteristischen Funktionen fürt→ 0 :
Lemma 8.11.Für t→ 0 gilt
φXi(t) = 1 + imt− c|t|α +O(t2)
mitm = E[Xi] undc =∫R
(1− cos u)|u|−α−1 du ∈ (0,∞).
Beweis.Seit 6= 0. Wegeneiu − 1− iu = O(u2) undcos u− 1 = O(u2) erhalten wir
φXi(t)− 1− imt =
∞∫
−∞
(eitx − 1− itx)f(x) dx
=
∞∫
−∞
(eiu − 1− iu)f(ut
) 1
|t| du
=1
|t|
tr∫
−tr
(eiu − 1− iu)f(ut
)du+ |tα|
∫
[−tr,tr]C
(cosu− 1)|u|−α−1 du
= −c|t|α +O(t2).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ 283
Für die zentrierten SummenSn =n∑
i=1
(Xi −m) folgt nach dem Lemma:
φSn(t) = (1− c|t|α +O(t2))n.
Um Konvergenz der charakteristischen Funktionen zu erhalten, müssen wirXn nun mitn−1/α
stattn−1/2 reskalieren:
φn−1/αSn(t) = φSn(n
−1/αt) = (1− c|t|αn−1 +O(n−2/α))n
→ exp(−c|t|α) für n→ ∞.
Nach dem Konvergenzsatz von Lévy folgt:
Satz 8.12.Für n→ ∞ gilt
n−1/αSnD→ µc,α,
wobeiµc,α die Wahrscheinlichkeitsverteilung mit charakteristischer Funktion
φc,α(t) = exp(−c|t|α)
ist.
Definition. Seienα ∈ (0, 2] undm ∈ R. Die Wahrscheinlichkeitsverteilungen mit charakteristi-
scher Funktion
φ(t) = exp(imt− c|t|α),
c ∈ (0,∞), heißensymmetrischeα-stabile Verteilungenmit Mittelwertm.
Die Dichten derα-stabilen Verteilungen sind fürα 6= 1, 2 nicht explizit berechenbar, fallen
aber für|x| → ∞ wie |x|−α−1 ab. Fürα = 1 erhält man die Cauchyverteilungen, fürα = 2
die Normalverteilungen. Satz 8.12 ist ein Spezialfall eines allgemeineren Grenzwertsatzes für
Summen von Zufallsvariablen mit polynomiellen Tails, siehe z.B. BREIMAN , THEOREM 9.34.
Der Satz von Lindeberg-Feller
Wir wollen nun die Annahme fallen lassen, dass die SummandenXi identisch verteilt sind, und
zeigen, dass trotzdem ein zentraler Grenzwertsatz gilt. Sei
Sn = Yn,1 + Yn,2 + ...+ Yn,n mit Yn,i ∈ L2(Ω,A, P ).
Die ZufallsvariablenYn,i können etwa kleine Störungen oder Messfehler beschreiben.Setzen wir
Yn,i =Xi − E[Xi]√
nmit Xi ∈ L2 unabhängig, (8.4.3)
so erhalten wir das Setup von oben.
Universität Bonn Wintersemester 2009/2010
284 KAPITEL 8. GRENZWERTSÄTZE
Satz 8.13(ZGS von Lindeberg-Feller). Seiσ ∈ (0,∞). Es gelte:
(i) Yn,i (1 ≤ i ≤ n) sind unabhängig für jedesn ∈ N mitE[Yn,i] = 0,
(ii) Var[Sn] =∑n
i=1 Var[Yn,i]n↑∞−→ σ2,
(iii) γn,ε :=∑n
i=1 E[Y2n,i; |Yn,i| > ε]
n↑∞−→ 0 ∀ ε > 0.
Dann konvergiert die Verteilung vonSn schwach gegenN(0, σ2).
Der Satz zeigt, dass die Summe vieler kleiner unabhängiger Störungen unter geeigneten Voraus-
setzungen ungefähr normalverteilt ist. Dies rechtfertigtbis zu einem gewissen Grad, dass Zu-
fallsgrößen mit unbekannter Verteilung, die durch Überlagerung vieler kleiner Effekte entstehen,
häufig durch normalverteilte Zufallsvariablen modelliertwerden.
Bemerkung. (1). Der Zentrale Grenzwertsatz von oben ist ein Spezialfall des Satzes von Lindeberg-
Feller: SindXi ∈ L2 i.i.d. Zufallsvariablen mitE[Xi] = m undVar[Xi] = σ2, und defi-
nieren wirYn,i wie in (8.4.3), dann gilt:
Var[Sn] =1
n
n∑
i=1
Var[Xi] = Var[X1] = σ2, für allen ∈ N,
und, fürε > 0
γn,ε =n∑
i=1
E[Y 2n,i; |Yn,i| > ε
]=
1
n
n∑
i=1
E[|Xi −m|2; |Xi −m| > ε
√n]
= E[|X1 −m|2; |X1 −m| > ε
√n]
→ 0 für n→ ∞,
daX1 quadratintegrierbar ist.
(2). Die Bedingung (iii) ist insbesondere erfüllt, wenn dieLyapunovbedingung
n∑
i=1
E[|Yn,i|p] n→∞−→ 0 für einp > 2 gilt,
denn fürε > 0 istE[Y 2n,i; |Yn,i| ≥ ε] ≤ E[|Yn,i|p]/εp−2.
Wir beweisen nun den Satz von Lindeberg-Feller: Der Beweis basiert wieder auf einer Analyse
der Asymptotik der charakteristischen Funktionen. Dazu zeigen wir zunächst einige asymptoti-
sche Abschätzungen:
Beweis. (a) Vorüberlegungen:Seit ∈ R fest.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.4. DER ZENTRALE GRENZWERTSATZ 285
(I) Taylorapproximation fürφn,i(t) := E[eitYn,i ]:
Aus den verschiedenen Abschätzungen des Taylorrestgliedserhält man
eix = 1 + ix− x2
2+R(x) mit |R(x)| ≤ min
( |x|36
, x2). (8.4.4)
Damit ergibt sich
φn,i(t) = 1 + itE[Yn,i]−t2
2E[Y 2
n,i] + E[R(tYn,i)] = 1− t2σ2n,i
2+Rn,i,
wobei fürRn,i := E[R(tYn,i)] die Abschätzung
|Rn,i| ≤ E
[min
( |tYn,i|36
, t2Y 2n,i
)](8.4.5)
gilt.
(II) Wir zeigen∑n
i=1 |Rn,i| → 0 für n→ ∞:
Für ε > 0 gilt nach (8.4.5):
|Rn,i| ≤1
6· E[|tYn,i|3; |Yn,i| ≤ ε
]+ E[|tYn,i|2; |Yn,i| > ε].
Mit E [|tYn,i|3; |Yn,i| ≤ ε] ≤ |t|3ε · σ2n,i erhalten wir
n∑
i=1
|Rn,i| ≤ |t|3ε6
n∑
i=1
σ2n,i + t2γn,ε,
und somit nach Voraussetzung (ii) und (iii)
lim supn→∞
n∑
i=1
|Rn,i| ≤ σ2|t|36
ε .
Die Behauptung folgt fürε→ 0.
(III) Wir zeigen sup1≤i≤n σ2n,i → 0 für n→ ∞:
Für ε > 0 und1 ≤ i ≤ n gilt
σ2n,i = E[Y 2
n,i; |Yn,i| ≤ ε] + E[Y 2n,i; |Yn,i| > ε] ≤ ε2 + γn,ε.
Wegenγn,ε → 0 für n→ ∞ ergibt sich
lim supn→∞
sup1≤i≤n
σ2n,i ≤ ε2.
Die Behauptung folgt wieder fürε→ 0.
Universität Bonn Wintersemester 2009/2010
286 KAPITEL 8. GRENZWERTSÄTZE
(b) Hauptteil des Beweises: Zu zeigen ist
φSn(t) =
n∏
i=1
φn,i(t)n→∞−→ exp
(−t
2σ2
2
), (8.4.6)
die Aussage folgt dann aus dem Konvergenzsatz von Lévy.
Wir zeigen:
∣∣∣∣∣
n∏
i=1
φn,i(t)−n∏
i=1
(1− t2σ2
n,i
2
)∣∣∣∣∣n→∞−→ 0, und (8.4.7)
n∏
i=1
(1− t2σ2
n,i
2
)n→∞−→ e−
t2σ2
2 . (8.4.8)
Daraus folgt (8.4.6), und damit die Behauptung.
Beweis von (8.4.7):Wie oben gezeigt, gilt fürzi, wi ∈ C mit |zi|, |wi| ≤ 1:∣∣∣∣∣
n∏
i=1
zi −n∏
i=1
wi
∣∣∣∣∣ ≤n∑
i=1
|zi − wi|.
Zudem gilt|φn,i(t)| ≤ 1, und nach der 3. Vorüberlegung existiert einn0 ∈ N mit
1− t2σ2n,i
2∈ (0, 1) für allen ≥ n0 und1 ≤ i ≤ n. (8.4.9)
Damit erhalten wir fürn ≥ n0:∣∣∣∣∣
n∏
i=1
φn,i(t)−n∏
i=1
(1− t2σ2
n,i
2
)∣∣∣∣∣ ≤n∑
i=1
∣∣∣∣φn,i(t)−(1− t2σ2
n,i
2
)∣∣∣∣ =n∑
i=1
|Rn,i|
Die rechte Seite konvergiert nach der 2. Vorüberlegung gegen 0.
Beweis von (8.4.8):Wegen (8.4.9) erhalten wir
log
(n∏
i=1
(1− t2σ2
n,i
2
))=
n∑
i=1
log
(1− t2σ2
n,i
2
)
= −n∑
i=1
t2σ2n,i
2+
n∑
i=1
Rn,i,
wobei |Rn,i| ≤ C ·(t2σ2
n,i
)2mit C ∈ (0,∞). Die rechte Seite konvergiert nach Vorausset-
zung (ii) fürn→ ∞ gegen− t2σ2
2, denn
n∑
i=1
|Rn,i| ≤ Ct4 ·n∑
i=1
σ4n,i ≤ Ct4 ·
n∑
i=1
σ2n,i · sup
1≤i≤nσ2n,i → 0
nach der 3. Vorüberlegung.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
8.5. VOM RANDOM WALK ZUR BROWNSCHEN BEWEGUNG 287
Bemerkung (Zentrale Grenzwertsätze für Summen abhängiger Zufallsvariablen). In allen
Fällen haben wir bisher angenommen, dass die ZufallsvariablenXi unabhängig sind. Tatsäch-
lich hat man zentrale Grenzwertsätze auch für viele große Modellklassen mit Abhängigkeit ge-
zeigt, beispielsweise für Martingale, additive Funktionale von Markovketten, Skalierungslimiten
von Teilchensystemen, unterschiedliche Folgen von Parameterschätzern in der Statistik, usw. Wir
werden darauf in weiterführenden Vorlesungen zurückkommen.
8.5 Vom Random Walk zur Brownschen Bewegung
Universität Bonn Wintersemester 2009/2010
Kapitel 9
Multivariate Verteilungen und statistische
Anwendungen
9.1 Mehrstufige Modelle
Seien(Si,Si), 1 ≤ i ≤ n, messbare Räume. Wir wollen allgemeine Wahrscheinlichkeitsvertei-
lungen auf dem ProduktraumS1× ...×Sn konstruieren und effektiv beschreiben. In Analogie zu
diskreten, mehrstufigen Modellen versuchen wir diese in derForm
P (dx1...dxn) = µ(dx1)p(x1, dx2)p((x1, x2), dx3) · · · p((x1, ..., xn−1), dxn)
darzustellen.
Stochastische Kerne und der Satz von Fubini
Wir betrachten zunächst den Falln = 2, der allgemeine Fall ergibt sich dann durch Iteration der
Konstruktion. Seien also(S,S) und(T,T ) messbare Räume, und sei
Ω := S × T und A := S ⊗ T die Produkt-σ-Algebra.
Unser Ziel ist die Konstruktion einer Wahrscheinlichkeitsverteilung auf(Ω,A) vom Typ
P (dxdy) = µ(dx)p(x, dy).
Definition. Eine Abbildung
p : S × T −→ [0, 1], (x, C) 7→ p(x, C),
heißtstochastischer Kern(oderÜbergangswahrscheinlichkeit), wenn gilt:
288
9.1. MEHRSTUFIGE MODELLE 289
(i) p(x, •) ist für jedesx ∈ S eine Wahrscheinlichkeitsverteilung auf(T,T ),
(ii) p(•, C) ist für jedesC ∈ T eine messbare Funktion auf(S,S).
Bemerkung (Diskreter Spezialfall). Sind S und T abzählbar mitS = P(S),T = P(T ),
dann istp eindeutig festgelegt durch die Matrix mit Komponenten
p(x, y) := p(x, y) (x ∈ S , y ∈ T ).
Dap ein stochastischer Kern ist, istp(x, y) (x ∈ S, y ∈ T ) einestochastische Matrix.
Der folgende Satz zeigt im allgemeinen Fall die Existenz eines zweistufigen Modells mitµ als
Verteilung der ersten Komponente, undp(x, •) als bedingte Verteilung der zweiten Komponente
gegeben den Wertx der ersten Komponente. Der Satz zeigt zudem, dass Erwartungswerte im
mehrstufigen Modell durch Hintereinanderausführen von Integralen berechnet werden können.
Satz 9.1(Fubini ). Seiµ(dx) eine Wahrscheinlichkeitsverteilung auf(S,S) undp(x, dy) ein sto-
chastischer Kern von(S,S) nach(T,T ). Dann existiert eine eindeutige Wahrscheinlichkeitsver-
teilungµ⊗ p auf (Ω,A) mit
(µ⊗ p)[B × C] =
∫
B
µ(dx) p(x, C) für alleB ∈ S, C ∈ T . (9.1.1)
Für diese Wahrscheinlichkeitsverteilung gilt:∫f d(µ⊗ p) =
∫ (∫f(x, y) p(x, dy)
)µ(dx) für alleA-messbarenf : Ω → R+.
(9.1.2)
Beweis. (1). Eindeutigkeit:Das MengensystemB × C | B ∈ S, C ∈ T ist ein durch-
schnittsstabiler Erzeuger der Produkt-σ-AlgebraA. Also ist die Wahrscheinlichkeitsvertei-
lungµ⊗ ν durch (9.1.1) eindeutig festgelegt.
(2). Existenz:Wir wollen die Wahrscheinlichkeitsverteilungµ⊗ν über (9.1.2) mitf = IA, A ∈A, definieren. Dazu müssen wir überprüfen, ob die rechte Seitein diesem Fall definiert ist
(d.h. ob die Integranden messbar sind), und ob
(µ⊗ p)[A] :=
∫ (∫IA(x, y) p(x, dy)
)µ(dx)
eine Wahrscheinlichkeitsverteilung auf(Ω,A) definiert.
Für ProduktmengenA = B×C (B ∈ S, C ∈ T ) ist die Funktionx 7→∫IA(x, y)p(x, dy)
nach Definition des stochastischen Kerns messbar. Da die MengenA ∈ A, für die diese
Funktion messbar ist, ein Dynkinsystem bilden, folgt die Messbarkeit für alleA ∈ A.
Universität Bonn Wintersemester 2009/2010
290 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
µ⊗ p ist eine Wahrscheinlichkeitsverteilung, denn einerseitsfolgt
(µ⊗ p)[Ω] = (µ⊗ p)[S × T ] =
∫ (∫IS(x)IT (y)p(x, dy)
)µ(dx) = µ[S] = 1
aus∫Tp(x, dy) = p(x, T ) = 1; andererseits gilt für disjunkte MengenAi (i ∈ N)
I⋃Ai=∑
IAi,
woraus unter zweimaliger Anwendung des Satzes von der monotonen Konvergenz folgt:
(µ⊗ p)
[⋃
i
Ai
]=
∫ (∫ ∑
i
IAi(x, y) p(x, dy)
)µ(dx)
=∑
i
∫ (∫IAi
(x, y) p(x, dy)
)µ(dx)
=∑
i
(µ⊗ p)[Ai].
Durch maßtheoretische Induktion zeigt man nun, dass die Wahrscheinlichkeitsverteilung
µ⊗ p auch (9.1.2) erfüllt.
Als nächstes wollen wir dieRandverteilungen des gerade konstruierten zweistufigen Modells
berechnen. Sei alsoP := µ⊗ p, und seien
X : S × T → S , Y : S × T → T
(x, y) 7→ x (x, y) 7→ y,
die Projektionen auf die 1. bzw. 2. Komponente. Wegenp(x, T ) = 1 gilt:
P [X ∈ B] = P [B × T ] =
∫
B
µ(dx) p(x, T ) = µ[B] ∀ B ∈ S,
also ist die VerteilungP X−1 der ersten Komponente gleichµ. Für die Verteilung der zweiten
Komponente erhalten wir
P [Y ∈ C] = P [S × C] =
∫
S
µ(dx) p(x, C) ∀ C ∈ T .
Definition. Die durch
(µp)[C] :=
∫µ(dx) p(x, C), CinT ,
definierte Wahrscheinlichkeitsverteilung auf(T,T ) heißtMischungder Wahrscheinlichkeitsver-
teilungenp(x, •) bezüglichµ.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE 291
Wie gerade gezeigt, istµp = P Y −1 die Verteilung der zweiten Komponente im zweistufigen
Modell.
Bemerkung. SindS undT abzählbar, dann sindµ ⊗ p undµp die schon in Abschnitt 2.3 be-
trachteten Wahrscheinlichkeitsverteilungen mit Gewichten
(µ⊗ p)(x, y) = µ(x) p(x, y),
(µp)(y) =∑
x∈Sµ(x) p(x, y).
Die Massenfunktionen vonµ ⊗ p undµp sind also das Tensor- bzw. Matrixprodukt des Zeilen-
vektorsµ und der stochastischen Matrixp.
Wichtige Spezialfälle
Produktmaße: Ist p(x, •) ≡ ν eine feste (vonx unabhängige) Wahrscheinlichkeitsverteilung
auf (T,T ), dann istµ⊗ p das Produktµ⊗ ν der Wahrscheinlichkeitsverteilungenµ undν. Der
Satz von Fubini liefert also die Existenz des Produktmaßes,und die schon mehrfach verwendete
Berechnungsformel∫f d(µ⊗ ν) =
∫
S
(∫
T
f(x, y) ν(dy)
)µ(dx) (9.1.3)
für die Integrale nicht-negativer oder integrierbarer messbarer Funktionen bzgl. des Produktma-
ßes. Die Integrationsreihenfolge kann man in diesem Fall vertauschen, denn wegen
(µ⊗ ν)[B × C] = µ[B]ν[C] für alle B ∈ S, C ∈ T (9.1.4)
gilt (ν ⊗ µ) R−1 = µ⊗ ν, wobeiR(x, y) = (y, x), und damit nach dem Transformationssatz:∫ (∫
f(x, y) µ(dx)
)ν(dy)
Fub.=
∫f R d(ν ⊗ µ)
=
∫f d(µ⊗ ν)
Fub.=
∫ (∫f(x, y) ν(dy)
)µ(dx).
Durch wiederholte Anwendung dieses Arguments erhalten wirzudem:
Korollar 9.2. Seien(Si,Si, µi) Wahrscheinlichkeitsräume(1 ≤ i ≤ n). Dann existiert eine
eindeutige Wahrscheinlichkeitsverteilungµ1 ⊗ ...⊗ µn auf (S1 × ...× Sn,S1 ⊗ ...⊗ Sn) mit:
(µ1 ⊗ ...⊗ µn) [B1 × ...×Bn] =n∏
i=1
µi[Bi] für alleBi ∈ Si (1 ≤ i ≤ n).
Universität Bonn Wintersemester 2009/2010
292 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Für alle produktmessbaren Funktionenf : S1 × ...× Sn → [0,∞) gilt:∫f d(µ1 ⊗ ...⊗ µn) =
∫...
(∫f(x1, ..., xn)µn(dxn)
)...µ1(dx1),
wobei die Integration auch in beliebiger anderer Reihenfolge ausgeführt werden kann.
Beweis.Die Existenz folgt durch wiederholte Anwendung des Satzes von Fubini, die Eindeutig-
keit aus dem Eindeutigkeitssatz. Dass die Integrationsreihenfolge vertauscht werden kann, zeigt
man ähnlich wie im oben betrachteten Falln = 2.
Deterministische Kopplung: Gilt p(x, •) = δf(x) für eine messbare Funktionf : S → T , dann
folgt (µ⊗ p)[(x, y) | y = f(x)] = 1. Die zweite Komponente ist also durch die erste Kompo-
nente mit Wahrscheinlichkeit1 eindeutig festgelegt. Die Verteilung der zweiten Komponente ist
in diesem Fall das Bild vonµ unterf :
µp = µ f−1.
Übergangskerne von Markovschen Ketten: Gilt S = T , dann können wirp(x, dy) als Über-
gangswahrscheinlichkeit (Bewegungsgesetz) einer Markovkette auf(S,S) auffassen. In Analogie
zum diskreten Fall definieren wir:
Definition. Eine Wahrscheinlichkeitsverteilungµ auf (S,S) heißt Gleichgewicht (stationäre
oder auch invariante Verteilung)vonp, fallsµp = µ gilt, d.h. falls∫µ(dx)p(x,B) = µ[B] für alle B ∈ S.
Beispiel (Autoregressiver Prozess). Der AR(1)-Prozess mit Parameternε, α ∈ R ist eine Mar-
kovkette mit Übergangskernp(x, •) = N(αx, ε2). Die NormalverteilungN(0, ε2
1−α2
)ist für
α ∈ (0, 1) ein Gleichgewicht. Fürα ≥ 1 existiert kein Gleichgewicht.
Bedingte Dichten und Bayessche Formel
Wir betrachten nun Situationen mit nichttrivialer Abhängigkeit zwischen den Komponenten im
kontinuierlichen Fall. SeienX : Ω → Rn undY : Ω → Rm Zufallsvariablen auf einem Wahr-
scheinlichkeitsraum(Ω,A, P ), deren gemeinsame Verteilung absolutstetig ist mit DichtefX,Y ,
d.h.
P [x ∈ B, Y ∈ C] =
∫
B
∫
C
fX,Y (x, y) dy dx für alleB ∈ B(Rn), C ∈ B(Rm).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE 293
1
2
−1
−2
500 1000
Abbildung 9.1: Simulation einer Trajektorie eines AR(1)-Prozesses mit Parameternα = 0.8 und
ε2 = 1.5.
Nach dem Satz von Fubini sind dann auch die Verteilungen vonX undY absolutstetig mit dichten
fX(x) =
∫
Rm
fX,Y (x, y) dy
und
fY (x) =
∫
Rn
fX,Y (x, y) dx.
Obwohl bedingte Wahrscheinlichkeiten gegebenY = y nicht im herkömmlichen Sinn definiert
werden können, da das EreignisY = y eine Nullmenge ist, können wir die bedingte Dichte
und die bedingte Verteilung vonX gegebenY in diesem Fall sinnvoll definieren. Anschaulich
beträgt die Wahrscheinlichkeit, dass der WertX in einem infinitesimal kleinen Volumenelement
dx liegt, gegeben, dass der Wert vonY in einem entsprechenden infinitesimalen Volumenelement
dy liegt:
P [X ∈ dx|Y ∈ dy] =P [X ∈ dx, Y ∈ dy]
P [Y ∈ dy]=
fX,Y (x, y) dx dy
fY (y) dy
=fX,Y (x, y)
fY (y)dx
Diese heuristische Überlegung motiviert die folgende Definition:
Definition. Die FunktionfX|Y : Rn × Rm → [0,∞] mit
fX|Y =
fX,Y (x, y)
fY (y)falls fY (y) 6= 0
fX(x) falls fY (y) = 0
Universität Bonn Wintersemester 2009/2010
294 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
heißtbedingte Dichte vonX gegebenY , und die vony abhängende Wahrscheinlichkeitsvertei-
lung
µX|Y (y,B) :=
∫
B
fX|Y (x, y) dx, für B ∈ B(Rn),
heißtbedingte Verteilung vonX gegebenY .
Bemerkung. (1). Für festesy ist die bedingte Dichte eine Wahrscheinlichkeitsdichte auf Rn.
Da fX|Y produktmessbar ist, ist die bedingte VerteilungµX|Y nach dem Satz von Fubini
einstochastischer KernvonRm nachRn.
(2). Auf der Nullmengey ∈ Rm|fY (y) = 0 sindfX|Y (x|y) undµX|Y (y, dx) nicht eindeutig
festgelegt - die oben getroffene Definition über die unbedingte Dichte ist relativ willkürlich.
Aus der Definition der bedingten Dichte ergibt sich unmittelbar eine Variante der Bayesschen
Formel für absolutstetige Zufallsvariablen:
Satz 9.3(Bayessche Formel). Für (x, y) ∈ Rn × Rm mit fX(x) > 0 undfY (y) > 0 gilt
fX|Y (x|y) =fX(x)fY |X(y|x)∫
Rn
fX(x)fY |X(y|x) dx.
Beweis.Aus der Definition folgt
fX|Y (x|y) =fX,Y (x, y)
fY (y)=
fX,Y (x, y)∫Rn
fX,Y (x, y) dx,
und damit die Behauptung.
In Modellen der Bayesschen Statistik interpretiert manfX(x) als Dichte dera priori angenom-
menen Verteilung eines unbekannten ParametersX, undfY |X(y|x) als Maß für die Plausibilität
(„Likelihood“) des Parameterwertesx, wenn der Werty der ZufallsgrößeY beobachtet wird. Die
Bayessche Formel besagt dann, dass die Verteilung vonX, von der mana posteriori(d.h. nach
der Beobachtung vony) ausgeht, die Dichte
fX|Y (x|y) = const.(y) · fX(x) · fY |X(y|x)A posteriori Dichte ∝ A priori Dichte × Likelihood
hat. Trotz der einfachen Form der Bayesschen Formel ist es im Allgemeinen nicht trivial, Stich-
proben von der A-posteriori-Verteilung zu simulieren, undErwartungswerte numerisch zu be-
rechnen. Problematisch ist u.A., dass die Berechnung der Normierungskonstanten die Auswer-
tung eines (häufig hochdimensionalen) Integrals erfordert. Ein wichtiges Verfahren zur Simulati-
on von Stichproben in diesem Zusammenhang ist der Gibbs-Sampler.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.1. MEHRSTUFIGE MODELLE 295
SindX undY gemeinsam normalverteilt, dann kann man die wichtigsten Erwartungswerte bzgl.
der A-posteriori-Verteilung im Prinzip exakt berechnen. Wir demonstrieren dies nun in einem
grundlegenden Beispiel eines zweistufigen Modells. Ähnliche Modelle treten in zahlreichen An-
wendungen auf.
Beispiel(Signalverarbeitung). SeiS = T = R1, also
S × T = R2 = (x, y) | x, y ∈ R.
Wir interpretieren die erste Komponentex als Größe eines nicht direkt beobachtbaren Signals,
und die zweite Komponentey als verrauschte Beobachtung vonx. In einem einfachen Bayes-
schen Modell nimmt man z.B. a priori an, dass Signal und Beobachtung normalverteilt sind:
Signal x ∼ N(0, v) , v > 0,
Beobachtung y ∼ N(x, ε) , ε > 0.
Die Verteilung der ersten Komponente und der Übergangskernzur zweiten Komponente sind
dann:
µ(dx) = fX(x) λ(dx)
p(x, dy) = fY |X(y|x) λ(dy)
mit den Dichten
fX(x) :=1√2πv
e−x2
2v (Dichte der Verteilung der ersten KomponenteX),
fY |X(y|x) :=1√2πε
e−(y−x)2
2ε (bedingte Dichte der zweiten KomponenteY gegebenX = x).
Die gemeinsame Verteilung von Signal und Beobachtungswert ist
(µ⊗ p)(dxdy) = µ(dx) p(x, dy)
=1
2π√vε
exp
(−(ε+ v)x2 − 2vxy + vy2
2vε
)λ(dx)λ(dy)
=1
2π√detC
exp
(−1
2
(x
y
)· C−1
(x
y
))λ2(dx dy).
D.h.µ⊗ p ist eine zweidimensionale Normalverteilung mit Kovarianzmatrix
C =
(v v
v v + ε
).
Universität Bonn Wintersemester 2009/2010
296 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Mit anderen Worten: Die gemeinsame Verteilung vonX undY ist absolutstetig bzgl. des zwei-
dimensionalen Lebesguemaßes mit Dichte
fX,Y (x, y) = fX(x)fY |X(y|x) =1
2π√detC
exp
−1
2
(x
y
)⊤
· C−1
(x
y
) .
Als Dichte der Verteilungµp vonY ergibt sich:
fY (y) =
∫fX,Y (x, y) dx.
Nach der Bayesschen Formel erhalten wir für die A-posterioridichte des Signals gegeben die
Beobachtungy:
fX|Y (x|y) :=fX,Y (x, y)
fY (y)
=fX(x)fY |X(y|x)∫
fX(x)fY |X(y|x) λ(dx)(9.1.5)
= const(y) · exp(−ε+ v
2vε(x− v
v + εy)2).
Die bedingte Verteilung des Signals gegeben die Beobachtungist alsoN(x, u), wobei
x =v
v + εy der Prognosewert ist, und
u =vε
v + ε=
(1
v+
1
ε
)−1
die Varianz der Prognose.
In einem Bayesschen Modell würden wir also nach der Beobachtung mit einer Standardabwei-
chungσ =√u prognostizieren, dass der Signalwert gleichx ist.
Ähnliche Modellierungsansätze werden auch in viel allgemeinerem Kontext verwendet. Bei-
spielsweise wird in stochastischen Filterproblemen das Signal durch eine Markovkette (oder
einen zeitstetigen Markovprozess) beschrieben, und die Folge der Beobachtungen durch einen
von der Markovkette angetriebenen stochastischen Prozess. Sind alle gemeinsamen Verteilun-
gen Gaußsch, dann kann man auch hier die a posteriori Verteilung im Prinzip exakt berechnen –
andernfalls muss man auf numerische Näherungsmethoden (z.B. Partikelfilter) zurückgreifen.
9.2 Summen unabhängiger Zufallsvariablen, Faltung
SeienX undY unabhängige reellwertige Zufallsvariablen auf(Ω,A, P ) mit Verteilungenµ bzw.
ν. Wir wollen die Verteilung vonX + Y bestimmen. Für diskrete Zufallsvariablen ergibt sich:
P [X + Y = z] =∑
x∈X(Ω)
P [X = x, Y = z − x]︸ ︷︷ ︸=P [X=x]·P [Y=z−x]
=∑
x∈X(Ω)
µ(x)ν(z − x) (9.2.1)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG 297
Die Wahrscheinlichkeitsverteilung mit Massenfunktion
(µ ⋆ ν)(z) =∑
x∈X(Ω)
µ(x)ν(z − x)
heißt Faltung vonµ undν. Eine entsprechende Aussage erhält man auch im allgemeinenFall:
Verteilungen von Summen unabhängiger Zufallsvariablen
Satz 9.4.SeienX undY unabhängige reellwertige Zufallsvariablen mit Verteilungenµ bzw.ν.
Dann ist die Verteilung vonX + Y die durch
(µ ⋆ ν)[B] :=
∫µ(dx) ν[B − x] , B ∈ B(R),
definierteFaltung der Wahrscheinlichkeitsverteilungenµ undν.
Beweis.Sei B := (x, y) | x + y ∈ B. DaX undY unabhängig sind, erhalten wir mit dem
Satz von Fubini
P [X + Y ∈ B] = P [(X, Y ) ∈ B] = (µ⊗ ν)[B]
Fubini=
∫µ(dx)
∫ν(dy)IB(x+ y)︸ ︷︷ ︸
=IB−x(y)
=
∫µ(dx) ν[B − x].
Bemerkung. Die Faltungµ⋆ν zweier Wahrscheinlichkeitsverteilungenµ undν aufR1 ist wieder
eine Wahrscheinlichkeitsverteilung aufR1. Da die Addition von Zufallsvariablen kommutativ
und assoziativ ist, hat die Faltung von Wahrscheinlichkeitsverteilungen nach Satz 9.4 dieselben
Eigenschaften:
µ ⋆ ν = ν ⋆ µ (daX + Y = Y +X) (9.2.2)
(µ ⋆ ν) ⋆ η = µ ⋆ (ν ⋆ η) (da(X + Y ) + Z = X + (Y + Z) ). (9.2.3)
Im diskreten Fall istµ ⋆ ν nach (9.2.2) die Wahrscheinlichkeitsverteilung mit Gewichten
(µ ⋆ ν)(z) =∑
x
µ(x)ν(z − x).
Eine entsprechende Berechnungsformel ergibt sich auch für absolutstetige Wahrscheinlichkeits-
verteilungen:
Universität Bonn Wintersemester 2009/2010
298 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Lemma 9.5. Ist ν absolutstetig mit Dichteg, dann ist auchµ ⋆ ν absolutstetig mit Dichte
(z) =
∫µ(dx) g(z − x).
Ist zusätzlich auchµ absolutstetig mit Dichtef , dann gilt
(z) =
∫
R
f(x) g(z − x) dx =: (f ⋆ g)(z)
Beweis.Wegen der Translationsinvarianz des Lebesguemaßes gilt
(µ ⋆ ν)[B] =
∫µ(dx)ν[B − x] =
∫µ(dx)
∫
B−x
g(y)dy
︸ ︷︷ ︸=∫B g(z−x)dz
Fub.=
∫
B
(∫µ(dx)g(z − x)
)dz .
Also istµ ⋆ ν absolutstetig mit Dichte. Die zweite Behauptung folgt unmittelbar.
Beispiel. (1). SindX undY unabhängig, undBin(n, p) bzw.Bin(m, p)-verteilt, dann istX+Y
eineBin(n +m, p)-verteilte Zufallsvariable. Zum Beweis bemerkt man, dass die gemein-
same Verteilung vonX und Y mit der gemeinsamen Verteilung vonZ1 + ... + Zn und
Zn+1 + ... + Zn+m übereinstimmt, wobei die ZufallsvariablenZi (1 ≤ i ≤ n +m) unab-
hängig undBernoulli(p)-verteilt sind. Also folgt:
µX+Y = µZ1+...+Zn+Zn+1+...+Zn+m = Bin(n+m, p) .
Als Konsequenz erhalten wir (ohne zu rechnen):
Bin(n, p) ⋆ Bin(m, p) = Bin(n+m, p) ,
d.h. die Binomialverteilungen bilden eineFaltungshalbgruppe. Explizit ergibt sich:
l∑
k=0
(n
k
)pk(1− p)n−k
(m
l − k
)pl−k(1− p)m−(l−k) =
(n+m
l
)pl(1− p)n+m−l ,
d.h.l∑
k=0
(n
k
)(m
l − k
)=
(n+m
l
). (9.2.4)
Die kombinatorische Formel (9.2.4) ist auch alsVandermonde-Identitätbekannt.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG 299
(2). SindX undY unabhängig und Poisson-verteilt mit Parameternλ bzw. λ, dann istX + Y
Poisson-verteilt mit Parameterλ+ λ, denn nach der Binomischen Formel gilt fürn ≥ 0:
(µX ⋆ µY )(n) =n∑
k=0
µX(k) · µY (n− k)
=n∑
k=0
λk
k!e−λ · λn−k
(n− k)!e−λ
= e−λ+λ ·n∑
k=0
λk
k!
λn−k
(n− k)!
= e−λ+λ · (λ+ λ)n
n!.
Also bilden auch die Poissonverteilungen eine Faltungshalbgruppe:
Poisson(λ) ⋆ Poisson(λ) = Poisson(λ+ λ)
(3). SindX undY unabhängig und normalverteilt mit Parametern(m,σ2) bzw. (m, σ2), dann
istX + Y normalverteilt mit Parametern(m+ m, σ2 + σ2), siehe??. Dies verifiziert man
leicht mithilfe der charakteristischen Funktionen. Die Normalverteilungen bilden also eine
zweiparametrige Faltungshalbgruppe.
Wartezeiten, Gamma-Verteilung
SeienT1, T2, ... sukzessive Wartezeiten auf das Eintreten eines unvorhersehbaren Ereignisses. In
einem einfachen Modell nehmen wir an, dass dieTi (i ∈ N) unabhängige exponentialverteilte
Zufallsvariablen sind, d.h. die Verteilungen derTi sind absolutstetig mit Dichte
f(t) = λ · e−λt · I(0,∞)(t) .
Die Verteilung der Gesamtwartezeit
Sn = T1 + ...+ Tn
bis zumn-ten Ereignis ist dann
µSn = µT1 ⋆ µT2 ⋆ ... ⋆ µTn .
Insbesondere ist die Verteilung vonS2 absolutstetig mit Dichte
(f ⋆ f)(s) =
∫
R
f(x)︸︷︷︸=0
fur x<0
f(s− x)︸ ︷︷ ︸=0
fur x>s
=
∫ s
0
λ2e−λxe−λ(s−x)dx = λ2e−λs
∫ s
0
dx = λ2se−λs
für s ≥ 0, bzw.(f ⋆ f)(s) = 0 für s < 0. Durch Induktion ergibt sich allgemein:
Universität Bonn Wintersemester 2009/2010
300 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Lemma 9.6. Die Verteilung vonSn ist absolutstetig mit Dichte
fλ,n(s) =λn
Γ(n)· sn−1 · e−λs · I(0,∞)(s) ,
wobei
Γ(n) :=
∫ ∞
0
tn−1 e−t dxn∈N= (n− 1)! .
Definition. Die Wahrscheinlichkeitsverteilung aufR+ mit Dichtefλ,n heißtGammaverteilung
mit Parameternλ, n ∈ (0,∞).
1
1 2 3 4
Abbildung 9.2: Dichtefunktionen der GammaverteilungΓ1,n für verschiedenen.
Die Gammaverteilung ist auch für nicht-ganzzahligen definiert,Γ ist dann die Eulersche Gam-
mafunktion. Fürn = 1 ergibt sich die Exponentialverteilung als Spezialfall derGammavertei-
lung. Allgemein gilt:
Γ(λ, r) ⋆ Γ(λ, s) = Γ(λ, r + s) ,
d.h. die Gammaverteilungen mit festem Parameterλ bilden eine Faltungshalbgruppe.
Durch Anwenden des zentralen Grenzwertsatzes auf die ZufallsvariableSn erhalten wir:
Korollar 9.7 (Normalapproximation der Gammaverteilungen). Sei λ > 0. Dann gilt für
Γ(λ, n) verteilte ZufallsvariablenSn:
n−1/2 ·(Sn − nλ−1
) D→ N(0, λ−2) für n→ ∞.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 301
Bemerkung (Poissonprozess). Die Anzahl der bis zur Zeitt ≥ 0 eingetretenen Ereignisse im
obigen Modell ist
Nt = maxn ≥ 0 | Sn ≤ t .
Die ZufallsvariablenNt sind Poissonverteilt mit Parameterλ · t (Übung). Die KollektionNt (t ≥0) der Zufallsvariablen heißtPoissonprozess mit Intensitätλ. Der Poissonprozess ist ein mo-
noton wachsender stochastischer Prozess mit ganzzahligenWerten. Er ist selbst eine zeitstetige
Markovkette und ist von grundlegender Bedeutung für die Konstruktion allgemeiner Markov-
ketten in kontinuierlicher Zeit. Wir werden den Poissonprozess in der Vorlesung „Stochastische
Prozesse“ genauer betrachten.
9.3 Transformationen, Gaußmodelle und Parameterschätzung
Der Dichtetransformationssatz
Allgemein gibt es zwei ganz verschiedene Arten, eine Wahrscheinlichkeitsverteilungµ(dx) zu
transformieren:
(1). Koordinatentransformation: y = φ(x), µ(dx) → µ φ−1(dy)
(2). Maßwechsel durch Dichte: µ(dx) → (x)µ(dx).
In bestimmten regulären Fällen lassen sich beide Transformationen in Beziehung setzen: Ein
Koordinatenwechsel hat denselben Effekt wie eine absolutstetige Maßtransformation mit einer
geeigneten Dichte. Wir demonstrieren dies hier im Fall absolutstetiger Verteilungen imRd. Die
entsprechende Koordinatentransformationsformel verwenden wir dann, um multivariate Normal-
verteilungen, und verschiedene für die Statistik zentraleVerteilungen zu untersuchen.
SeienS, T ⊆ Rn offen, und seiX : Ω → S eine Zufallsvariable auf einem Wahrscheinlichkeits-
raum(Ω,A, P ) mit absolutstetiger VerteilungµX mit DichtefX .
Satz 9.8(Mehrdimensionaler Dichtetransformationssatz). Ist φ : S → T ein Diffeomorphis-
mus (C1) mit detDφ(x) 6= 0 für alle x ∈ S, dann ist die Verteilung vonφ(X) absolutstetig mit
Dichte
fφ(X)(y) = fX(φ−1(y)) · | detDφ−1(y)|,
wobeidetDφ−1(y) = det(∂xi
∂yj) die Jacobideterminante der Koordinatentransformation ist.
Universität Bonn Wintersemester 2009/2010
302 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Beweis.Die Behauptung folgt aus dem Transformationssatz der multivariaten Analysis:
P [φ(X) ∈ B] = P [X ∈ φ−1(B)]
=
∫
φ−1(B)
fX(x) dxSubst.=
∫
B
fX(φ−1(y)) · | detDφ−1(y)| dy .
Beispiel (Sukzessive Wartezeiten). SeienT und T unabhängige, zum Parameterλ > 0 expo-
nentialverteilte Zufallsvariablen (z.B. sukzessive Wartezeiten), und seiS = T + T . Nach dem
Dichtetransformationssatz gilt dann
fT,S(t, s) = fT,T (t, s− t) · | det ∂(t, s− t)
∂(t, s)|
∝ e−λt · I(0,∞)(t) · e−λ(s−t) · I(0,∞)(s− t)
= e−λs · I(0,s)(t).
Somit ist die bedingte DichtefS|T (s|t) für festest > 0 proportional zue−λs · I(t,∞)(s). Dies ist
auch anschaulich sofort plausibel, das eine um die unabhängige ZufallsvariableT verschobene
exponentialverteilte Zufallsvariable ist.
Interessanter ist die Berechnung der bedingten Dichte vonT gegebenS: Für festess > 0 ist
fT |S(t|s) proportional zuI(0,s)(t), d.h.
fT |S(t|s) =1
s· I(0,s)(t).
Gegeben die SummeS der beiden Wartezeiten ist die erste WartezeitT also gleichverteilt auf
[0, S]!
Wir betrachten nun verschiedene weiterreichende Anwendungen des Dichtetransformationssat-
zes.
Multivariate Normalverteilungen und multivariater ZGS
SeiZ = (Z1, Z2, ..., Zd) mit unabhängigen,N(0, 1)-verteilten ZufallsvariablenZi. Die Vertei-
lung des ZufallsvektorsZ ist dann absolutstetig bzgl. des Lebesguemaßes imRd mit Dichte
fZ(x) =d∏
i=1
1√2π
e−x2i2 = (2π)−
d2 e−
|x|22 (d-dimensionale Standardnormalverteilung).
Sei nunm ∈ Rd undσ ∈ Rd×d eined× d-Matrix. Wir betrachten den Zufallsvektor
Y = σZ +m .
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 303
Wir zeigen zunächst, dassY Erwartungswertm und KovarianzmatrixC = σσT hat, und berech-
nen die charakteristische Funktion:Erwartungswert: E[Yi] =∑d
k=1 σikE[Zk] + mi = mi
.
Kovarianz: Cov(Yi, Yj) = Cov(∑
k σikZk +mi,∑
l σjlZl +mj)
=∑
k,l σikσjl · Cov(Zk, Zl) =∑
k σikσjk = Cij.
Charakteristische Funktion: Für einen Vektorp ∈ Rd gilt
ϕY (p) := E[eip·Y
]= E
[ei(σ
T p)·Z]eip·m = e−
12|σT p|2+ip·m
= e−12p·Cp+ip·m . (9.3.1)
Ist σ regulär, dann können wir die Dichte der Verteilung vonY sofort mithilfe des Transforma-
tionssatzes explizit berechnen:
fY (y) = fX(σ−1(y −m)) · | det σ−1|
=1√
(2π)d| detC|exp
(−1
2(y −m)C−1(y −m)
).
Auch imRd ist eine Wahrscheinlichkeitsverteilung durch ihre charakteristische Funktion eindeu-
tig festgelegt, s. z.B. Bauer: Wahrscheinlichkeitstheorie.Allgemein (also auch für nicht reguläre
σ) können wir die Verteilung vonY auch über die Fourierinversionsformel berechnen.
Definition. Seim ∈ Rd undC ∈ Rd×d eine symmetrische, nicht-negativ definite Matrix. Die
VerteilungN(m,C) im Rd mit charakteristischer FunktionφY = exp(−12pCp + ipm) heißt
d-dimensionale Normalverteilungmit Mittelm und KovarianzmatrixC.
Bemerkung/Übung. Mithilfe von charakteristischen Funktionen beweist man die folgenden
Transformationsformeln und Charakterisierungen für multivariate Normalverteilungen:
(1). Füra ∈ Rk undA ∈ Rk×d gilt
X ∼ N(m,C) ⇒ AX + a ∼ N(Am+ a,ACAT ).
(2). Folgende Aussagen sind äquivalent:
• X ∼ N(0, C) ist multivariat normalverteilt mit KovarianzmatrixC.
• p ·X ∼ N(0, p · Cp) ∀ p ∈ Rd.
Auch imRd gilt ein zentraler Grenzwertsatz :
Universität Bonn Wintersemester 2009/2010
304 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Satz 9.9(Multivariater zentraler Grenzwertsatz ). SeienX1, X2, ... : Ω → Rd unabhängige,
identisch verteilte, quadratintegrierbare Zufallsvektoren auf(Ω,A, P ), und seiSn = X1 + . . .+
Xn. Dann giltSn − E[Sn]√
n
D−→ Z ∼ N(0, C),
wobeiCjk = Cov(X1,j , X1,k) die Kovarianzmatrix der ZufallsvektorenXi ist.
Der Beweis basiert auf folgender Charakterisierung der schwachen Konvergenz von Zufallsvek-
toren:
Lemma 9.10(Cramér-Wold Device). Für ZufallsvariablenY, Y1, Y2, ... : Ω → Rd gilt:
YnD−→ Y ⇔ p · Yn D−→ p · Y ∀ p ∈ Rd.
Beweisskizze.Die Richtung „⇒“ ist klar, daY 7→ p · Y stetig ist. Umgekehrt gilt:
p · Yn D−→ p · Y ⇒ E[exp(ip · Yn)] → E[exp(ip · Y )] ∀ p ∈ Rd.
Mit einem ähnlichen Beweis wie imR1 folgt dann aus der Konvergenz der charakteristischen
Funktionen die schwache KonvergenzYnD−→ Y . Um die relative Kompaktheit zu zeigen (Satz
von Helly-Bray), verwendet man dabei imRd die multivariaten Verteilungsfunktionen
Fn(x1, ..., xd) := P [Yn,1 ≤ x1, ..., Yn,d ≤ xd], (x1, . . . , xd) ∈ Rd.
Wir beweisen nun den zentralen Grenzwertsatz:
Beweis.Fürp ∈ Rd gilt nach dem eindimensionalen zentralen Grenzwertsatz:
p ·(Sn − E[Sn]√
n
)=
1√n
n∑
i=1
(p ·Xi − E[p ·Xi])
D−→ N (0,Var[p ·X1]) = N(0, p · Cp),
da
Var[p ·X1] = Cov
[∑
k
pkX1,k ,∑
l
pkX1,l
]=∑
k,l
pkplCkl = p · Cp.
IstY einN(0, C)-verteilter Zufallsvektor, dann istN(0, p ·Cp) die Verteilung vonp ·Y . Mithilfe
der Cramér-Wold Device folgt also
(Sn − E[Sn])/√n
D→ Y.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 305
Beispiel (Vom Random Walk zur Brownschen Bewegung). SeiSn = X1 + ... + Xn, wobei
dieXi unabhängige Zufallsvariablen mit
E[Xi] = 0 und Var[Xi] = 1
sind. Beispielsweise istSn ein klassischer Random Walk. Um einen stochastischen Prozess in
kontinuierlicher Zeit zu erhalten, interpolieren wirn 7→ Sn linear. Anschließend reskalieren wir
in Raum und Zeit, und setzen
S(n)t :=
1√nSnt, t ∈ R+.
GRAPHIK SKALIERTER RANDOM WALK
Aus dem Zentralen Grenzwertsatz folgt:
S(n)t =
√t
1√nt
SntD−→ ∼ N(0, t) für jedes festet ∈ R+,
d.h. die eindimensionalen Randverteilungen der ProzesseS(n) = (S(n)t )t≥0 konvergieren. Allge-
meiner zeigt man mithilfe des multivariaten zentralen Grenzwertsatzes, dass auch endlich dimen-
sionale Randverteilungen schwach konvergieren:(S(n)t1 , S
(n)t2 , ..., S
(n)tk
)D−→ (Bt1 , ..., Btk) , für alle0 ≤ t1 < t2 < . . . < tk, k ∈ N,
wobei(Bt1 , ..., Btk) multivariat normalverteilt ist mit
E[Btj ] = 0 und Cov[Btj , Btk ] = min(tj, tk).
Eine noch allgemeinere Aussage erhält man mithilfe einesfunktionalen zentralen Grenzwert-
satzes(Invarianzprinzip von Donsker, ZGS auf dem BanachraumC([0, 1],R)): Der gesamte
stochastische Prozess(S(n)t )0≤t≤1 konvergiert in Verteilung gegen eineBrownsche Bewegung
(Bt)0≤t≤1. Mehr dazu in den weiterführenden Vorlesungen »Stochastische Prozesse« und »Grund-
züge der stochastischen Analysis«.
Wir betrachten noch eine weitere Anwendung des Dichtetransformationssatzes auf Normalver-
teilungen.
Beispiel(χ2-Verteilungen). Wir berechnen nun die Verteilung vom Quadrat des Abstandes vom
Ursprung eines standardnormalverteilten Zufallsvektorsim Rd:
Z = (Z1, ..., Zd) ∼ N(0, Id), ‖Z‖2 =d∑
i=1
Z2i .
Universität Bonn Wintersemester 2009/2010
306 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Wegenf|Zi|(x) = 2√2πe−
x2
2 · I(0,∞)(x) folgt durch Anwenden des Dichtetransformationssatzes
mit Y = φ(x) := x2:
fZ2i(y) =
√2
πe−
y2 · I(0,∞)(y) ·
1
2√y,
d.h.Z2i ist Γ(1
2, 12)-verteilt. Da die ZufallsvariablenZ2
i , 1 ≤ i ≤ d, unabhängig sind, folgt:
||Z||2 =d∑
i=1
Z2i ∼ Γ
(1
2,d
2
).
Definition. Die Gamma-Verteilung mit Parametern12
und d2
heißt auchChiquadrat-Verteilung
χ2(d) mit d Freiheitsgraden.
Parameterschätzung im Gaußmodell
Angenommen, wir beobachten reellwertige Messwerte (Stichproben, Daten), die von einer unbe-
kannten Wahrscheinlichkeitsverteilungµ aufR stammen. Ziel der Statistik ist es, Rückschlüsse
auf die zugrundeliegende Verteilung aus den Daten zu erhalten. Im einfachsten Modell (Gauß-
modell) nimmt man an, dass die Daten unabhängige Stichproben von einer Normalverteilung mit
unbekanntem Mittelwert und/oder Varianz sind:
µ = N(m, v), m, v unbekannt.
Eine partielle Rechtfertigung für die Normalverteilungsannahme liefert der zentrale Grenzwert-
satz. Letztendlich muss man aber in jedem Fall überprüfen, ob eine solche Annahme gerechtfer-
tigt ist.Ein erstes Ziel ist es nun, den Wert vonm auf der Basis vonn unabhängigen Stichproben
X1(ω) = x1, . . . , Xn(ω) = xn zu schätzen, und zu quantifizieren.
Problemstellung: Schätzung des Erwartungswerts
• Schätzem auf der Basis vonn unabhängigen StichprobenX1(ω), ..., Xn(ω) vonµ.
• Herleitung von Konfidenzintervallen.
Im mathematischen Modell interpretieren wir die Beobachtungswerte als Realisierungen von un-
abhängigen ZufallsvariablenX1, . . . , Xn. Da wir die tatsächliche Verteilung nicht kennen, unter-
suchen wir alle in Betracht gezogenen Verteilungen simultan:
X1, . . . , Xn ∼ N(m, v) unabhängig unterPm,v. (9.3.2)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 307
Ein naheliegender Schätzer fürm ist derempirische Mittelwert
Xn(ω) :=X1(ω) + ...+Xn(ω)
n.
Wir haben oben bereits gezeigt, dass dieser Schätzererwartungstreu (unbiassed)undkonsistent
ist, d.h. für allem, v gilt:
Em,v[Xn] = m
und
Xn → m Pm,v-stochastisch fürn→ ∞.
Wie wir den Schätzfehler quantifizieren hängt davon ab, ob wir die Varianz kennen.
Schätzung vonm bei bekannter Varianz v.
Um den Schätzfehler zu kontrollieren, berechnen wir die Verteilung vonXn:
Xi ∼ N(m, v) unabh. ⇒ X1 + ...+Xn ∼ N(nm, nv)
⇒ Xn ∼ N(m,v
n)
⇒ Xn −m√v/n
∼ N(0, 1)
BezeichnetΦ die Verteilungsfunktion der Standardnormalverteilung, dann erhalten wir
Pm,v
[|Xn −m| < q
√v
n
]= N(0, 1)(−q, q) = 2
(Φ(q)− 1
2
)für allem ∈ R.
Satz 9.11.Im Gaußmodell (9.3.2) mit bekannter Varianzv ist das zufällige Intervall
(Xn − Φ−1(α)
√v
n, Xn + Φ−1(α)
√v
n
)
ein (2α− 1) · 100% Konfidenzintervallfür m, d.h.
Pm,v[m ∈ Intervall] ≥ 2α− 1 für allem ∈ R.
Man beachte, dass die Länge des Konfidenzintervalls in diesem Fall nicht von den beobachteten
Stichproben abhängt!
Schätzung vonm bei unbekannter Varianz v. In Anwendungen ist meistens die Varianz un-
bekannt. In diesem Fall können wir das Intervall oben nicht verwenden, da es von der unbe-
kannten Varianzv abhängt. Stattdessen schätzen wirm und v simultan, und konstruieren ein
Universität Bonn Wintersemester 2009/2010
308 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Konfidenzintervall fürm mithilfe beider Schätzwerte. Erwartungstreue Schätzer für m und v
sind
Xn =1
n
n∑
i=1
Xi und Vn =1
n− 1
n∑
i=1
(Xi −Xn)2 .
Um ein Konfidenzintervall fürm zu erhalten, bestimmen wir mithilfe des Transformationssatzes
die gemeinsame Verteilung vonXn undVn:
Lemma 9.12.Xn undVn sind unabhängig unterPm,v mit Verteilung
Xn ∼ N(m,
v
n
),
n− 1
vVn ∼ χ2(n− 1) .
Beweis.Wir führen eine lineare KoordinatentransformationY = OX durch, wobeiO eine or-
thogonalen× n-Matrix vom Typ
O =
( 1√n... 1√
n
beliebig
)
ist. Eine solche Matrix erhalten wir durch Ergänzen des normierten Vektors( 1√n, ..., 1√
n) zu einer
Orthonormalbasis desRn. In den neuen Koordinaten gilt:
Xn =1
n
n∑
i=1
Xi =1√nY1, und
(n− 1)Vn =n∑
i=1
(Xi −Xn)2 =
n∑
i=1
X2i − nX
2
n = ||X||2Rn − nX2
n
O orthogonal= ||Y ||2Rn − Y 2
1 =n∑
i=2
Y 2i .
Da die ZufallsvariablenXi (1 ≤ i ≤ n) unabhängig undN(m, v)-verteilt sind, ist der Zufalls-
vektorX = (X1, ..., Xn) multivariat normalverteilt mit Mittel(m, . . . ,m) und Kovarianzmatrix
v · In. Nach dem Transformationssatz folgt
Y ∼ N
O
m...
m
, v ·OInOT
= N
m√n
0...
0
, v · In
.
Also sindY1, ..., Yn unabhängige Zufallsvariablen mit Verteilungen
Y1 ∼ N(m√n, v) , Yi ∼ N(0, v) für i ≥ 2.
Es folgt, dass
Xn =Y1√n
undn− 1
vVn =
n∑
i=2
(Yi√v
)2
unabhängige Zufallsvariablen mit VerteilungenN(m, vn) bzw.χ2(n− 1) sind.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 309
Bei bekannter Varianzv hatten wir Konfidenzintervalle fürm vom TypXn±q ·√
vn
erhalten, wo-
beiq ein geeignetes Quantil der Standardnormalverteilung ist.Daher liegt es nahe, zu versuchen,
bei unbekannter Varianz Konfidenzintervalle vom TypXn ± q ·√
Vn
nherzuleiten. Es gilt:
Pm,v
[|Xn −m| ≥ q
√Vnn
]= Pm,v[|Tn−1| ≥ q] mit
Tn−1 :=
√n · (Xn −m)√
Vn.
Die ZufallsvariableTn−1 heißt Studentschet-Statistik mit n − 1 Freiheitsgraden.1 Unsere
Überlegungen zeigen, dass wir aus Quantilen der Studentschen t-Statistik Konfidenzintervalle
für das Gaußmodell herleiten können. Wir müssen nur noch dieVerteilung vonTn berechnen:
Satz 9.13(Student2). Die Verteilung vonTn ist absolutstetig mit Dichte
fTn(t) = B
(1
2,n
2
)−1
· n−1/2 ·(1 +
t2
2
)−n/2
(t ∈ R).
»Studentschet-Verteilung mitn Freiheitsgraden«. Hierbei ist
B
(1
2,n
2
)=
1√n
∫ ∞
−∞(1 + s2)−
n2 ds
dieEulersche Beta-Funktion, die als Normierungsfaktor auftritt.
Insbesondere ist das zufällige Intervall
Xn ± q ·√Vnn
ein100 · (1− 2α)% Konfidenzintervall fürm, falls
q = F−1Tn−1
(1− α)
ein (1− α)-Quantil dert-Verteilung mitn− 1 Freiheitsgraden ist.
Beweis.Direkt oder mithilfe des Transformationssatzes zeigt man:SindZ undY unabhängige
Zufallsvariablen mit VerteilungenN(0, 1) bzw.χ2(n− 1), dann istZ/√
1n−1
Y absolutstetig mit
dichtefTn−1.
1In der Statistik bezeichnet man eine messbare Funktion der Beobachtungsdaten als Statistik - ein (Punkt-) Schät-
zer ist eine Statistik, die zum Schätzen eines unbekannten Parameters verwendet wird, ein Konfidenzintervall nennt
man auch Intervallschätzer.2Synonym von W. S. Gosset, der als Angestellter der Guiness-Brauerei nicht publizieren durfte.
Universität Bonn Wintersemester 2009/2010
310 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Der Satz folgt dann nach Lemma 9.12 mit
Z :=Xn −m√
v/nund Y :=
n− 1
vVn .
Bemerkung(Nichtparametrische und Verteilungsunabhängige Konfidenzintervalle). In An-
wendungen ist es oft unklar, ob eine Normalverteilungsannahme an die Beobachtungswerte ge-
rechtfertigt ist. Zudem können einzelne größere Ausreißerin den Daten (z.B. aufgrund von Mess-
fehlern) das Stichprobenmittel relativ stark beeinflussen. Der Stichprobenmedian ist dagegen in
den meisten Fällen ein deutlich stabilerer Schätzwert für den Median der zugrundeliegenden
Verteilung, und die in Abschnitt 5.1 hergeleiteten, auf Ordnungsstatistiken basierenden, Konfi-
denzintervalle für den Median und andere Quantile werden ebenfalls in der Regel weniger stark
durch Ausreißer beeinflusst. Zudem gelten diese Konfidenzintervalle simultan für alle stetigen
Verteilungen. Ist man sich daher nicht sicher, ob eine Normalverteilungsannahme aufgrund der
Daten gerechtfertigt ist, empfiehlt es sich, auf die stabileren Ordnungsintervalle zurückzugreifen.
Beispiel. (NOCH EINZUFÜGEN)
Hypothesentests
In Anwendungen werden statistische Aussagen häufig nicht über Konfidenzintervalle, sondern
als Hypothesentest formuliert. Mathematisch passiert dabei nichts wirklich Neues – es handelt
sich nur um eine durch praktische Erwägungen motivierte Umformulierung derselben Resultate:
Angenommen, wir habenn unabhängige reellwertige StichprobenX1, ..., Xn von einer unbe-
kannten Verteilung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus
einer Familieµθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt, z.B. der Familie aller
Normalverteilungenµm,v, θ = (m, v) ∈ R × R+. Die gemeinsame Verteilung vonX1, . . . , Xn
ist dann das Produktmaßµnθ =
n⊗i=1
µθ. Sei nunΘ0 eine Teilmenge des Parameterbereichs. Wir
wollen entscheiden zwischen der
NullhypotheseH0: »θ ∈ Θ0«
und der
AlternativeH1: »θ 6∈ Θ0«
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 311
Ein Hypothesentestfür ein solches Problem ist bestimmt durch eine messbare TeilmengeC ⊆Rn (denVerwerfungsbereich) mit zugehöriger Entscheidungsregel:
AkzeptiereH0 ⇐⇒ (X1, ..., Xn) /∈ C.
Beispiel (t-Test). SeienX1, X2, . . . , Xn unabhängige Stichproben von einer Normalverteilung
mit unbekanntem Parameter(m, v) ∈ Θ = R × R+. Wir wollen testen, ob der Mittelwert der
Verteilung einen bestimmten Wertm0 hat:
NullhypotheseH0: »m = m0« , Θ0 = m0 × R+ .
Ein solches Problem tritt z.B. in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob
ein Sollwertm0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren,
wobeiXi die Differenz der mit beiden Verfahren erhaltenen Messwerte ist. Die Nullhypothese
mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht.
Im t–Testfür obiges Testproblem wird die Nullhypothese akzeptiert,falls der Betrag derStudent-
schen t-Statistikunterhalb einer angemessen zu wählenden Konstantenc liegt, bzw. verworfen,
falls
|Tn−1| =
∣∣∣∣√n · (Xn −m0)√
Vn
∣∣∣∣ > c
gilt.
Seien nun allgemeinX1, X2, . . . unterPθ unabhängige Zufallsvariablen mit Verteilungµθ. Bei
einem Hypothesentest können zwei Arten von Fehlern auftreten:
Fehler 1. Art: H0 wird verworfen, obwohl wahr.Die Wahrscheinlichkeit dafür beträgt:
Pθ[(X1, ..., Xn) ∈ C] = µnθ [C] , θ ∈ Θ0.
Fehler 2. Art: H0 wird akzeptiert, obwohl falsch.Die Wahrscheinlichkeit beträgt:
Pθ[(X1, ..., Xn) /∈ C] = µnθ [C
C ] , θ ∈ Θ \Θ0.
Obwohl das allgemeine Testproblem im Prinzip symmetrisch inH0 undH1 ist, interpretiert man
beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die
Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeu-
gen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht
vorhanden) unterhalb einer vorgegebenen (kleinen) Schrankeα liegen. Die Wahrscheinlichkeit
µnθ [C] , θ ∈ Θ \Θ0 ,
daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein.
Universität Bonn Wintersemester 2009/2010
312 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK
Definition. Die Funktion
G(θ) = Pθ[(X1, ..., Xn) ∈ C] = µnθ [C]
heißtGütefunktiondes Tests. Der Test hatNiveauα, falls
G(θ) ≤ α für alle θ ∈ Θ0
gilt. Die FunktionG(θ) mit θ ∈ Θ1 heißtMacht des Tests.
Aus Satz 9.13 und der Symmetrie der Studentschent-Verteilung folgt unmittelbar:
Korollar 9.14. Der Studentsche t-Test hat Niveauα falls c ein (1− α2)-Quantil der Studentschen
t-Verteilung mitn− 1 Freiheitsgraden ist.
Allgemeiner gilt:
Satz 9.15(Korrespondenz Konfidenzintervalle↔ Hypothesentests). Für einen reellwertigen
Parameterγ = c(θ), ein Irrtumsniveauα ∈ (0, 1), und messbare Abbildungen (Statistiken)
γ, ε : Rn → R sind äquivalent:
(i) Das Intervall
[γ(X1, . . . , Xn)− ε(X1, . . . , Xn) , γ(X1, . . . , Xn) + ε(X1, . . . , Xn)]
ist ein(1− α) · 100 % Konfidenzintervall fürγ.
(ii) Für jedesγ0 ∈ R ist
C = (x1, ..., xn) : |γ(x1, . . . , xn)− γ0| > ε(x1, . . . , xn)
der Verwerfungsbereich eines Test der Nullhypotheseγ = γ0 zum Niveauα.
Beweis.Das Intervall ist genau dann ein Konfidenzintervall fürγ zum Irrtumsniveauα, wenn
Pθ [|γ(X1, . . . , Xn)− c(θ)| > ε(X1, ..., Xn)] ≤ α ∀ θ ∈ Θ
gilt, also wenn der entsprechende Test der Nullhypothesenc(θ) = γ0 für jedesγ0 Niveauα
hat.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
Kapitel 10
Bedingte Erwartungen
Zur Analyse von stochastischen Modellen mit Abhängigkeiten verwendet man in der Regel be-
dingte Wahrscheinlichkeiten und Erwartungswerte gegebendie Werte von Zufallsvariablen. Bei-
spielsweise beschreibt man einen stochastischen ProzessXn , n ∈ N, durch die bedingten Vertei-
lungen des nächsten ZustandsXn+1 gegeben den VerlaufX0:n = (X0, X1, . . . , Xn) bis zur Zeit
n.
10.1 Bedingen auf diskrete Zufallsvariablen
Wir betrachten zunächst das Bedingen auf den Ausgang einer diskreten ZufallsvariableY : Ω →S, S abzählbar. In diesem Fall können wir diebedingte Wahrscheinlichkeitsverteilung
P [A | Y = z] =P [A ∩ Y = z]
P [Y = z], A ∈ A,
und diebedingten Erwartungswerte
E[X | Y = z] =E[X;Y = z]
P [Y = z], X ∈ L1(Ω,A, P ),
für allez ∈ S mit P [Y = z] > 0 auf elementare Weise wie in Abschnitt 2.1 definieren. Fürz ∈ S
mit P [Y = z] = 0 sind die bedingten Wahrscheinlichkeiten nicht definiert.
Bedingte Erwartungen als Zufallsvariablen
Es wird sich als praktisch erweisen, die bedingten Wahrscheinlichkeiten und Erwartungswerte
nicht als Funktion des Ausgangsz, sondern als Funktion der ZufallsvariableY zu interpretieren.
Die bedingten Wahrscheinlichkeiten und Erwartungswerte sind dann selbst Zufallsvariablen:
313
314 KAPITEL 10. BEDINGTE ERWARTUNGEN
Definition. SeiX : Ω → R eine Zufallsvariable mitE[X−] < ∞, undY : Ω → S eine diskrete
Zufallsvariable. Die durch
E[X | Y ] := g(Y ) =∑
z∈Sg(z) · IY=z
mit
g(z) :=
E[X | Y = z] falls P [Y = z] > 0
beliebig fallsP [Y = z] = 0
P -fast sicher eindeutig definierte ZufallsvariableE[X | Y ] heißt(Version der) bedingte(n) Er-
wartung vonX gegebenY . Für ein EreignisA ∈ A heißt die Zufallsvariable
P [A | Y ] := E[IA | Y ]
(Version der) bedingte(n) Wahrscheinlichkeit vonA gegebenY .
Die bedingte ErwartungE[X | Y ] und die bedingte WahrscheinlichkeitP [A | Y ] sind also Zu-
fallsvariablen mit den WertenE[X | Y = z] bzw.P [A | Y = z] auf den MengenY = z, z ∈ S
mit P [Y = z] > 0. Auf jeder der NullmengenY = z, z ∈ S mit P [Y = z] = 0, wird der
bedingten Erwartung ein willkürlicher konstanter Wert zugewiesen, d.h. die Definition ist nur
P -fast überall eindeutig. Wir fassen zunächst einige elementare Eigenschaften der so definierten
bedingten Erwartung zusammen:
Lemma 10.1(Eigenschaften der bedingten Erwartung).
(1). Die AbbildungX 7→ E[X | Y ] ist P -fast sicher linear und monoton.
(2). SindX undY unabhängig, dann giltE[X | Y ] = E[X] P -fast sicher.
(3). Herausziehen, was bekannt ist:
Für alle f : S → R mit f(Y ) ·X ≥ 0 bzw.f(Y ) ·X ∈ L1 gilt
E[f(Y ) ·X | Y ] = f(Y ) · E[X | Y ] P -fast sicher.
Insbesondere gilt
E[f(Y ) | Y ] = f(Y ) P -fast sicher.
Beweis. (2). SindX undY unabhängig, dann gilt
E[X | Y = z] =E[X · IY=z]
P [Y = z]= E[X]
für alle z ∈ S mit P [Y = z] > 0, alsoE[X | Y ] = E[X] P -fast sicher. Die ebenso
elementaren Beweise von (1) und (3) werden dem Leser als Übungüberlassen.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN 315
Anschaulich können wir die zweite Aussage folgendermaßen interpretieren: SindX undY unab-
hängig, dann liefert die Kenntnis des WertesY (ω) keine zusätzlichen Informationen überX(ω).
Daher ist die besteL2-Prognose fürX(ω) wie im unbedingten Fall durch den Erwartungswert
E[X] gegeben.
Formel von der totalen Wahrscheinlichkeit
Die aus Satz 2.1 bekannte Formel von der totalen Wahrscheinlichkeit können wir mithilfe der
obigen Definition in kompakter Weise schreiben.
Satz 10.2(Formel von der totalen Wahrscheinlichkeit). SeiY : Ω → S eine diskrete Zufalls-
variable mit Verteilungµ(z) = P [Y = z]. Für alle messbarenX : Ω → R+ gilt:
E[X] =∑
z: µ(z) 6=0
E[X | Y = z]µ(z) = E[E[X | Y ]]
Insbesondere gilt
P [A] = E[P [A | Y ]] für alleA ∈ A.
Beweis.WegenΩ =⋃z∈S
Y = z gilt nach dem Transformationssatz
E[X] =∑
z∈SE[X;Y = z] =
∑
z: µ(z) 6=0
E[X;Y = z]
=∑
z: µ(z) 6=0
E[X | Y = z] · µ(z) =∑
z: µ(z) 6=0
g(z) · µ(z)
= E[g(Y )],
wobeig : S → R eine beliebige Funktion mitg(z) = E[X | Y = z] für alle z ∈ S mit µ(z) 6= 0
ist. Die Aussage folgt wegeng(Y ) = E[X | Y ] P -fast sicher.
Bemerkung. FürX ∈ L1(Ω,A, P ) folgt aus der Monotonie der bedingten Erwartung
|E[X | Y ]| ≤ E[|X|∣∣ Y ]
und damit die Ungleichung
E[|E[X | Y ]|] ≤ E[E[|X|
∣∣ Y ]]
= E[|X|].
Die AbbildungX 7→ E[X | Y ] ist also eine Kontraktion aufL1(Ω,A, P ). Die Aussage von Satz
10.2 gilt entsprechend auch fürX ∈ L1.
Universität Bonn Wintersemester 2009/2010
316 KAPITEL 10. BEDINGTE ERWARTUNGEN
Bedingte Varianz
Sei nunX : Ω → R eine bzgl.P integrierbare Zufallsvariable
Definition.
Var[X | Y ] := E[(X − E[X | Y ])2 | Y
]
heißtbedingte VarianzvonX gegebenY .
IstX quadratintegrierbar, dann gelten die folgenden Aussagen:
Lemma 10.3.Für X ∈ L2(Ω,A, P ) gilt:
(1). L2-Kontraktivität: E[∣∣E[X
∣∣ Y ]∣∣2]≤ E[X2].
(2). Var[X | Y ] = E[X2 | Y ]− E[X | Y ]2 P -fast sicher.
Insbesondere folgt fürz ∈ S mit µ(z) 6= 0:
Var[X | Y ] = Var[X | Y = z] aufY = z. (10.1.1)
Beweis. (1). folgt aus Satz 10.2, da für allez ∈ S mit P [Y = z] 6= 0 aufY = z gilt:
|E[X | Y ]|2 = |E[X | Y = z]|2 ≤ E[X2 | Y = z] = E[X2 | Y ].
(2). Nach Lemma 10.1, (1) und (3), ergibt sich dann ähnlich wie für die unbedingte Varianz:
Var[X | Y ] = E[X2 | Y ]− 2 · E[X · E[X | Y ] | Y ] + E[E[X | Y ]2 | Y ]
= E[X2 | Y ]− E[X | Y ]2 P -fast sicher.
Die folgende Zerlegungsformel kann häufig verwendet werden, um Varianzen zu berechnen oder
abzuschätzen:
Satz 10.4(Formel von der bedingten Varianz). Für eine ZufallsvariableX ∈ L2(Ω,A, P )gilt:
Var[X] = E[Var[X | Y ]] + Var[E[X | Y ]]
=∑
z:µ(z) 6=0
Var[X | Y = z] · µ(z) +∑
z:µ(z) 6=0
(E[X | Y = z]− E[X])2 · µ(z).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN 317
Beweis.Es gilt
Var[X] = E[X2]− E[X]2 = E[E[X2 | Y ]]− E[E[X | Y ]]2
= E[E[X2 | Y ]]− E[E[X | Y ]2] + E[E[X | Y ]2]− E[E[X | Y ]]2
= E[Var[X | Y ]] + Var[E[X | Y ]].
Der zweite Teil der Behauptung folgt nun aus (10.1.1) und der entsprechenden Eigenschaft für
die bedingte Erwartung.
Anwendung auf zufällige Summen
Als erste Anwendung betrachten wir eine Summe
SN(ω) :=
N(ω)∑
i=1
Xi(ω)
von unabhängigen, identisch verteilten ZufallsvariablenXi ∈ L1(Ω,A, P ) mit zufälliger Anzahl
N von Summanden. Hierbei seiN : Ω → 0, 1, 2, . . . eine von denXi unabhängige Zufallsva-
riable. Seienm = E[X1] undσ2 = Var[X1]. Wir berechnen nun die verschiedenen Kenngrößen
der Verteilung vonSN .
Berechnung des Erwartungswertes:DaSk undN unabhängig sind, erhalten wir
E[SN |N = k] = E[Sk |N = k] = E[Sk] = k ·m für allek ∈ N,
alsoE[SN |N ] = N ·m, und damit nach Satz 10.2:
E[SN ] = E[E[SN |N ]] = E[N ] ·m.
Berechnung der Varianz:Erneut folgt wegen der Unabhängigkeit vonSk undN :
Var[SN |N = k] = Var[Sk |N = k] = Var[Sk] = k · σ2,
alsoVar[SN |N ] = N · σ2, und damit nach Satz 10.4:
Var[SN ] = E[Var[SN |N ]] + Var[E[SN |N ]] = E[N ] · σ2 +Var[N ] ·m2.
Berechnung der momentenerzeugenden Funktion:Für t ∈ R gilt
MSN(t) = E
[etSN
]= E
[E[etSN | N ]
]= E
[N∏
i=1
E[etXi ]
]
= E[E[etX1 ]N
]= E
[MX1(t)
N]=MN (logMX1(t)) .
Universität Bonn Wintersemester 2009/2010
318 KAPITEL 10. BEDINGTE ERWARTUNGEN
Mithilfe von MSNkann man die Momente der zufälligen SummeSN berechnen:
E[SmN ] = M
(m)SN
(0) für allem ∈ N.
Im Prinzip erhält man die Verteilung vonSN durch Laplace-Inversion, was aber nicht immer
praktikabel ist. Nehmen die ZufallsvariablenXi nur nichtnegative ganzzahlige Werte an, kann
man statt der momentenerzeugenden Funktion die erzeugendeFunktion verwenden, und daraus
die Verteilung berechnen. Wir gehen darauf im folgenden Abschnitt ein.
Charakterisierende Eigenschaften der bedingten Erwartung
Zum Abschluss dieses Abschnitts beweisen´wir eine alternative Charakterisierung der bedingten
Erwartung gegeben eine diskrete ZufallsvariableY : Ω → S, S abzählbar. Diese Charakterisie-
rung werden wir in Abschnitt 10.3 verwenden, um bedingte Erwartungen für allgemeine Bedin-
gungen zu definieren. SeiX : Ω → R+ eine nichtnegative (bzw. integrierbare) Zufallsvariable
auf einem Wahrscheinlichkeitsraum(Ω,A, P ).
Satz 10.5.Eine reellwertige ZufallsvariableX ≥ 0 (bzw.X ∈ L1) auf (Ω,A, P ) ist genau dann
eine Version der bedingten ErwartungE[X | Y ], wenn gilt:
(I) X = g(Y ) für eine Funktiong : S → R, und
(II) E[X · f(Y )
]= E[X · f(Y )] für alle nichtnegativen bzw. beschränkten Funktionen
f : S → R.
Beweis.Ist X eine Version vonE[X | Y ], dann gilt (I). Außerdem folgt nach Lemma 10.1 (3)
und der Formel von der totalen Wahrscheinlichkeit:
E[X · f(Y )
]= E
[E[X∣∣ Y]· f(Y )
]= E
[E[X · f(Y )
∣∣ Y]]
= E[X · f(Y )]
für jede nichtnegative bzw. beschränkte Funktionf : S → R.
Umgekehrt folgt aus (I), dassX = g(z) auf Y = z gilt. Ist außerdem (II) erfüllt, dann folgt
weiter
g(z) = E[X | Y = z
]=
E[X · Iz(Y )
]
P [Y = z]
=E[X · Iz(Y )
]
P [Y = z]= E[X | Y = z]
für alle z ∈ S mit P [Y = z] > 0, d.h.X = g(Y ) ist eine Version der bedingten Erwartung
E[X | Y ].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UNDERNEUERUNGEN 319
In einigen Fällen können die charakterisierenden Eigenschaften direkt überprüft werden, um be-
dingte Erwartungen zu identifizieren:
Beispiel (Summen austauschbarer Zufallsvariablen). SeienX1, X2, . . . , Xn ∈ L1(Ω,A, P )integrierbare Zufallsvariablen, deren gemeinsame Verteilung invariant unter Koordinatenpermu-
tationen ist, d.h.(Xπ(1), Xπ(2), . . . , Xπ(n)) ∼ (X1, X2, . . . , Xn) für alleπ ∈ Sn. Zufallsvariablen
mit dieser Eigenschaft heißenaustauschbar– beispielsweise sind unabhängige identisch verteil-
te Zufallsvariablen austauschbar. Wir zeigen:
E[Xi | Sn] =1
nSn P -fast sicher für allei = 1, . . . , n,
wobeiSn = X1+. . .+Xn. Zum Beweis überprüfen wir, dassX i :=1nSn die Bedingungen (I) und
(II) aus Satz 10.5 fürY = Sn erfüllt. (I) ist offensichtlich. Zudem gilt wegen der Austauschbarkeit
für jede beschränkte messbare Funktionf : R → R:
E[Xi · f(Sn)] = E[Xj · f(Sn)] für alle i, j = 1, . . . , n,
also
E
[1
nSn · f(Sn)
]=
1
n
n∑
j=1
E[Xj · f(Sn)] = E[Xi · f(Sn)]
für alle i = 1, . . . , n, d.h. (II) ist auch erfüllt.
10.2 Erzeugende Funktionen, Verzweigungsprozesse, und Er-
neuerungen
Wir wollen die Methoden aus dem letzten Abschnitt nun verwenden, um Verzweigungs- und
Erneuerungsprozesse zu untersuchen. Ein wichtiges Hilfsmittel sind in beiden Fällen erzeugende
Funktionen:
Erzeugende Funktionen von ganzzahligen Zufallsvariablen
SeiX : Ω → 0, 1, 2, . . . eine auf einem Wahrscheinlichkeitsraum(Ω,A, P ) definierte Zufalls-
variable mit nichtnegativenganzzahligenWerten.
Definition. Die durch
G(s) = E[sX ] =∞∑
k=0
P [X = k]sk, s ∈ [−1, 1],
Universität Bonn Wintersemester 2009/2010
320 KAPITEL 10. BEDINGTE ERWARTUNGEN
definierte Funktion heißterzeugende Funktionder ZufallsvariableX bzw. der Folgeµ(k) =
P [X = k] der Gewichte vonX.
Durch Vergleich mit der geometrischen Reihe sieht man, dass der Konvergenzradius der Potenz-
reihe stets größer oder gleich1 ist. Also ist die erzeugende Funktion analytisch auf(−1, 1), und
es gilt
P [X = k] =G(k)(0)
k!für allek = 0, 1, 2, . . . .
Kennen wir also die erzeugende Funktion explizit, dann können wir die Gewichte der Verteilung
berechnen.
Durch zweimaliges Ableiten zeigt man zudem, dassG monoton und konvex auf[0, 1] ist. Für
s ∈ (0, 1] gilt nach DefinitionG(s) =M(log s). Daher lassen sich aus der erzeugenden Funktion
die Momente vonX berechnen – beispielsweise giltE[X] = G′(1−) (linksseitige Ableitung von
G(s) beis = 1), falls der Erwartungswert endlich ist.
Für die erzeugende Funktion einer SummeX + Y von unabhängigen, nichtnegativen, ganzzah-
ligen ZufallsvariablenX undY gilt offensichtlich
GX+Y (s) = GX(s) ·GY (s) für alles ∈ [−1, 1].
Somit ist die erzeugende Funktion der Faltung
(µ ∗ ν)(k) =k∑
i=0
µ(i)ν(k − i) (k = 0, 1, 2, . . .)
zweier Wahrscheinlichkeitsverteilungenµ undν auf N ∪ 0 das Produkt der einzelnen erzeu-
genden Funktionen.
Erzeugende Funktionen können in verschiedenen Situationen für explizite Berechnungen ver-
wendet werden. Wir demonstrieren dies hier in einigen grundlegenden Beispielen. Viele weite-
re entsprechende Anwendungen finden sich in den Wahrscheinlichkeitstheorie-Lehrbüchern von
Feller und Grimmett/Stirzacker.
Erzeugende Funktionen zufälliger Summen
SindN,X1, X2, . . . : Ω → 0, 1, 2, . . . unabhängige Zufallsvariablen, dann erhalten wir für die
SummeSN =N∑i=1
Xi :
GSN(s) = E[sSN ] = E[E[sSN |N ]] = E[G(s)N ] = GN(G(s)), (10.2.1)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UNDERNEUERUNGEN 321
wobeiG die erzeugende Funktion der SummandenXi ist. Für die Verteilung vonSN ergibt sich
P [SN = k] =1
k!(GN G)(k)(0) für allek ≥ 0.
Beispiel(Ausdünnungseigenschaft von Poissonverteilungen). Ein Huhn lege eine mit Parame-
ter λ > 0 Poissonverteilte AnzahlN von Eiern, von denen aus jedem unabhängig voneinander
und vonN mit Wahrscheinlichkeitp ein Küken schlüpfe. Die erzeugende Funktion der Poisson-
verteilung ist
GN(s) = E[sN ] =∞∑
k=0
sk · λk
k!e−λ = eλ(s−1).
Die Anzahl der geschlüpften Küken istSN =N∑i=1
Xi, wobei dieXi untereinander und vonN
unabhängige, Bernoulli(p)-verteilte Zufallsvariablen sind. Wir erhalten also
GSN(s) = GN(GX1(s)) = GN(1− p+ p · s) = epλ·(s−1),
d.h. die Zahl der geschlüpften Küken ist wieder Poissonverteilt mit Parameterp · λ. Eine ausge-
dünnte Poissonverteilung ist also wieder eine Poissonverteilung!
Galton-Watson-Verzweigungsprozesse
Wir betrachten das folgende Modell für ein zufälliges Populationswachstum: Alle Individuen
der Population erzeugen unabhängig voneinander eine zufällige Anzahl von Nachkommen in
der nächsten Generation mit Verteilungν. Hierbei seiν eine feste Wahrscheinlichkeitsverteilung
auf 0, 1, 2, . . . mit ν[2, 3, . . .] 6= 0. Dieses Modell wurde 1889 von Galton und Watson ein-
geführt, um die Aussterbewahrscheinlichkeit englischer Adelstitel zu untersuchen. Ähnlich wie
beim Random Walk handelt es sich um ein fundamentales stochastisches Modell mit unzähligen
Erweiterungen und Anwendungen, z.B. auf das Wachstum von Zellpopulationen, die Ausbreitung
von Epidemien, die Zunahme der Neutronenzahl in einem Reaktor, oder auch die näherungsweise
Berechnung von genetischen Abständen oder der Anzahl von Zuständen in einem großen zufäl-
ligen Graphen (z.B. dem Internet), die man in einer bestimmten Anzahl von Schritten erreichen
kann. Die Nachkommensstruktur eines einzelnen Individuums bestimmt einen zufälligen verwur-
zelten Baum, s. Grafik 10.1. Dementsprechend spielen Verzweigungsprozesse auch eine zentrale
Rolle bei der Analyse diverser stochastischer Modelle auf Bäumen, s. z.B. [Peres: Probablity on
trees].
Universität Bonn Wintersemester 2009/2010
322 KAPITEL 10. BEDINGTE ERWARTUNGEN
n = 0
n = 1
n = 2
n = 3
...
Z0 = 1
Z1 = 3
Z2 = 3
Z3 = 6
...
b
b
b
b b
b
b b
b
b b b b
Abbildung 10.1: Beispiel für eine Realisierung eines Galton-Watson-Prozesses.
Wir beschreiben die Nachkommenszahlen der einzelnen Individuen in der(n−1)-ten Generation
eines Verzweigungsprozesses durch unabhängige Zufallsvariablen
Nni : Ω → 0, 1, 2, . . ., i, n = 1, 2, . . . ,
mit Verteilungν. Für die Gesamtzahl der Individuen in dern-ten Generation erhalten wir die
folgende rekursive Darstellung:
ZN =
Zn−1∑
i=1
Nni für allen ≥ 1.
Ohne wesentliche Einschränkungen nehmen wirZ0 = 1 an. Enthält die Anfangspopulation statt-
dessen mehrere Individuen, dann erzeugen diese voneinander unabhängige, identisch verteilte
Unterpopulationen. DaZn−1 nur von den ZufallsvariablenNki für k ≤ n− 1 abhängt, sindZn−1
undNni (i ∈ N) unabhängige Zufallsvariablen. Durch Bedingen aufZn−1 erhalten wir für die
mittleren Populationsgrößen die Rekursion
E[Zn] = E[Zn−1] ·m,
wobeim :=∞∑i=1
i · ν(i) die mittlere Nachkommenszahl eines Individuums ist. Wir unterscheiden
die folgenden Fälle:
m > 1 : Exponentielles Wachstum der Erwartungswerte (superkritisch)
m = 1 : Erwartungswerte konstant (kritisch)
m < 1 : Exponentieller Abfall der Erwartungswerte (subkritisch)
Wir wollen nun untersuchen, mit welcher Wahrscheinlichkeit die Population in den einzelnen
Fällen ausstirbt. Nach (10.2.1) gilt für die erzeugenden Funktionen der Populationsgrößen die
Rekursionsformel
GZn(s) = E[s∑Zn−1
i=1 Nni
]= GZn−1(G(s)),
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UNDERNEUERUNGEN 323
wobeiG die erzeugende Funktion der Verteilungν der AnzahlNni der Kinder eines Individuums
ist. Per Induktion folgt wegenGZ1(s) = G(s):
GZn(s) = G(G(. . . G(s) . . .))︸ ︷︷ ︸n−mal
= Gn(s) für allen ∈ N unds ∈ [0, 1].
Für die Wahrscheinlichkeitenπn, dass der Prozess zur Zeitn ausgestorben ist, erhalten wir die
Rekursionsformel
πn = P [Zn = 0] = GZn(0) = Gn(0) = G(πn−1). (10.2.2)
Sei nunπ die Wahrscheinlichkeit, dass die Population in endlicher Zeit ausstirbt. Da die Ereig-
nisseZn = 0 monoton wachsend sind, gilt
π = P
[⋃
n
Zn = 0]
= limn→∞
πn.
DaG auf [0, 1] stetig ist, folgt aus (10.2.2)
π = G(π),
d.h. die Aussterbewahrscheinlichkeitπ ist ein Fixpunkt der erzeugenden Funktion. Wie oben
bemerkt, ist die erzeugende FunktionG : [0, 1] → [0, 1] strikt konvex mitG(1) = 1 und
G′(1−) = E[Nni ] = m. Hieraus folgt, dass1 im Fall m ≤ 1 der einzige Fixpunkt vonG in
[0, 1] ist, während im superkritischen Fallm > 1 ein weiterer Fixpunktπ∗ ∈ [0, 1) existiert, siehe
auch Grafik 10.2. Aus den Skizzen erkennt man zudem, dass die Aussterbewahrscheinlichkeit
π = lim πn der kleinste Fixpunkt vonG auf [0, 1] ist. Also stirbt der Prozess im subkritischen
bzw. kritischen Fall mit Wahrscheinlichkeit 1 aus, währender im superkritischen Fall mit einer
strikt positiven Wahrscheinlichkeit überlebt.
Universität Bonn Wintersemester 2009/2010
324 KAPITEL 10. BEDINGTE ERWARTUNGEN
m ≤ 1
1
1
π0
π1
π1
π2
π2
π3
π3
π4
π4
π5
π5
πn → 1
m > 1
1
1
π0
π1
π1
π2
π2
πn → π∗ < 1
Abbildung 10.2: Erzeugendenfunktionen von Galton-Watson-Prozessen mit unterschiedlichen
Verteilungen für die Anzahl der Nachkommen. In Rot: Fixpunktiteration
Beispiel(Geometrische Nachkommensverteilung). Ist die Verteilung
ν(k) = pk(1− p) (k = 0, 1, 2 . . .)
der Anzahl der Nachkommen eine geometrische Verteilung mitParameterp ∈ (0, 1), dann ergibt
sich
G(s) =∞∑
k=0
skpk(1− p) =1− p
1− psfür alles ∈ [0, 1].
Fixpunkte dieser Funktion sind1 und 1−pp
. Für 1 − p ≥ p (subkritischer Fall) ist1 der einzige
Fixpunkt in [0, 1], also stirbt die PopulationP -fast sicher aus. Im superkritischen Fall1− p < p
beträgt die Aussterbewahrscheinlichkeitπ dagegen nur1−pp
.
Rekurrente Ereignisse und Erneuerungsgleichung
Als weitere Anwendung von erzeugenden Funktionen betrachten wir eine Folge von unvorherseh-
baren Ereignissen, die zu diskreten Zeitpunktenn ∈ N eintreten. Die Ereignisse bezeichnen wir
auch als „Erneuerungen“ (engl. renewals), und denken dabeiz.B. an den wiederholten Ausfall
und Austausch eines Verschleißteils in einer Maschine, oder das wiederholte Abarbeiten einer
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UNDERNEUERUNGEN 325
Warteschlange. Wir beschreiben den Zeitpunkt, an dem diek-te Erneuerung stattfindet, durch
eine Zufallsvariable
Sk = T1 + T2 + . . .+ Tk.
T1 ist also der Zeitpunkt der ersten Erneuerung, und fürk ≥ 2 ist Tk der zeitliche Abstand der
(k−1)-ten und derk-ten Erneuerung. In einem einfachen Modell nehmen wir an, dassT1, T2, . . . :
Ω → N unabhängige Zufallsvariablen sind, und, dassT2, T3, . . . identisch verteilt sind (aber nicht
T1!). Wir wollen nun die Wahrscheinlichkeitenpn der Ereignisse
An = ∃k ∈ N : Sk = n „Erneuerung zur Zeitn“
aus den Verteilungen der Wartezeiten berechnen. Bedingen auf den Wert vonT1 liefert fürn ≥ m:
P [An | T1 = m] = P [∃k ∈ N : T1 + . . .+ Tk = n | T1 = m]
= P [∃k ∈ N : T2 + . . .+ Tk = n−m | T1 = m]
= P [∃k ∈ N : T2 + . . .+ Tk = n−m],
und damit
P [An | T1 = m] = P [An−m+1 | T1 = 1] = P [An−m+1 | A1].
Nach der Formel von der totalen Wahrscheinlichkeit erhalten wir für n ∈ N:
pn =n∑
m=1
qn−m · P [T1 = m] (10.2.3)
mit qn := P [An+1 | A1]. Um die bedingten Wahrscheinlichkeitenqn zu berechnen, bedingen wir
zusätzlich aufT2. DaT2, T3, . . . unabhängig und identisch verteilt sind, gilt fürn ≥ m:
P [An+1 | A1 ∩ T2 = m] = P [∃k ∈ N : T1 + . . .+ Tk = n+ 1 | T1 = 1, T2 = m]
= P [∃k ≥ 2 : T3 + . . .+ Tk = n−m | T1 = 1, T2 = m]
= P [∃k ≥ 2 : T3 + . . .+ Tk = n−m]
= P [∃k ≥ 2 : T2 + . . .+ Tk−1 = n−m]
= P [An−m+1 | A1] = qn−m.
Wegen
qn = P [An+1 | A1] =n∑
m=1
P [An+1 | A1 ∩ T2 = m] · P [T2 = m]
Universität Bonn Wintersemester 2009/2010
326 KAPITEL 10. BEDINGTE ERWARTUNGEN
erhalten wir
qn =n∑
m=1
qn−m · P [T2 = m] für allen ≥ 1. (10.2.4)
Die Gleichungen (10.2.3) und (10.2.4) heißenErneuerungsgleichungen. Auf den rechten Sei-
ten dieser Gleichungen stehen (wegenT1, T2 ≥ 1) die Faltungen der Folgeqn, n ∈ N, mit der
Folge der Gewichte der WartezeitenT1 bzw.T2. Daher ist es zweckmäßig, zu den erzeugenden
Funktionen
Gp(s) =∞∑
n=1
pnsn
und
Gq(s) =∞∑
n=0
qnsn
überzugehen. Für|s| < 1 erhalten wir aus (10.2.3)
Gp(s) = Gq(s) ·GT1(s).
Aus (10.2.4) ergibt sich, da die rechte Seite fürn = 0 verschwindet:
Gq(s)− 1 =∞∑
n=1
qnsn = Gq(s) ·GT2(s).
Es folgtGq(s) = (1−GT2(s))−1, und damit
Gp(s) =GT1(s)
1−GT2(s). (10.2.5)
(10.2.5) liefert den gesuchten Zusammenhang zwischen der Verteilung der Wartezeiten, und den
Wahrscheinlichkeitenpn, dass zur Zeitn eine Erneuerung stattfindet.
Sei nun die Verteilung der LebensdauernT2, T3, . . . vorgegeben. Dann können wir untersuchen,
welche Verteilung die AnfangswartezeitT1 haben muss, damit die Wahrscheinlichkeitenpn nicht
vonn abhängen (Stationarität). Fürα ∈ [0, 1] gilt pn = α für allen ∈ N genau dann, wenn
Gp(s) =∞∑
n=1
pnsn =
α
1− sfür alles ∈ (−1, 1),
d.h. wenn
GT1(s) = α · 1−GT2(s)
1− sfür alles ∈ (−1, 1). (10.2.6)
DaGT1 undGT2 erzeugende Funktionen von Wahrscheinlichkeitsverteilungen sind, muss dann
gelten:
1 = GT1(1) = lims↑1
GT1(s)
= α lims↑1
GT2(s)− 1
s− 1= αG′
T2(1−)
= α · E[T2].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 327
Also mussT2 endlichen Erwartungswert haben, und
α = 1/E[T2] (10.2.7)
gelten. Dies ist auch anschaulich plausibel: Im stationären Fall ist die Erneuerungswahrschein-
lichkeit zu einem festen Zeitpunkt der Kehrwert des mittleren zeitlichen Abstandes zwischen
zwei Erneuerungen. Gilt (10.2.7), dann ergibt sich aus (10.2.6) durch Koeffizientenvergleich:
P [T1 = n] = α ·(1−
n∑
k=1
P [T2 = k]
)=
P [T2 > n]
E[T2]. (10.2.8)
Die Folgepn der Erneuerungswahrscheinlichkeiten ist also genau dann konstant, wenn die Ver-
teilung vonT1 durch (10.2.8) gegeben ist („stationärer Erneuerungsprozess“). Weiter kann man
ausgehend von (10.2.6) zeigen, dass fürbeliebigeVerteilungen der ersten Erneuerungszeit die
Wahrscheinlichkeitenpn für n → ∞ gegen1/E[T2] konvergieren („asymptotische Stationari-
tät“), falls der Erwartungswert endlich ist und keinePeriodizitätauftritt, d.h.
ggT(n|P [T2 = n] > 0) = 1.
Den Beweis diesesErneuerungssatzesüber erzeugende Funktionen findet man im Klassiker von
W.Feller (An Introduction to Probability Theory and its Applications, Vol. 1).
10.3 Bedingen auf allgemeine Zufallsvariablen
IstY eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum(Ω,A, P ) mit stetiger
Verteilungsfunktion, dann giltP [Y = z] = 0 für alle z ∈ R. Bedingte Wahrscheinlichkeiten
gegebenY = z können daher nicht wie für diskrete Zufallsvariablen definiert werden. Alternativ
könnte man versuchen, bedingte Wahrscheinlichkeiten gegebenY als Grenzwert zu definieren:
P [A | Y = z] = limhց0
P [A | z − h ≤ Y ≤ z + h]. (10.3.1)
Dies ist in bestimmten Fällen möglich, aber im allgemeinen ist die Existenz des Grenzwertes
nicht gewährleistet.
Stattdessen definiert man bedingte Erwartungen gegeben allgemeine ZufallsvariablenY mithilfe
der Charakterisierung aus Satz 10.5. Bedingte Wahrscheinlichkeiten gegebenY erhält man als
Spezialfall bedingter Erwartungen:
P [A | Y ] := E[IA | Y ]. (10.3.2)
Universität Bonn Wintersemester 2009/2010
328 KAPITEL 10. BEDINGTE ERWARTUNGEN
Bedingte Wahrscheinlichkeiten wie in (10.3.1) sind im Allgemeinen nicht im herkömmlichen
Sinn definiert. Es ist allerdings ausgehend von (10.3.1) allgemein möglich, für ein festes Ereignis
A die Abbildungz 7→ P [A | Y = z] bis auf Modifikation auf Nullmengen bzgl. der Verteilung
vonY zu definieren.
Das Faktorisierungslemma
Wir beweisen zunächst eine wichtige maßtheoretische Aussage. Diese wird es uns unter Anderem
ermöglichen, die charakterisierenden Eigenschaften bedingter Erwartungen aus Satz 10.5 noch
etwas eleganter zu formulieren:
Satz 10.6(Faktorisierungslemma). Sei(S,S) ein messbarer Raum undY : Ω → S eine Abbil-
dung. Eine AbbildungX : Ω → R ist genau dannσ(Y )-messbar, wenn
X = f(Y ) = f Y
für eineS-messbare Funktionf : S → R gilt.
(Ω, σ(Y )) (S,S) (R,B(R))Y
X
Beweis. (1). IstX = f Y für eine messbare Funktionf , dann gilt
X−1(B) = Y −1(f−1(B)) ∈ σ(Y ) für alleB ∈ B(R),
daf−1(B) ∈ S. Daher istX σ(Y )-messbar.
(2). Für die umgekehrte Richtung müssen wir zeigen, dass aus der σ(Y )-Messbarkeit vonX
folgt, dassX eine messbare Funktion vonY ist. Dazu gehen wir schrittweise vor („maß-
theoretische Induktion“):
(a) IstX = IA eine Indikatorfunktion mitA ∈ σ(Y ), dann giltA = Y −1(B) mit B ∈ S,
und damit
X(ω) = IY −1(B)(ω) = IB(Y (ω)) für alleω ∈ Ω.
(b) FürX =∑n
i=1 ciIAimit Ai ∈ σ(Y ) undci ∈ R gilt entsprechend
X =n∑
i=1
ciIBi(Y ),
wobeiBi Mengen ausS mit Ai = Y −1(Bi) sind.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 329
(c) Für eine beliebige nichtnegative,σ(Y )-messbare AbbildungX : Ω → R existiert
eine Folge(Xn) von σ(Y )-messbaren Elementarfunktionen mitXn ր X. Nach (b)
gilt Xn = fn(Y ) mit S-messbaren Funktionenfn. Damit folgt:
X = supXn = sup fn(Y ) = f(Y ),
wobeif = sup fn wiederS-messbar ist.
(d) Für eine allgemeineσ(Y )-messbare AbbildungX : Ω → R sind sowohlX+ als auch
X− messbare Funktionen vonY , also auchX selbst.
Mithilfe des Faktorisierungslemmas können wir diecharakterisierenden Eigenschaften(I) und
(II) bedingter Erwartungen gegeben eine diskrete ZufallsvariableY aus Satz 10.5 wie folgt um-
formulieren:
X ist genau dann eine Version vonE[X | Y ], wenn gilt:
(i) X ist σ(Y )-messbar,
(ii) E[X ; A] = E[X ; A] für alleA ∈ σ(Y ).
Die Äquivalenz von (I) und (i) folgt aus dem Faktorisierungslemma, und die Äquivalenz von (II)
und (ii) ergibt sich durch maßtheoretische Induktion, denn(ii) besagt gerade, dass
E[X · IB(Y )] = E[X · IB(Y )] für alleB ∈ S gilt.
Definition allgemeiner bedingter Erwartungen
Eine bemerkenswerte Konsequenz der Charakterisierung bedingter Erwartungen durch die Be-
dingungen (i) und (ii) ist, dass diebedingte ErwartungE[X | Y ] von der ZufallsvariablenY nur
über die vonY erzeugteσ-Algebraσ(Y ) abhängt!Sind zwei ZufallsvariablenY undZ Funk-
tionen voneinander, dann istσ(Y ) = σ(Z), und damit stimmen auch die bedingten Erwartungen
E[X | Y ] und E[X | Z] überein (mit Wahrscheinlichkeit 1). Daher liegt es nahe, gleich von
der bedingten Erwartung gegeben eineσ-Algebra zu sprechen. Dieσ-Algebra (z.B.σ(Y ) oder
σ(Y1, . . . , Yn)) beschreibt dann die zur Verfügung stehende „Information“, auf die bedingt wird.
Die Charakterisierung bedingter Erwartungen durch (i) und (ii) können wir sofort auf den Fall
allgemeiner bedingter Erwartungen gegeben eineσ-Algebra oder gegeben beliebige Zufallsva-
riablen übertragen. Sei dazuX : Ω → R eine nichtnegative (oder integrierbare) Zufallsvariable
auf einem Wahrscheinlichkeitsraum(Ω,A, P ).
Universität Bonn Wintersemester 2009/2010
330 KAPITEL 10. BEDINGTE ERWARTUNGEN
Definition (Bedingte Erwartung, allgemein). (1). SeiF ⊆ A eine σ-Algebra. Eine nicht-
negative (bzw. integrierbare) ZufallsvariableX : Ω → R heißt Version der bedingten
ErwartungE[X | F ], falls gilt:
(a) X ist F-messbar, und
(b) E[X ; A] = E[X ; A] für alleA ∈ F .
(2). Für beliebige ZufallsvariablenY, Y1, Y2, . . . , Yn auf (Ω,A, P ) definieren wir
E[X | Y ] := E[X | σ(Y )],
E[X | Y1, . . . Yn] := E[X | (Y1, . . . , Yn)] = E[X | σ(Y1, . . . , Yn)].
(3). Für ein EreignisA ∈ A definieren wir
P [A | F ] := E[IA | F ], und entsprechend P [A | Y ] = E[A | Y ].
Bemerkung. Durch maßtheoretische Induktion zeigt man, dass Bedingung (b) äquivalent ist zu:
(b’) E[X · Z] = E[X · Z] für alle nichtnegativen (bzw. beschränkten)F-messbarenZ :
Ω → R.
Satz 10.7(Existenz und Eindeutigkeit der bedingten Erwartung). SeiX ≥ 0 oderX ∈ L1,
undF ⊆ A eineσ-Algebra. Dann gilt
(1). Es existiert eine Version der bedingten ErwartungE[X | F ].
(2). Zwei Versionen stimmenP -fast sicher überein.
Beweis.Die Existenz kann man unmittelbar aus dem Satz von Radon-Nikodym folgern, s. z.B.
[A.Klenke, Wahrscheinlichkeitstheorie]. Wir geben stattdessen am Ende von Abschnitt 10.4 einen
Existenzbeweis, der mit elementaren Methoden auskommt.
Zum Beweis der Eindeutigkeit seienX undX zwei Versionen der bedingten ErwartungE[X |F ].
Dann sindX undX beideF-messbar, und
E[X ; A] = E[X ; A] für alleA ∈ F .
Hieraus folgtX = X P -fast sicher.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 331
Bemerkung (Probleme mit Ausnahmemengen). Man beachte, dass die bedingte Erwartung
E[X | F ] und damit auch die bedingte WahrscheinlichkeitP [A | F ] nur für jedefesteZufalls-
variableX bzw. jedesfesteEreignisA bis auf Modifikation auf Nullmengen eindeutig definiert
sind. Ein weiteres Problem ist, dass wir allgemein zwar bedingte Erwartungen gegeben eine Zu-
fallsvariableY definieren können, aber nicht solche gegeben das EreignisY = z für festesz. In
vielen Fällen kann man die beschriebenen Probleme durch Auswahl einer „regulären Version der
bedingten Verteilung gegebenY “ umgehen. Wir kommen darauf in Korollar 10.9 zurück.
Bemerkung (E[X |Y = z]). ObwohlE[X | Y = z] für ein festesz im Allgemeinen nicht defi-
niert ist, kann man die Funktionz 7→ E[X | Y = z] bis auf Modifikation auf Nullmengen bzgl.
der Verteilung vonY sinnvoll definieren: IstY : Ω → S eine Zufallsvariable mit Werten in einem
messbaren Raum(S,S), dann ist jede Version der bedingten ErwartungE[X |Y ] nach Definition
σ(Y )-messbar. Also gilt nach dem Faktorisierungslemma:
E[X | Y ] = g(Y ) für eine messbare Funktiong : S → R. (10.3.3)
Da die Versionen der bedingten Erwartung bis auf Modifikation auf P -Nullmengen eindeutig
festgelegt sind, ist die Funktiong bis auf Modifikation aufµY -Nullmengen eindeutig festgelegt.
In Anlehnung an den diskreten Fall setzt man manchmal:
E[X | Y = z] := g(z). (10.3.4)
Genauer definieren wir für eine nichtnegative ZufallsvariableX:
Definition. Eine messbare Funktiong : S → R+ heißtVersion der bedingten Erwartungz 7→E[X | Y = z] vonX gegebenY = z, wenn gilt:
E[X ; Y ∈ B] =
∫
B
g(z)µY (dz) für alleB ∈ S. (10.3.5)
Die charakterisierende Bedingung (10.3.5) ist nichts anderes als eine allgemeine Variante der
Formel von der totalen Wahrscheinlichkeit. Mithilfe des Transformationssatzes sieht man, dassg
genau dann (10.2.3) erfüllt, wenng(Y ) eine Version vonE[X | Y ] ist.
WARNUNG: Bei der Definition ist zu beachten, dassE[X | Y = z] für ein festesz im Allgemei-
nen nicht definiert ist, sondern nur die Funktionz 7→ E[X | Y = z] modulo Modifikation auf
µY -Nullmengen! Das formale Rechnen mit bedingten Erwartungenwir in (10.3.4) ist daher eine
häufige Fehlerquelle.
Universität Bonn Wintersemester 2009/2010
332 KAPITEL 10. BEDINGTE ERWARTUNGEN
Trotz dieser Gefahren ist die NotationE[X | Y = z] oft nützlich, um Argumentationen transpa-
renter zu machen, oder um anschauliche Überlegungen in mathematische Formeln zu übersetzen.
Wir werden sie daher auch hier gelegentlich verwenden.
Diskreter und absolutstetiger Fall
In einigen Fällen kann man die Definition direkt anwenden, umbedingte Erwartungswerte zu
berechnen. Wir betrachten zunächst noch einmal den Spezialfall einediskreten Bedingung:
Gilt F = σ(Hi|i ∈ N) für eine disjunkte ZerlegungΩ =⋃i∈NHi in abzählbar viele messbare
Teilmengen („Hypothesen“)Hi ∈ A, dann sindF-messbare Zufallsvariablen konstant auf jeder
der MengenHi. Aus der Definition der bedingten Erwartung folgt dann
E[X | F ] = E[X |Hi] aufHi
für alle i ∈ N mit P [Hi] > 0.
Beispiel(Unbedingte Erwartungen). Die bedingte Erwartung einer ZufallsvariableX gegeben
die trivialeσ-Algebra∅,Ω ist der Erwartungswert vonX.
Beispiel(Bedingen auf eine Partition). Ist P = U[0,1) die Gleichverteilung auf[0, 1), undF =
σ([ti−1, ti)|i = 1, . . . , n) die von einer Partition0 = t0 < t1 < t2 < . . . < tn = 1 erzeugte
σ-Algebra, denn ist die bedingte ErwartungE[g |F ] einer integrierbaren Funktiong : [0, 1) → R
die durch
E[g | F ] =1
ti − ti−1
ti∫
ti−1
g(u) du auf [ti−1, ti)
definierte Funktion.
H1 H2 H3 H4 H51
Abbildung 10.3: Die Funktiong(ω) ist hier blau dargestellt undE[g|F ] in rot.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 333
Ist die gemeinsame Verteilung aller relevanten Zufallsvariablen absolutstetig, dann kann man
bedingte Erwartungen mithilfe von bedingten Dichten berechnen:
Satz 10.8(Berechnung bedingter Erwartungen im absolutstetigen Fall). SeienX : Ω →Rn und Y : Ω → Rm Zufallsvariablen auf einem Wahrscheinlichkeitsraum(Ω,A, P ), deren
gemeinsame VerteilungµX,Y absolutstetig ist, und seih : Rn × Rm → [0,∞] messbar. Dann ist
E[h(X, Y ) | Y ](ω) =
∫
Rn
h(x, Y (ω))fX|Y (x|Y (ω)) dx (10.3.6)
eine Version der bedingten Erwartung vonh(X, Y ) gegebenY .
Beweis.Nach dem Satz von Fubini ist die rechte Seite von (10.3.6) eine messbare Funktion von
Y (ω), und es gilt
E
[g(Y ) ·
∫h(x, Y )fX|Y (x|Y ) dx
]=
∫ ∫g(y)h(x, y)fX|Y (x|y)fY (y) dx dy
= E[g(Y )h(X, Y )]
für jede messbare Funktiong : Rm → [0,∞].
Mit der Notation aus (10.3.4) lautet die Aussage des Satzes:
E[h(X, Y )|Y = z] =
∫
Rn
h(x, z)fX|Y (x|z) dx für µY -fast allez ∈ S.
Um die bedingte Erwartung zu berechnen, müssen wir also den uns bekannten Wert vonY ein-
setzen, und die Funktion bzgl. der bedingten DichtefX|Y nachx integrieren.
Beispiel(Bedingen auf eine Koordinate). IstP = UΩ die Gleichverteilung auf einer beschränk-
ten, messbaren MengeΩ ⊆ R2, und ist
Y : Ω → R, Y (x, y) = y,
die Projektion auf die zweite Komponente, dann gilt
E[h|Y ](x, y) =1
λ(Ωy)
∫
Ωy
h(x, y) dx P -fast sicher (10.3.7)
für jede integrierbare Funktionh : Ω → R. Hierbei istΩy = x ∈ R|(x, y) ∈ R dery-Schnitt
vonΩ. Bedingen aufY entspricht hier also dem normierten „Herausintegrieren“ der komplemen-
tären Koordinatex.
Universität Bonn Wintersemester 2009/2010
334 KAPITEL 10. BEDINGTE ERWARTUNGEN
yΩy
Ω ⊆ R2
Abbildung 10.4: In Rot: Dery-Schnitt der MengeΩ.
Reguläre bedingte Verteilungen
Beim Bedingen auf diskrete Zufallsvariablen konnten wir bedingte Wahrscheinlichkeitsverteilun-
gen auf elementare Weise definieren. Für allgemeine Zufallsvariablen sind die bedingten Wahr-
scheinlichkeiten
P [X ∈ B | Y ] = E[IB(X) | Y ]
für jede feste messbare MengeB nur bis auf Modifikation aufP -Nullmengen eindeutig definiert.
Dies ist ein Nachteil, da die Ausnahmemenge vonB abhängen kann, und im Allgemeinen über-
abzählbar viele messbare Mengen existieren. Die bedingte Verteilung vonX gegebenY ist daher
zunächst nicht definiert. Im absolutstetigen Fall können wir das Problem umgehen, indem wir die
über die bedingte Dichte gegebene Version
µX|Y (y, dx) := fX|Y (x|y)dx
der bedingten Verteilung verwenden. Aus Satz 10.8 folgt unmittelbar, dass wir bedingte Wahr-
scheinlichkeiten gegebenY ausµX|Y berechnen können:
Korollar 10.9. Ist die gemeinsame Verteilung der ZufallsvariablenX : Ω → Rn undY : Ω →Rm absolutstetig, dann istµX|Y einereguläre Version der bedingten Verteilung vonX gegeben
Y , d.h.
(1). µX|Y ist ein stochastischer Kern vonRm nachRn.
(2). Für jedesB ∈ B(Rn) ist
P [X ∈ B | Y ] = µX|Y (Y,B)
eine Version der bedingten Wahrscheinlichkeit vonX ∈ B gegebenY .
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 335
Bemerkung (Existenz von regulären Versionen bedingter Verteilungen). Die Existenz von
regulären Versionen von bedingten Verteilungen gegeben eine ZufallsvariableY kann man all-
gemein beweisen, wennY Werte in einem vollständigen, separablen, metrischen Raum (kurz:
polnischen Raum) annimmt, siehe z.B. [Breiman, Ch. 4.3.]. Eine explizite Berechnung über be-
dingte Dichten ist natürlich im Allgemeinen nicht möglich.
Wenn wir uns auf eine bestimmte reguläre VersionµX|Y festlegen, dann können wir die bedingten
WahrscheinlichkeitenP [X ∈ B|Y = z] durch
P [X ∈ B | Y = z] = µX|Y (z, B)
für alle z ∈ S definieren. Die Festlegung auf eine bestimmte reguläre Version der bedingten
Verteilung ist im Allgemeinen willkürlich. Manchmal gibt es aber eine kanonische Version, die
sich auszeichnet. Dies ist zum Beispiel der Fall, wenn die Dichte der gemeinsamen Verteilung
vonX undY eine stetige Version hat.
Beispiel(Bivariate Normalverteilung ). Ist (X, Y ) bivariat normalverteilt mit Mittel(0, 0) und
Kovarianzmatrix
(1
1
), ∈ (−1, 1), dann gilt
fX,Y (x, y) =1
2π√
1− 2· exp
(−x
2 − 2xy + y2
2(1− 2)
).
Für ein festesx ∈ R folgt
fY |X(y|x) ∝ fX,Y (x, y) ∝ exp
(−(y − x)2
2(1− 2)
)
als Funktion vony. Also ist
µY |X(x, •) = N(x, 1− 2)
eine kanonische reguläre Version der bedingten VerteilungvonY gegebenX.
Universität Bonn Wintersemester 2009/2010
336 KAPITEL 10. BEDINGTE ERWARTUNGEN
x
y
z
x0
x2
x1
Abbildung 10.5: Die DichtefX,Y (x, y) und in Blau, Grün und MagentafY |X(y|xi) für i ∈0, 1, 2. Man beachte, dassfY |X(y|xi) ∝ fX,Y (xi, y) als Funktion vony.
Beispiel(Grenzen naiven Bedingens). Sei(X, Y ) gleichverteilt auf dem Viertelkreis
S = (x, y) ∈ R2|x > 0, y > 0, x2 + y2 < 1.
Wir versuchen auf zwei Arten eine „bedingte Verteilung vonX gegebenX = Y “ zu berechnen.
Dazu betrachten wir die ZufallsvariablenV = Y −X undW = Y/X. WegenfX,Y ∝ IS erhalten
wir mithilfe des Dichtetransformationssatzes für fast jedesv:
fX|V (x|v) ∝ fX,V (x, v) = fX,Y (x, v + x) ·∣∣∣∣det
∂(x, v + x)
∂(x, v)
∣∣∣∣∝ IS(x, v + x),
wobei „∝“ für „proportional als Funktion vonx“ steht. Wählen wir die normierte rechte Seite als
kanonische Version der bedingten Dichte, so ergibt sich
fX|V (x|0) ∝ IS(x, x) = I(0,1/√2)(x).
GegebenY −X = 0 istX also gleichverteilt auf(0, 1/√2).
Andererseits erhalten wir für fast jedesw:
fX|W (x|w) ∝ fX,W (x, w) = fX,W (x, wx) ·∣∣∣∣det
∂(x, wx)
∂(x, w)
∣∣∣∣∝ IS(x, wx) · x.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 337
Wählen wir wieder die rechte Seite als kanonische Version, soergibt sich
fX|W (x|1) ∝ x · IS(x, x) = x · I(0,1/√2)(x).
Die bedingte Verteilung vonX gegebenY/X = 1 unterscheidet sich also von der bedingten
Verteilung vonX gegebenY − X = 0. Bedingte Wahrscheinlichkeiten gegebenX = Y sind
daher nicht wohldefiniert!
Eine anschauliche Erklärung für das Phänomen ist, dass wir in den beiden Fällen oben auf un-
terschiedliche infinitesimale Umgebungen der Diagonale(x, y) ∈ S|x = y bedingen, wie die
folgende Grafik veranschaulicht:
(x, y) ∈ S :
∣∣∣∣x
y− 1
∣∣∣∣ < δ
(x, y) ∈ S : |y − x| < δ
Abbildung 10.6: Zwei verschiedene Arten die Diagonale zu approximieren.
10.4 Rechnen mit bedingten Erwartungen; Poissonprozess
In vielen Fällen tritt eine Kombination bedingter Erwartungen bezüglich verschiedener Zufalls-
variablen und/oderσ-Algebren auf. Die bedingten Erwartungswerte können dann meist nicht
unmittelbar berechnet werden, lassen sich aber mithilfe grundlegender Eigenschaften und Re-
chenregeln schrittweise umformen und ggf. vereinfachen. Wir leiten nun aus der Definition ei-
nige fundamentale Eigenschaften bedingter Erwartungen her, die wir in diesem Zusammenhang
häufig verwenden werden.
Als eine erste Anwendung untersuchen wir zeitliche und räumliche Poissonprozesse. Zeitliche
Poissonprozesse sind die einfachsten Beispiele von zeitstetigen stochastischen Prozessen mit
stationären unabhängigen Inkrementen, bzw. von zeitstetigen Markovketten. Räumliche Pois-
sonprozesse (Poissonsche Punktprozesse) sind grundlegende Modelle für zufällige Punktmen-
gen. Beide Arten von Prozessen spielen in etlichen Anwendungsbereichen eine wichtige Rolle
Universität Bonn Wintersemester 2009/2010
338 KAPITEL 10. BEDINGTE ERWARTUNGEN
(z.B. Warteschlangen, Versicherungsmathematik, Materialwissenschaften, stochastische Geome-
trie etc.), und bilden die Basis für die Konstruktion vieler komplexerer stochastischer Modelle.
Eigenschaften der bedingten Erwartung
Wir leiten zunächst aus der Definition einige fundamentale Eigenschaften der bedingten Erwar-
tung her, die wir häufig bei der Berechnung bedingter Erwartungswerte verwenden werden:
Satz 10.10.SeienX, Y undXn (n ∈ N) nichtnegative oder integrierbare Zufallsvariablen auf
(Ω,A, P ), und seienF ,G ⊆ A σ-Algebren.
Es gelten folgende Aussagen:
(1). Linearität:E[λX +µY | F ] = λE[X | F ] +µE[Y | F ] P -fast sicher für alleλ, µ ∈ R.
(2). Monotonie: AusX ≥ 0 P -fast sicher folgtE[X | F ] ≥ 0 P -fast sicher.
(3). AusX = Y P -fast sicher folgtE[X | F ] = E[Y | F ] P -fast sicher.
(4). Monotone Konvergenz: Ist(Xn) monoton wachsend mitX1 ≥ 0, dann gilt
E[supXn | F ] = supE[Xn | F ] P -fast sicher.
(5). Projektivität / Tower Property: IstG ⊆ F , dann gilt
E[E[X | F ] | G] = E[X | G] P -fast sicher.
Insbesondere:
E[E[X | Y, Z] | Y ] = E[X|Y ] P -fast sicher.
(6). Herausziehen, was bekannt ist: SeiY F-messbar mitY ·X ∈ L1 bzw.≥ 0. Dann gilt
E[Y ·X | F ] = Y · E[X | F ] P -fast sicher.
(7). Unabhängigkeit: IstX unabhängig vonF , dann giltE[X | F ] = E[X] P -fast sicher.
(8). Seien(S,S) und (T, T ) messbare Räume. IstY : Ω → S F-messbar, undX : Ω → T
unabhängig vonF , undf : S × T → [0,∞) eine produktmessbare Abbildung, dann gilt
E[f(X, Y ) | F ](ω) = E[f(X, Y (ω))] für P -fast alleω.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 339
Beweis. (1). Aus der Linearität des Erwartungswertes folgt, dassλE[X | F ] + µE[Y | F ] eine
Version der bedingten ErwartungE[λX + µY | F ] ist.
(2). SeiX eine Version vonE[X | F ]. AusX ≥ 0 P -fast sicher folgt wegenX < 0 ∈ F :
E[X ; X < 0] = E[X ; X < 0] ≥ 0,
und damitX ≥ 0 P -fast sicher.
(3). Dies folgt unmittelbar aus (1) und (2).
(4). IstXn ≥ 0 und monoton wachsend, dann istsupE[Xn | F ] eine nichtnegativeF-messbare
Zufallsvariable (mit Werten in[0,∞]), und nach dem „klassischen “ Satz von der monoto-
nen Konvergenz (siehe Satz 6.6) gilt:
E[supE[Xn | F ] · Z] = supE[E[Xn | F ] · Z] = supE[Xn · Z] = E[supXn · Z]
für jede nichtnegativeF-messbare ZufallsvariableZ. Also ist supE[Xn | F ] eine Version
der bedingten Erwartung vonsupXn gegebenF .
(5). Wir zeigen, dass jede Version vonE[X | G] auch eine Version vonE[E[X | F ] | G] ist, also
die Eigenschaften (i) und (ii) aus der Definition der bedingten Erwartung erfüllt:
(i) E[X | G] ist nach DefinitionG-messbar.
(ii) FürA ∈ G gilt auchA ∈ F , und somitE[E[X |G]; A] = E[X ; A] = E[E[X |F ]; A].
(6) und (7). Auf ähnliche Weise verifiziert man, dass die Zufallsvariablen, die auf der rechten Seite der
Gleichungen in (6) und (7) stehen, die definierenden Eigenschaften der bedingten Erwar-
tungen auf der linken Seite erfüllen (Übung).
(8). Dies folgt aus (6) und (7) in drei Schritten:
(a) Gilt f(x, y) = g(x) · h(y) mit messbaren Funktioneng, h ≥ 0, dann folgt nach (6)
und (7)P -fast sicher:
E[f(X, Y ) | F ] = E[g(X) · h(Y ) | F ] = h(Y ) · E[g(X)|F ]
= h(Y ) · E[g(X)],
und somit
E[f(X, Y ) | F ](ω) = E[g(X) · h(Y (ω))] = E[f(X, Y (ω))] für P -fast alleω.
Universität Bonn Wintersemester 2009/2010
340 KAPITEL 10. BEDINGTE ERWARTUNGEN
(b) Um die Behauptung für Indikatorfunktionenf(x, y) = IB(x, y) von produktmessba-
ren MengenB zu zeigen, betrachten wir das Mengensystem
D = B ∈ S ⊗ T | Behauptung gilt fürf = IB.
D ist ein Dynkinsystem, das nach (a) alle ProdukteB = B1 × B2 mit B1 ∈ S und
B2 ∈ T enthält. Also gilt auch
D ⊇ σ(B1 ×B2 |B1 ∈ S, B2 ∈ T ) = S ⊗ T .
(c) Für beliebige produktmessbare Funktionenf : S × T → R+ folgt die Behauptung
nun durch maßtheoretische Induktion.
Bemerkung (Konvergenzsätze für bedingte Erwartungen). Aus dem Satz von der monoto-
nen Konvergenz (Eigenschaft (4)) folgen auch Versionen desLemmas von Fatou und des Satzes
von der dominierten Konvergenz für bedingte Erwartungen. Der Beweis verläuft ähnlich wie im
unbedingten Fall (Übung).
Die letzte Eigenschaft aus Satz 10.10 ist oft sehr nützlich.Für unabhängige ZufallsvariablenX
undY ergibt sich insbesondere
E[f(X, Y ) | Y ](ω) = E[f(X, Y (ω))] für P -fast alleω, (10.4.1)
d.h.
E[f(X, Y ) | Y = z] = E[f(X, z)] für µY -fast allez. (10.4.2)
Die Unabhängigkeit vonX undY ist wesentlich für (10.4.1) bzw. (10.4.2):
Beispiel. Ist Y = X, dann gilt offensichtlich
E[X · Y | Y = z] = E[Y 2 | Y = z] = z2 für µY -fast allez, aber
E[X · z] = z · E[X] = z · E[Y ].
Das Anwenden der Formeln (10.4.1) und (10.4.2) ohne dass Unabhängigkeit vorliegt ist ein sehr
häufiger Fehler beim Rechnen mit bedingten Erwartungen!
Beispiel(Summen von Wartezeiten). Für eine exponential-verteilte Zufallsvariable gilt
P [T > t+ h|T > t] = P [T > h] für alle t ≥ 0 undh ∈ R.
Durch Bedingen können wir diese Aussage deutlich verallgemeinern:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 341
Lemma 10.11(Erweiterte Gedächtnislosigkeit). SindT undR unabhängige nichtnegative Zu-
fallsvariablen, und istT exponentialverteilt, dann gilt
P [T +R > t+ h | T > t] = P [T +R > h] für alle t ≥ 0 undh ∈ R.
Beweis.Durch Bedingen aufR erhalten wir nach (10.4.2) fürt ≥ 0:
P [T +R > t+ h undT > t | R = r](∗)= P [T + r > t+ h undT > t]
= P [T > t+ h− r | T > t] · P [T > t]
= P [T > h− r] · P [T > t]
für fast aller > 0, also
P [T +R > t+ h undT > t] =
∫P [T +R > t+ h, T > t |R = r] µR(dr)
=
∫P [T > h− r] µR(dr) · P [T > t]
(∗∗)= P [T +R > h] · P [T > t].
Hierbei haben wir in(∗) und(∗∗) wesentlich benutzt, dassT undR unabhängig sind.
Das Lemma zeigt, dass für Summen von unabhängigen Wartezeiten eine Gedächtnislosigkeits-
eigenschaft gilt, sofern der erste Summand exponentialverteilt ist. Diese Tatsache ist von grund-
legender Bedeutung um nachzuweisen, dass die zukünftige Weiterentwicklung von zeitstetigen
Markovketten nicht vom Verlauf in der Vergangenheit, sondern nur vom gegenwärtigen Zustand
abhängt. Wir betrachten zunächst exemplarisch den einfachsten Fall einer solchen zeitstetigen
Markovkette - den Poissonprozess.
Poissonprozesse
Ein Poissonprozess mit Intensitätλ > 0 ist ein zeitstetiger stochastischer Prozess, d.h. eine Kol-
lektionNt, t ∈ [0,∞), von Zufallsvariablen auf einem Wahrscheinlichkeitsraum(Ω,A, P ), mit
nichtnegativen ganzzahligen Werten. Der Prozess wartet jeweils eineExp(λ)-verteilte Zeit ab,
und springt dann um eine Einheit nach oben. Naheliegende Anwendungen sind z.B. die Model-
lierung einer Warteschlange, oder der Anzahl der bei einer Versicherung auflaufenden Schadens-
fälle.
Um einen Poissonprozess zu konstruieren, wählen wir unabhängige exponentialverteilte Zufalls-
variablenT1, T2, . . . ≥ 0 mit festem Parameterλ > 0 auf einem Wahrscheinlichkeitsraum
(Ω,A, P ), und setzen
Sn = T1 + T2 + . . .+ Tn, n ∈ N, und
Universität Bonn Wintersemester 2009/2010
342 KAPITEL 10. BEDINGTE ERWARTUNGEN
Nt = #n ∈ N | Sn ≤ t, t ∈ [0,∞).
1
2
3
4
S1 S2 S3 S4
Nt
t
Abbildung 10.7: Darstellung vonNt(ω).
Dann istt 7→ Nt(ω) für alleω monoton wachsend mit ganzzahligen Werten undN0(ω) = 0. Die
WartezeitSn bis zumn-ten Sprung istΓ(λ, n)-verteilt, s. Lemma 9.5. Durch Bedingen können
wir die Verteilungen des Prozesses(Nt)t≥0 auf elegante Weise berechnen. Beispielsweise folgt
aus der erweiterten Gedächtnislosigkeit (Lemma 10.11) fürt, h ≥ 0 unmittelbar
P [Nt+h < k |Nt = 0] = P [Sk > t+ h | S1 > t]
= P [T1 + T2 + . . .+ Tk > t+ h | T1 > t]
= P [T1 + T2 + . . .+ Tk > h]
= P [Nh < k] für allek ∈ N,
d.h. die bedingte Verteilung vonNt+h gegebenNt = 0 stimmt mit der Verteilung vonNh überein.
Allgemeiner erhalten wir:
Satz 10.12.Für t, h ≥ 0 gilt:
(1). Nt ∼ Poisson(λt)
(2). Stationarität:Nt+h −Nt ∼ Nh
(3). Unabhängige Inkremente:Nt+h −Nt |= σ(Ns | 0 ≤ s ≤ t).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 343
Beweis. (1). Verteilung vonNt: Da Sk = T1 + . . . + Tk unabhängig vonTk+1 undΓ(λ, k)-
verteilt ist, erhalten wir fürk ∈ N nach (10.4.2):
P [Nt = k] = P [Sk ≤ t < Sk+1]
=
∫P [Sk ≤ t < Sk + Tk+1 | Sk = u] : µSk
(du)
=
∫I(0,t](u) · P [t < u+ Tk+1] µSk
(du)
=
t∫
0
e−λ(t−u) · 1
(k − 1)!λkuk−1e−λu du
=(λt)k
k!e−λt.
Also istNt Poisson-verteilt zum Parameterλt.
(2). Gemeinsame Verteilung vonNt undNt+h: Seienk, l ≥ 0. WegenSk = T1 + . . . + Tk und
Sk+l = Sk+Tk+1+ . . .+Tk+l erhalten wir nach (10.4.1) aufgrund der Unabhängigkeit der
Ti:
P [Nt+h < k + l, Nt = k | T1, . . . , Tk](ω)= P [Sk+l > t+ h, Sk ≤ t < Sk+1 | T1, . . . , Tk](ω)= P [Sk(ω) + Tk+1 + . . .+ Tk+l > t+ h, Sk(ω) ≤ t < Sk(ω) + Tk+1] (10.4.3)
= P [Tk+1 + . . .+ Tk+l > h] · P [Tk+1 > t− Sk(ω)] · ISk≤t(ω)
= P [Nh < l] · P [Nt = k | T1, . . . , Tk](ω)
für P -fast alleω. Hierbei haben wir im vorletzten Schritt Lemma 10.11 verwendet. Aus (a)
folgt:
P [Nt+h −Nt < l,Nt = k] = E[P [Nt+h < k + l, Nt = k | T1, . . . , Tk]]= P [Nh < l] · P [Nt = k], (10.4.4)
d.h.
P [Nt+h −Nt < l |Nt = k] = P [Nh < l] für allek, l ≥ 0.
Also ist das InkrementNt+h −Nt unabhängig vonNt mit Verteilung
P (Nt−h −Nt)−1 = P N−1
h = Poisson(λh).
Universität Bonn Wintersemester 2009/2010
344 KAPITEL 10. BEDINGTE ERWARTUNGEN
(3). Unabhängigkeit vonNt+h − Nt undσ(Ns | 0 ≤ s ≤ t): Wir bemerken zunächst, dass für
jedes EreignisA ∈ σ(Ns | 0 ≤ s ≤ t) undk ≥ 0 ein EreignisAk ∈ σ(T1, . . . , Tk) existiert
mit
A ∩ Nt = k = Ak ∩ Nt = k. (10.4.5)
Zum Beweis kann man sich auf Ereignisse der FormA = Ns = l mit s ∈ [0, t] undl ≥ 0
beschränken, da diese dieσ-Algebraσ(Ns | 0 ≤ s ≤ t) erzeugen. Für solche EreignisseA
gilt in der Tat
A∩Nt = k = Ns = l, Nt = k = Sl ≤ s < Sl+1, Sk ≤ t < Sk+1 = Ak∩Nt = k
wobei
Ak :=
∅ falls l > k,
Sl ≤ s falls l = k,
Sl ≤ s < Sl+1 falls l < k,
ein Ereignis ist, dass nur vonT1, . . . , Tk abhängt.
Nach (10.4.5) erhalten wir fürA ∈ σ(Ns | 0 ≤ s ≤ t) undk, l ≥ 0 analog zu (10.4.4):
P [Nt+h −Nt < l ∩ A ∩ Nt = k]= E[P [Nt+h −Nt < l,Nt = k | T1, . . . , Tk];Ak]
= P [Nh < l] · P [Ak ∩ Nt = k]= P [Nt+h −Nt < l] · P [A ∩ Nt = k].
Durch Summieren überk folgt die Unabhängigkeit vonNt+h −Nt undA.
Aus Satz 10.12 folgt, dass für jede Partitiont0 < t1 < . . . < tk die InkrementeNt1 −Nt0 , Nt2 −Nt1 , . . . , Ntk −Ntk−1
unabhängige Zufallsvariablen mit Verteilung
Nt −Ns ∼ Poisson(λ · (t− s)), 0 ≤ s ≤ t, (10.4.6)
sind. Insbesondere sind die Inkrementestationär, d.h. die Verteilung vonNt −Ns hängt nur von
t− s ab.
Definition. (1). Ein stochastischer Prozess(Nt)t≥0 auf einem Wahrscheinlichkeitsraum(Ω,A, P )heißtLévy-Prozess, falls
(a) die InkrementeNt −Ns, 0 ≤ s ≤ t, stationär sind, und
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 345
(b) Inkremente über disjunkten Intervallen unabhängig sind.
(2). Ein Lévy-Prozess heißtPoissonprozess mit Intensitätλ > 0, falls (10.4.6) gilt.
Weitere wichtige Beispiele von Lévy-Prozessen sind Brownsche Bewegungen undα-stabile Pro-
zesse. EineBrownsche Bewegung(Bt)t≥0 ist ein Lévy-Prozess mit normalverteilten Inkrementen
Bt −Bs ∼ N(0, t− s), 0 ≤ s ≤ t, dessen Pfadet 7→ Bt(ω) für P -fast alleω stetig sind.
Prozesse in diskreter Zeit mit unabhängigen stationären Inkrementen sind Random Walks. Lévy-
Prozesse kann man aus Random Walks durch Grenzübergänge mit unterschiedlichen Skalierun-
gen erhalten (Poissonapproximation, zentraler Grenzwertsatz, Grenzwertsatz für Inkremente mit
heavy tails etc.). Den Poissonprozess erhält man beispielsweise als Grenzwert fürk → ∞ der
reskalierten Random WalksN (k)t = S
(k)⌊kt⌋,
S(k)n =
n∑
i=1
X(k)i , X
(k)i unabhängig,∼ Bernoulli(λ/k).
Die Simulation in Abbildung 5.6 deutet an, wie andere Lévyprozesse als Skalierungslimiten von
Random Walks auftreten.
Ein weiteres Beispiel für Lévy-Prozesse sind zusammengesetzte (compound) Poissonprozesse:
Beispiel (Compound Poisson-Prozess). Seiµ eine Wahrscheinlichkeitsverteilung aufRd und
λ > 0. Dann heißt der stochastische Prozess
St =Nt∑
i=1
Xi, t ≥ 0,
mit unabhängigen ZufallsvariablenXi mit Verteilungµ und einem von denXi unabhängigen
Poissonprozess(Nt)t≥0 mit Intensitätλ, Compound-Poisson-Prozess mit Sprungverteilung
µ und Intensität λ. Der Compound-Poisson-Prozess ist eine zeitstetige Version des Random
Walks mit InkrementenXi. Er wartet jeweils eineExp(λ)-verteilte Zeit ab, und macht dann
einen Sprung gemäß der Verteilungµ. Entsprechende Prozesse werden u. A. in der Versiche-
rungsmathematik zur Modellierung der akkumulierten Schadenshöhe bis zur Zeitt verwendet.
Die VerteilungSt für ein festest ≥ 0 kann man mit den oben eingeführten Methoden für zu-
fällige Summen berechnen. Zudem kann man beweisen, dass(St)t≥0 in der Tat ein Prozess mit
stationären unabhängigen Inkrementen ist.
Poissonscher Punktprozess
Die Sprungzeitpunkte eines Poissonprozesses in einem endlichen Zeitintervall(s, t] kann man
auch auf andere Weise konstruieren: IstZ eine Poisson-verteilte Zufallsvariable mit Parame-
Universität Bonn Wintersemester 2009/2010
346 KAPITEL 10. BEDINGTE ERWARTUNGEN
ter λ · (t − s), und sindU1, U2, . . . unabhängig voneinander und vonZ, und gleichverteilt auf
(s, t], dann sindU1, . . . , UZ die Sprungzeiten eines Poissonprozesses mit Parameterλ (s. Korollar
10.14). Allgemeiner sei nunν ein endliches Maß auf einem messbaren Raum(S,S). Wir wollen
eine zufällige „Punktwolke“ inS mit Intensitätν konstruieren. Dazu wählen wir unabhängige
ZufallsvariablenX1, X2, . . . : Ω → S mit Verteilungµ = νν(S)
, und setzen fürA ⊆ S:
N(A) =Z∑
i=1
δXi[A] = #1 ≤ i ≤ Z|Xi ∈ A, (10.4.7)
wobeiZ (Gesamtzahl der Punkte) unabhängig von denXi und Poisson-verteilt mit Parameter
ν(S) ist. Die AbbildungA 7→ N(A) ist die Häufigkeitsverteilung der PunkteX1, . . . , XZ , und
damit ein zufälliges Maß. Hat das Intensitätsmaßν keine Atome (d.h. giltν[x] = 0 für alle
x ∈ S), dann sind die PunkteXi mit Wahrscheinlichkeit1 alle verschieden, und wir könnenN
P -fast sicher mit der zufälligen PunktmengeX1, X2, . . . , XZ ⊆ S identifizieren.
Satz 10.13(Konstruktion von Poissonschen Punktprozessen). Das durch (10.4.7) definierte
zufällige MaßN ist ein Poissonscher Punktprozess mit Intensitätsmaßν, d.h. für beliebige
k ∈ N und disjunkte TeilmengeA1, . . . , Ak ⊆ S, sind die ZufallsvariablenN(A1), . . . , N(Ak)
unabhängig mit Verteilung
N(Ai) ∼ Poisson(ν(Ai)).
Zum Beweis benötigen wir die erzeugende Funktion der gemeinsamen Verteilung mehrerer Zu-
fallsvariablen:
Definition (Erzeugende Funktion und gemeinsame Verteilung). SeienN1, . . . , Nk : Ω →0, 1, 2, . . . nichtnegative ganzzahlige Zufallsvariablen auf einem Wahrscheinlichkeitsraum(Ω,A, P ),und sei
ν(n1, . . . , nk) = P [N1 = n1, . . . , Nk = nk].
Die erzeugende Funktiondes Zufallsvektors(N1, . . . , Nn) bzw. der Wahrscheinlichkeitsvertei-
lungν auf0, 1, 2, . . .k ist die durch
G(s1, . . . , sk) = E[sN11 sN2
2 · . . . · sNkk ] =
∞∑
n1,...,nk=0
ν(n1, . . . , nk) · sn11 s
n22 · . . . · snk
k
definierte FunktionG : [0, 1]k → [0, 1].
Die gemeinsame Verteilungν ist ähnlich wie im eindimensionalen Fall eindeutig durch die er-
zeugende Funktion festgelegt, denn fürn1, . . . , nk ∈ 0, 1, 2, . . . gilt:
ν(n1, . . . , nk) =1
n1! · . . . · nk!· ∂
n1+n2+...+nk
∂n1s1 · . . . · ∂nk
sk
(0, . . . , 0).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 347
Beweis.O.B.d.A. können wirS =k⋃
i=1
Ai annehmen. Wir berechnen für diesen Fall die erzeu-
gende Funktion der gemeinsamen Verteilung vonN(A1), . . . , N(Ak). Für s1, . . . , sk ∈ [0, 1)
giltk∏
j=1
sN(Aj)j =
Z∏
i=1
k∏
j=1
sIAj
(Xi)
j ,
also wegen der Unabhängigkeit vonZ und denXi:
E
[k∏
j=1
sN(Aj)j
∣∣∣∣∣ Z]
=Z∏
i=1
E
[k∏
j=1
sIAj
(Xi)
j
]=
(k∑
j=1
sj · µ[Aj]
)Z
.
Hierbei haben wir im letzten Schritt verwendet, dass das Produkt überj gleichsj ist, fallsXi in
der MengeAj liegt. DaZ Poisson-verteilt ist mit Parameterν(S), erhalten wir
E
[k∏
j=1
sN(Aj)j
]= GZ
(k∑
j=1
sj · µ[Aj]
)
= exp
(ν(S) ·
(k∑
j=1
sj · µ[Aj]− 1
))
=k∏
j=1
exp (ν(Aj) · (sj − 1)) ,
d.h. die erzeugende Funktion von(N(A1), . . . , N(Ak)) ist das Produkt der erzeugenden Funk-
tionen von Poissonverteilungen mit Parameternν(Aj). Hieraus folgt, dass die gemeinsame Ver-
teilung der ZufallsvariablenN(A1), . . . , N(Ak) das Produkt dieser Poissonverteilungen ist.
Poissonsche Punktprozesse bezeichnet man auch synonym alsräumliche Poissonprozesse, Pois-
sonsche Zufallsmaße, oderPoissonsche Felder. Sie spielen eine wichtige Rolle bei der Model-
lierung zufälliger räumlicher Strukturen, z.B. in der stochastischen Geometrie. Satz 10.13 liefert
uns einen einfachen Algorithmus zur Simulation Poissonscher Punktprozesse. Graphik??wurde
mit diesem Algorithmus erzeugt. Als eindimensionalen Spezialfall von Satz 10.13 erhalten wir
eine alternative Konstruktion von zeitlichen Poissonprozessen:
Korollar 10.14. Seienλ, a ∈ (0,∞). SindZ,U1, U2, . . . unabhängige Zufallsvariablen mit Ver-
teilungenZ ∼ Poisson(λ · a) undU1, U2, . . . ∼ Unif(0,a), dann ist
Nt :=Z∑
i=1
I[0,t](Ui), 0 ≤ t ≤ a,
ein Poissonprozess mit Intensitätλ.
Universität Bonn Wintersemester 2009/2010
348 KAPITEL 10. BEDINGTE ERWARTUNGEN
Beweis.Es giltNt = N([0, t]), wobeiN der wie in (10.4.7) definierte Poissonsche Punktprozess
auf S = [0, a] mit homogenem Intensitätsmaßλ · dt ist. Nach Satz 10.13 folgt, dass für jede
Partition0 ≤ t0 < t1 < . . . < tk ≤ a die Inkremente
Ntj −Ntj−1= N((tj−1, tj]), 1 ≤ j ≤ k,
unabhängig und Poisson(λ · (tj − tj−1))-verteilt sind.
Poissonsche Punktprozesse lassen sich durch verschiedeneTransformationen wieder in Poisson-
sche Punktprozesse überführen. Bildet man beispielsweise die PunkteXi, 1 ≤ i ≤ Z, eines
Poissonschen PunktprozessesN mit Intensitätsmaßν mit einer (messbaren) Abbildungφ ab,
dann erhält man einen Poissonschen Punktprozess
N(A) :=Z∑
i=1
δφ(Xi)[A] =Z∑
i=1
IA(φ(Xi)) =Z∑
i=1
Iφ−1(A)(Xi)
mit Intensitätsmaßν = ν φ−1. Zudem gilt eine Ausdünnungseigenschaft:
SeienZ,X1, X2, . . . , U1, U2, . . . unabhängige Zufallsvariablen mit Verteilungen
Z ∼ Poisson(ν(S)), Xi ∼ν
ν(S), Ui ∼ Unif(0,1),
und seiα : S → [0, 1] eine messbare Funktion (Akzeptanzwahrscheinlichkeit). Wir konstruieren
einen ausgedünnten PunktprozessNα, indem wir einen PunktXi nur mit Wahrscheinlichkeit
α(Xi) berücksichtigen:
Nα :=Z∑
i=1
IUi≤α(Xi)δXi.
Satz 10.15(Färbungssatz, Ausdünnungseigenschaft). Nα ist ein Poissonscher Punktprozess
mit Intensitätsmaßα(x)ν(dx).
Der Beweis wird dem Leser als Übung überlassen. Bemerkenswertist unter Anderem, dass die
beschriebene Konstruktion eine Kopplung von Poissonprozessen mit verschiedenen Intensitäts-
maßen, d.h. eine simultane Konstruktion dieser Prozesse auf einem gemeinsamen Wahrschein-
lichkeitsraum ermöglicht.
10.5 Bedingte Erwartung als besteL2-Approximation
In diesem Abschnitt zeigen wir, dass sich die bedingte Erwartung einer quadratintegrierbaren
ZufallsvariableX gegeben eineσ-AlgebraF charakterisieren lässt als beste Approximation von
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.5. BEDINGTE ERWARTUNG ALS BESTEL2-APPROXIMATION 349
X im Unterraum derF-messbaren quadratintegrierbaren Zufallsvariablen, bzw. als orthogonale
Projektion vonX auf diesen Unterraum. Neben naheliegenden Anwendungen aufnichtlineare
Prognosen liefert uns dies auch einen einfachen Existenzbeweis für die bedingte Erwartung.
Jensensche Ungleichung
Die Jensensche Ungleichung gilt auch für bedingte Erwartungen.
Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum,X ∈ L1(Ω,A, P ) eine integrierbare Zufallsvariable
undF ⊆ A eineσ-Algebra.
Satz 10.16(Jensen). Ist u : R → R eine konvexe Funktion mitu(X) ∈ L1 oderu ≥ 0, dann gilt
E[u(X) | F ] ≥ u(E[X | F ]) P -fast sicher.
Beweis.Jede konvexe Funktionu lässt sich als Supremum von abzählbar vielen affinen Funktio-
nen darstellen, d.h. es gibtan, bn ∈ R mit
u(x) = supn∈N
(anx+ bn) für allex ∈ R.
Zum Beweis betrachtet man die Stützgeraden an allen Stellen einer abzählbaren dichten Teil-
menge vonR, siehe z.B. [Williams: Probability with martingales, 6.6].Wegen der Monotonie
und Linearität der bedingten Erwartung folgt
E[u(X) | F ] ≥ E[anX + bn | F ] = an · E[X | F ] + bn
P -fast sicher für allen ∈ N, also auch
E[u(X) | F ] ≥ supn∈N
(an · E[X | F ] + bn) P -fast sicher.
Korollar 10.17 (Lp-Kontraktivität ). Die AbbildungX 7→ E[X | F ] ist eine Kontraktion auf
Lp(Ω,A, P ) für alle p ≥ 1, d.h.
E [|E[X | F ]|p] ≤ E[|X|p] für alleX ∈ L1(Ω,A, P ).
Beweis.Nach der Jensenschen Ungleichung gilt:
|E[X | F ]|p ≤ E[|X|p | F ] P -fast sicher.
Die Behauptung folgt durch Bilden des Erwartungswertes.
Im Beweis des Korollars haben wir insbesondere gezeigt, dassfür eine ZufallsvariableX ∈ Lp
auch die bedingte ErwartungE[X | F ] in Lp enthalten ist. Wir beschränken uns nun auf den Fall
p = 2.
Universität Bonn Wintersemester 2009/2010
350 KAPITEL 10. BEDINGTE ERWARTUNGEN
Bedingte Erwartung als besteL2-Prognose
Der RaumL2(Ω,A, P ) = L2(Ω,A, P )/ ∼ der Äquivalenzklassen von quadratintegrierbaren
Zufallsvariablen ist ein Hilbertraum mit Skalarprodukt(X, Y )L2 = E[XY ]. Ist F ⊆ A ei-
ne Unter-σ-Algebra, dann istL2(Ω,F , P ) ein abgeschlossener Unterraumvon L2(Ω,A, P ),denn Grenzwerte vonF-messbaren Zufallsvariablen sind wiederF-messbar. Nach der Jensen-
schen Ungleichung ist fürX ∈ L2(Ω,A, P ) jede Version der bedingten ErwartungE[X | F ]
im UnterraumL2(Ω,F , P ) derF-messbaren quadratintegrierbaren Zufallsvariablen enthalten.
Außerdem respektiert die bedingte Erwartung Äquivalenzklassen, s. Satz 10.7. Die Zuordnung
X 7→ E[X | F ] definiert also eine lineare Abbildung vom HilbertraumL2(Ω,A, P ) der Äquiva-
lenzklassen auf den UnterraumL2(Ω,F , P ).
Satz 10.18.Für Y ∈ L2(Ω,F , P ) sind äquivalent:
(1). Y ist eine Version der bedingten ErwartungE[X | F ].
(2). Y ist eine „beste Approximation“ von X im UnterraumL2(Ω,F , P ), d.h.
E[(X − Y )2] ≤ E[(X − Z)2] für alleZ ∈ L2(Ω,F , P ).
(3). Y ist eine Version derorthogonalen ProjektionvonX auf den UnterraumL2(Ω,F , P ) ⊆L2(Ω,A, P ), d.h.
E[(X − Y ) · Z] = 0 für alleZ ∈ L2(Ω,F , P ).
L2(Ω,F , P )
L2(Ω,A, P )X
0
E[X | F ]
Abbildung 10.8: Darstellung vonX 7→ E[X | F ] als orthogonale Projektion auf den Unterraum
L2(Ω,F , P ).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.5. BEDINGTE ERWARTUNG ALS BESTEL2-APPROXIMATION 351
Beweis.(1) ⇐⇒ (3): FürY ∈ L2(Ω,F , P ) gilt:
Y ist eine Version vonE[X | F ]
⇐⇒ E[Y · IA] = E[X · IA] für alleA ∈ F⇐⇒ E[Y · Z] = E[X · Z] für alleZ ∈ L2(Ω,F , P )⇐⇒ E[(X − Y ) · Z] = 0 für alleZ ∈ L2(Ω,F , P )
Hierbei zeigt man die zweite Äquivalenz mit den üblichen Fortsetzungsverfahren (maß-
theoretische Induktion).
(3)⇒ (2): SeiY eine Version der orthogonalen Projektion vonX auf L2(Ω,F , P ). Dann gilt
für alleZ ∈ L2(Ω,F , P ):
E[(X − Z)2] = E[((X − Y ) + (Y − Z))2]
= E[(X − Y )2] + E[(Y − Z)2] + 2E[(X − Y ) (Y − Z)︸ ︷︷ ︸∈L2(Ω,F ,P )
]
≥ E[(X − Y )2]
Hierbei haben wir im letzten Schritt verwendet, dassY − Z im UnterraumL2(Ω,F , P )enthalten, also orthogonal zuX − Y ist.
(2)⇒ (3): Ist umgekehrtY eine beste Approximation vonX inL2(Ω,F , P ) undZ ∈ L2(Ω,F , P ),dann gilt
E[(X − Y )2] ≤ E[(X − Y + tZ)2]
= E[(X − Y )2] + 2tE[(X − Y )Z] + t2E[Z2]
für alle t ∈ R, alsoE[(X − Y ) · Z] = 0.
Die Äquivalenz von (2) und (3) ist eine bekannte funktionalanalytische Aussage: die beste Appro-
ximation eines Vektors in einem abgeschlossenen Unterraumeines Hilbertraums ist die orthogo-
nale Projektion des Vektors auf diesen Unterraum. Die dahinterstehende geometrische Intuition
verdeutlicht man sich leicht anhand von Abbildung 10.8.
Satz 10.18 rechtfertigt die Verwendung der bedingten Erwartung als Prognoseverfahren. Bei-
spielsweise istE[X | Y ] nach dem Faktorisierungslemma die besteL2-Prognose fürX unter
allen Funktionen vom Typg(Y ), g : R → R messbar.
Universität Bonn Wintersemester 2009/2010
352 KAPITEL 10. BEDINGTE ERWARTUNGEN
Beispiel(Nichtlineare Prognose). SeienS, T : Ω → R+ unabhängige Zufallsvariablen, die zum
Beispiel die Ausfallzeiten zweier Komponenten eines Systems beschreiben.S sei exponential-
verteilt mit Parameterλ > 0 - die Verteilung vonT ist beliebig. Angenommen, wir können nur
den Ausfall der einen Komponente (mit AusfallzeitT ) beobachten, und wir möchten den Wert
der ersten Ausfallzeit
X = min(T, S)
aufgrund des beobachteten WertesT (ω) prognostizieren. Nach Satz 10.18 ist der beste Progno-
sewert fürX bzgl. des mittleren quadratischen Fehlers durch
X(ω) = E[X | T ](ω)
gegeben. Explizit erhalten wir wegen der Unabhängigkeit von T undS:
E[X | T ](ω) = E[min(T (ω), S)]
=
∞∫
0
min(T (ω), s)λe−λs ds
=
T (ω)∫
0
sλe−λs ds+
∞∫
T (ω)
T (ω)λe−λs ds
=1
λ(1− e−λT (ω)) für P -fast alleω.
Die beste Prognose im quadratischen Mittel hängt also in diesem Fallnichtlinear von T ab.
Sie unterscheidet sich damit von derbesten linearen Prognose(Regressionsgerade), die wie in
Abschnitt 6.3 gezeigt durch
Xlin = aT + b mit a =Cov[X,T ]
Var[T ], b = E[X]− aE[T ]
gegeben ist. Dass sichX und Xlin unterscheiden ist die Regel. Eine wichtige Ausnahme ergibt
sich, wenn die gemeinsame Verteilung vonX undT eine Gaußverteilung ist - in diesem Fall ist
die besteL2 PrognoseE[X | T ] stets eine affine Funktion vonT .
Existenz der bedingten Erwartung
Durch die Charakterisierung der bedingten Erwartung als besteL2-Approximation ergibt sich die
Existenz der bedingten Erwartung einer quadratintegrierbaren Zufallsvariable unmittelbar aus der
Existenz der Bestapproximation eines Vektors in einem abgeschlossenen Unterraum eines Hil-
bertraums. Durch monotone Approximation folgt hieraus dieExistenz der bedingten Erwartung
auch für beliebige nichtnegative bzw. integrierbare Zufallsvariablen:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
10.5. BEDINGTE ERWARTUNG ALS BESTEL2-APPROXIMATION 353
Satz 10.19.Für jede ZufallsvariableX ≥ 0 bzw.X ∈ L1(Ω,A, P ) und jedeσ-AlgebraF ⊆ Aexistiert eine Version der bedingten ErwartungE[X | F ].
Beweis. (1). Wir betrachten zunächst den FallX ∈ L2(Ω,A, P ). Wie eben bemerkt, ist der
RaumL2(Ω,F , P ) ein abgeschlossener Unterraum des HilbertraumsL2(Ω,A, P ). Seid =
inf‖Z − X‖L2 | Z ∈ L2(Ω,F , P ) der Abstand vonX zu diesem Unterraum. Um zu
zeigen, dass eine beste Approximation vonX in L2(Ω,F , P ) existiert, wählen wir eine
Folge(Xn) aus diesem Unterraum mit‖Xn − X‖L2 → d. Mithilfe der Parallelogramm-
Identität folgt fürn,m ∈ N:
‖Xn −Xm‖2L2 = ‖(Xn −X)− (Xm −X)‖2L2
= 2 · ‖Xn −X‖2L2 + 2 · ‖Xm −X‖2L2 − ‖(Xn −X) + (Xm −X)‖2L2
= 2 · ‖Xn −X‖2L2︸ ︷︷ ︸→d2
+2 · ‖Xm −X‖2L2︸ ︷︷ ︸→d2
−4
∥∥∥∥Xn +Xm
2−X
∥∥∥∥2
L2︸ ︷︷ ︸≤d2
,
und damit
lim supn,m→∞
‖Xn −Xm‖2L2 ≤ 0.
Also ist die Minimalfolge(Xn) eine CauchyLfolge in dem vollständigen RaumL2(Ω,F , P ),d.h. es existiert einY ∈ L2(Ω,F , P ) mit
‖Xn − Y ‖L2 → 0.
FürY gilt
‖Y −X‖L2 = ‖ limn→∞
Xn −X‖L2 ≤ lim infn→∞
‖Xn −X‖L2 ≤ d,
d.h.Y ist die gesuchte Bestapproximation, und damit eine Version der bedingten Erwartung
E[X | F ].
(2). Für eine beliebige nichtnegative ZufallsvariableX auf (Ω,A, P ) existiert eine monoton
wachsende Folge(Xn) nichtnegativer quadratintegrierbarer ZufallsvariablenmitX = supXn.
Man verifiziert leicht, dasssupnE[Xn | F ] eine Version vonE[X | F ] ist.
(3). Entsprechend verifiziert man, dass für allgemeineX ∈ L1(Ω,A, P ) durchE[X | F ] =
E[X+ | F ]− E[X− | F ] eine Version der bedingten Erwartung gegeben ist.
Universität Bonn Wintersemester 2009/2010
Kapitel 11
Markovketten
In diesem Kapitel werden wir Markovketten genauer untersuchen. Ein wichtiges Hilfsmittel dabei
ist der Zusammenhang von Markovketten und Differenzengleichungen.
11.1 Grundlagen
Sei(S,S) ein messbarer Raum. Eine FolgeX0, X1, . . . von auf einem Wahrscheinlichkeitsraum
(Ω,A, P ) definierten ZufallsvariablenXn : Ω → S heißt(zeitdiskreter) stochastischer Prozess
mit Zustandsraum S. Den Index „n“ interpretieren wir entsprechend als „Zeit.“ Fürm ≤ n
setzen wir:
Xm:n := (Xm, Xm+1, . . . , Xn).
Seien nunpn(x, dy), n = 1, 2, 3, . . . , stochastische Kerne auf(S,S). Wir verwenden die Notation
(pnf)(x) :=
∫pn(x, dy)f(y)
für den Erwartungswert einer messbaren Funktionf : S → R bzgl. der Wahrscheinlichkeitsver-
teilungpn(x, •). Insbesondere gilt
(pnIA)(x) = pn(x,A) für alleA ∈ S.
Definition. Ein stochastischer Prozess(Xn) mit ZustandsraumS heißtMarkovkette mit Über-
gangswahrscheinlichkeitenpn(x, dy), falls gilt:
P [Xn+1 ∈ A |X0:n] = pn+1(Xn, A) P -f.s. für alleA ∈ S undn ≥ 0, (11.1.1)
bzw. dazu äquivalent
E[f(Xn+1) |X0:n] = (pn+1f)(Xn) P -f.s. für alleS-messbarenf : S → R+ undn ≥ 0.
(11.1.2)
354
11.1. GRUNDLAGEN 355
Die Markovkette heißtzeitlich homogen, falls pn nicht vonn abhängt. Die Verteilung vonX0
heißtStartverteilungder Markovkette. GiltP X−10 = δx, dann sagen wir, dieMarkovkette
startet inx.
Die Äquivalenz von (11.1.1) und (11.1.2) ergibt sich durch maßtheoretische Induktion. Die defi-
nierende Eigenschaft (11.1.1) besagt, dass bedingt aufXn der nächste ZustandXn+1 unabhängig
vonX0, . . . , Xn−1 mit Verteilungpn+1(Xn, •) ist. Eine Markovkette „vergisst“ also den vorheri-
gen Verlauf bis zur Zeitn− 1, und startet in jedem Schritt neu im gegenwärtigen ZustandXn.
Bemerkung. Allgemeiner heißt ein stochastischer Prozess(Xn) Markovkette, falls
P [Xn+1 ∈ A |X0:n] = P [Xn+1 ∈ A |Xn] P -f.s. für alleA ∈ S undn ≥ 0 (11.1.3)
gilt. Die Existenz eines Übergangskerns folgt aus (11.1.3)unter Regularitätsvoraussetzungen an
(S,S), z.B. fallsS ein polnischer (d.h. vollständiger separabler metrischer) Raum ist mit Borel-
scherσ-AlgebraS = B(S).
Beispiel (Diskreter Zustandsraum). Ist S abzählbar, dann können wir einen stochastischen
Kern pn aufS mit der stochastischen Matrixpn(x, y) = pn(x, y) identifizieren. Ein stochasti-
scher Prozess(Xn) ist genau dann eine Markovkette mit Übergangsmatrizenpn(x, y), wenn
P [Xn+1 = xn+1 |X0:n = x0:n] = pn+1(xn, xn+1)
für allex0, . . . , xn+1 ∈ S mit P [X0:n = x0:n] 6= 0 gilt.
Zufällige dynamische Systeme als Markovketten, Beispiele
Markovketten erhält man insbesondere als zufällige Störungen dynamischer Systeme.
Sei(T, T ) ein messbarer Raum. Wir betrachten einen stochastischen Prozess(Xn) mit Zustands-
raumS, der rekursiv durch
Xn+1 = Φn+1(Xn,Wn+1), n = 0, 1, 2, . . . ,
definiert ist, wobeiX0 : Ω → S undW1,W2, . . . ; Ω → T unabhängige Zufallsvariablen auf
einem Wahrscheinlichkeitsraum(Ω,A, P ), undΦ : S × T → S, n ∈ N, messbare Abbildungen
sind. Die AbbildungenΦn beschreiben das Bewegungsgesetz des dynamischen Systems, und die
ZufallsvariablenWn die zufälligen Einflussfaktoren (Rauschen, noise).
Satz 11.1. (1). (Xn) ist eine Markovkette mit Übergangswahrscheinlichkeiten
pn(x,A) = P [Φn(x,Wn) ∈ A], x ∈ S,A ∈ S.
Universität Bonn Wintersemester 2009/2010
356 KAPITEL 11. MARKOVKETTEN
(2). Hängen die AbbildungenΦn nicht vonn ab, und sind die ZufallsvariablenWn identisch
verteilt, dann ist die Markovkette(Xn) zeitlich homogen.
Beweis. (1). Fürn ≥ 0 istX0:n eine Funktion vonX0,W1,W2, . . . ,Wn. Also istWn+1 unab-
hängig vonX0:n, und fürA ∈ S folgt
P [Xn+1 ∈ A |X0:n](ω) = P [Φn+1(Xn,Wn+1) ∈ A |X0:n](ω)
= P [Φn+1(Xn(ω),Wn+1) ∈ A] = pn+1(Xn(ω), A)
für P -fast alleω ∈ Ω.
(2). HängenΦn und die Verteilung vonWn nicht vonn ab, dann hängt auchpn nicht vonn ab,
d.h. die Markovkette ist zeitlich homogen.
Beispiel. (1). Random Walks aufZd bzw.Rd: Sind die ZufallsvariablenWn unabhängig und
identisch verteilt mit Werten inZd oderRd, dann wird durch
Xn+1 = Xn +Wn+1, X0 = x,
eind-dimensionaler Random Walk definiert.(Xn)n ist eine zeitlich homogene Markovkette
mit Start inx und Übergangskernp(x, •) = µ τ−1x , wobeiµ die Verteilung vonWn und
τx(y) = y + x die Translation umx ist.
(2). Random Walk auf0, 1, 2, . . . mit Reflexion bzw. Absorption bei0: Durch
Xn+1 =
Xn +Wn+1 fallsXn > 0
1 bzw.0 fallsXn = 0
mit unabhängigen, identisch verteilten ZufallsvariablenWn mit P [Wn = 1] = p und
P [Wn = −1] = 1 − p, p ∈ [0, 1], wird ein Random Walk auf0, 1, 2, . . . definiert,
der bei0 reflektiert bzw. absorbiert wird.(Xn) ist eine zeitlich homogene Markovkette mit
Übergangswahrscheinlichkeiten wie in Graphik 11.1 dargestellt.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.1. GRUNDLAGEN 357
1
1− p
p
1− p
p
1− p
p
1− p
p
1− p
p
1− p
p
1− p
0
Random Walk mit Reflexion bei0.
1− p
p
1− p
p
1− p
p
1− p
p
1− p
p
1− p
p
1− p
01 0
Random Walk mit Absorption bei0.
Abbildung 11.1: Darstellung der Übergangswahrscheinlichkeiten von Random Walks auf
0, 1, 2, . . . mit Reflexion bzw. Absorption in0.
(3). Warteschlange mit einem Server:In einer einfachen Warteschlange wird pro Zeiteinheit ein
Kunde bedient, währendAn neue Kunden ankommen. Die AnzahlenAn der Ankünfte in
einer Bedienzeit sind unabhängige Zufallsvariablen mit Werten in0, 1, 2, . . .. Die Zahl
Xn der wartenden Kunden ist dann eine Markovkette mit Übergangsmechanismus
Xn+1 = (Xn − 1 + An+1)+.
(4). Autoregressive Prozesse:Ein AR(p)-Prozess mit Parameternε, α1, . . . , αp ∈ R ist durch
die Rekursionsformel
Xn =
p∑
i=1
αiXn−i + ε ·Wn, n ≥ p,
mit unabhängigen, standardnormalverteilten ZufallsvariablenWn gegeben. Fürp = 1 er-
gibt sich eine zeithomogene Markovkette mit Übergangskern
p(x, ·) = N(α1x, ε2).
Universität Bonn Wintersemester 2009/2010
358 KAPITEL 11. MARKOVKETTEN
Für p ≥ 2 undαp, ε 6= 0 ist derAR(p)-Prozess dagegen keine Markovkette, da der nächs-
te Zustand nicht nur vom gegenwärtigen Zustand, sondern auch vom vorherigen Verlauf
abhängt. Wir können jedoch eine Markovkette erhalten, indem wir stattXn die aus den
letztenp Zuständen gebildeten Vektoren
Xn = (Xn, Xn−1, . . . , Xn−p+1), n = p− 1, p, p+ 1, . . . ,
betrachten.(Xn) ist eine zeithomogene Markovkette mit ZustandsraumSp, denn fürn ≥ p
gilt
Xn =
α1 α2 α3 · · · αp
1 0 0 · · · 0
0 1 0 · · · 0...
.. ....
0 · · · 0 1 0
Xn−1 + ε ·
Wn
0...
0
.
(5). Galton-Watson-Verzweigungsprozesse:Der Galton-Watson-Prozess ist eine zeithomogene
Markovkette aufS = 0, 1, 2, . . ., denn fürn ≥ 0 gilt
Zn =
Zn−1∑
i=1
Nni
mit unabhängigen, identisch verteilten ZufallsvariablenNni (i, n ∈ N). Als Übergangskern
ergibt sich
p(k, •) = P (
k∑
i=1
Nni
)−1
= ν∗k,
wobeiν∗k diek-fache Faltung der Nachkommensverteilungν = P (Nni )
−1 ist.
(6). Wrightsches Evolutionsmodell:In diesem Modell besteht die Population zu jedem Zeit-
punkt n auf seiner festen Anzahlm von Individuen, von denen jedes genau eines der
Merkmale aus einer endlichen MengeT besitzt. Die Merkmale werden gemäß folgendem
Mechanismus von einer Generation zur nächsten vererbt:
Algorithmus 11.2 (Multinomiales Resampling).
for i := 1, . . . ,m do
erzeugew ∼ Unif1, . . . ,mx(i)n+1 := x
(w)n
end for
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.1. GRUNDLAGEN 359
Jedes Individuum der Nachkommensgeneration sucht sich also zufällig und unabhängig
voneinander einen Vorfahren in der Elterngeneration, und nimmt dessen Merkmalsausprä-
gungen an. Durch den Algorithmus wird eine Markovkette(Xn) mit ZustandsraumTm
und Übergangskern
p(x, •) =m⊗
i=1
µ(x)
definiert, wobeiµ(x) =1
m
m∑i=1
δx(i) die empirische Verteilung der Merkmalsausprägungen
x = (x(1), . . . , x(m)) in der vorherigen Population ist.
Anstatt die MerkmalsausprägungenX(i)n aller Individuen einer Generation zu betrachten
(„mikroskopische Beschreibung“), genügt es die Häufigkeiten
Hn(a) =∣∣i ∈ 1, . . . ,m : X(i)
n = a∣∣ , a ∈ T,
aller möglichen Merkmalsausprägungena zu notieren („makroskopische Beschreibung“).
Die HistogrammvektorenHn = (Hn(a))a∈T bilden eine zeithomogene Markovkette mit
Werten im Raum Hist(m,T ) der Histogramme vonm Beobachtungswerten ausT . Der
Übergangskern ist durch
p(h, •) = Mult
(h
/∑
a∈Sh(a)
), h ∈ Hist(m,T ),
gegeben, d.h. der Histogrammvektor im nächsten Schritt istmultinomialverteilt mit Ergeb-
niswahrscheinlichkeiten der Merkmalsausprägungena ∈ T proportional zu den Häufig-
keitenh(a) im letzten Schritt. Dies erklärt auch die Bezeichnung „Multinomiales Resamp-
ling.“ Multinomiale Resamplingschritte werden u.a. in genetischen Algorithmen und se-
quentiellen Monte-Carlo Verfahren eingesetzt.
Aus der Darstellung von Markovketten als zufällige dynamische Systeme ergibt sich unmittelbar
ein explizites Konstruktionsverfahren für Markovketten mit ZustandsraumR:
Seienµ eine Wahrscheinlichkeitsverteilung undpn, n ∈ N, stochastische Kerne auf(R,B(R)).Wir betrachten die linksstetigen Inversen
G0(u) = infc ∈ R : F0(c) ≥ u und
Gn(x, u) = infc ∈ R : Fn(x, c) ≥ u
der VerteilungsfunktionenF0(c) = µ[(−∞, c)] undFn(x, c) = pn(x , (−∞, c]) der Wahrschein-
lichkeitsverteilungenµ undpn(x, •). Aus Satz 11.1 und Satz 4.20 folgt unmittelbar:
Universität Bonn Wintersemester 2009/2010
360 KAPITEL 11. MARKOVKETTEN
Korollar 11.3 (Existenzsatz und Konstruktionsverfahren für Markovketten). SeiU0, U1, U2, . . .
eine Folge von unabhängigen, auf(0, 1) gleichverteilten Zufallsvariablen auf einem Wahrschein-
lichkeitsraum(Ω,A, P ). Dann ist der durch
X0 = G0(U0), Xn+1 = Gn+1(Xn, Un+1)
definierte stochastische Prozess eine Markovkette mit Startverteilungµ und Übergangskernenpn.
Bemerkung. Auch auf anderen Zustandsräumen kann man Markovketten oft auf ähnliche Wei-
se explizit konstruieren, siehe z.B. die Übung für den diskreten Fall. Die Konstruktion liefert
unmittelbar einen Algorithmus zur Simulation der Markovkette:
Algorithmus 11.4 (Simulation einer reellwertigen Markovkette).
erzeugeU0 ∼ Unif(0, 1); y0 := G0(u0)
for n := 1, 2, . . . do
erzeugeun ∼ Unif(0, 1); yn := Gn(yn−1, un)
end for
Endlichdimensionale Randverteilung eine Markovkette
Wir wollen nun Verteilungen von Markovketten berechnen. Sei (Xn) ein auf einem Wahrschein-
lichkeitsraum(Ω,A, P ) definierter stochastischer Prozess mit Zustandsraum(S,S).
Satz 11.5.Es sind äquivalent:
(1). (Xn) ist eine Markovkette mit Übergangswahrscheinlichkeitenpn und Startverteilungµ.
(2). Für jedesn ≥ 0 hat (X0, X1, . . . , Xn) die Verteilung
µ(dx0)p1(x0, dx1)p2(x1, dx2) · . . . · pn(xn−1, dxn),
d.h. für alle messbaren Funktionenf : Sn+1 → R+ gilt
E[f(X0, . . . , Xn)] =
∫µ(dx0)
∫p1(x0, dx1) · · ·
∫pn(xn−1, dxn)f(x0, . . . , xn).
(11.1.4)
Beweis.„(1) ⇒ (2)“ : Ist (Xn) eine Markovkette mit Startverteilungµ und Übergangskernen
pn, dann gilt fürn ∈ N undB0, . . . , Bn ∈ S:
P [X0:n ∈ B0 × . . .×Bn] = E [P [Xn ∈ Bn |X0:n−1] ; X0:n−1 ∈ B0 × . . .×Bn−1]
=
∫
B0×...×Bn−1
p(xn−1, Bn) µX0:n−1(dx0:n−1).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.1. GRUNDLAGEN 361
Durch Induktion nachn folgt
P [X0:n ∈ B0 × . . .×Bn] =
∫
Bn
· · ·∫
B1
∫
B0
µ(dx0)p1(x0, dx1) · . . . · pn(xn−1, dxn)
für allen ≥ 0 undBi ∈ S. Also giltX0:n ∼ µ⊗ p1 ⊗ . . .⊗ pn, und damit (11.1.4).
„(2) ⇒ (1)“ : Gilt (11.1.4), dann hatX0 die Verteilungµ, und(pn+1f)(Xn) ist für alle messbaren
Funktionenf : S → [0,∞) eine Version der bedingten ErwartungE[f(Xn+1) | X0:n].
Zum Beweis überprüfen wir die definierenden Eigenschaften der bedingten Erwartung:
(pn+1f)(Xn) ist eine Funktion vonX0:n, und es gilt
E[f(Xn+1) · g(X0:n)]
=
∫µ(dx0)
∫p1(x0, dx1) · . . . ·
∫pn(xn−1, dxn)g(x0:n)
∫pn+1(xn, dxn+1)f(xn+1)
=
∫µ(dx0)
∫p1(x0, dx1) · . . . ·
∫pn(xn−1, dxn)g(x0:n)(pn+1f)(xn)
= E[(pn+1f)(Xn) · g(X0:n)]
für alle messbaren Funktioneng : Sn+1 → [0,∞).
Seienµ eine Wahrscheinlichkeitsverteilung,p, q, r stochastische Kerne, undf eine messbare
nicht-negative Funktion auf(S,S). Wir bezeichnen mit
(µp)(dy) =
∫µ(dx)p(x, dy)
die Verteilung der 2. Komponente unter dem Maßµ⊗ p, und mit
(pq)(x, dz) =
∫p(x, dy)q(y, dz)
den stochastischen Kern, der durch Hintereinanderausführen vonp undq entsteht. Aus dem Satz
von Fubini ergeben sich die folgendenRechenregeln für stochastische Kerne:∫f d(µp) =
∫ ∫µ(dx)p(x, dy)f(y) =
∫(pf) dµ (11.1.5)
p(qf) = (pq)f (11.1.6)
(µp)q = µ(pq) (11.1.7)
p(qr) = (pq)r (11.1.8)
Als Verteilung der Markovkette zur Zeitn erhalten wir dementsprechend
P X−1n = µp1p2 · . . . · pn, (11.1.9)
Universität Bonn Wintersemester 2009/2010
362 KAPITEL 11. MARKOVKETTEN
wobei das Produkt wegen (11.1.7) und (11.1.8) nicht von der Klammerung abhängt.
Ist der ZustandsraumS abzählbar, dann gelten die folgenden Identifikationen:
µ ↔ (µ(x)|x ∈ S) Zeilenvektor
f ↔ (f(x)|x ∈ S) Spaltenvektor
p ↔ (p(x, y)|x, y ∈ S) stochastische Matrix
(µp)(y) =∑x
µ(x)p(x, y) Multiplikation mit Zeilenvektor von links
(pf)(x) =∑y
p(x, y)f(y) Multiplikation mit Spaltenvektor von rechts
(pq)(x, z) =∑y
p(x, y)q(y, z) Matrizenprodukt.
Beispiel (Zeithomogene Markovkette mit endlichem Zustandsraum). Wir betrachten einen
endlichen ZustandsraumS mit k Elementen, und eine stochastische Matrixp, die nicht vonn
abhängt. Die Verteilung zur Zeitn einer zeithomogenen Markovkette mit Startverteilungµ und
Übergangsmatrixp ist dann
P X−1n = µpn.
Um die Verteilung und deren Asymptotik zu berechnen, könnenwir die Spektraldarstellung der
Übergangsmatrix verwenden. Seienλ1, . . . , λk ∈ C die Eigenwerte vonp, d.h. die Nullstellen
des charakteristischen Polynomsχ(λ) = det(p − λI). Da p eine stochastische Matrix ist, gilt
Folgendes:
(1). |λj| ≤ 1 für alle j,
(dies folgt wegen‖pf‖∞ = maxx
∣∣∣∣∑y
p(x, y)f(y)
∣∣∣∣ ≤ ‖f‖∞ für allef ).
(2). λ1 = 1 ist Eigenwert mit Rechtseigenvektorf1 = (1, . . . , 1)T .
(3). Nichtreelle Eigenwerte treten in Paarenλ, λ auf.
Wir nehmen nun der Einfachheit halber an, dass alle Eigenwerte einfach sind, d.h.λi 6= λj für
i 6= j. In diesem Fall existieren Rechts- und Linkseigenvektorenfj, νj (1 ≤ j ≤ k) mit
pfj = λjfj, νjp = λjνj, und 〈νi, fj〉 =∑
x∈Sνi(x)fj(x) = δij .
Mithilfe der aus den Rechts- und Linkseigenvektoren gebildeten Matrizen
U = (f1, . . . , fk), V =
ν1
ν2...
νk
, V · U = I,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.1. GRUNDLAGEN 363
erhalten wir die Spektraldarstellung
p =k∑
j=1
λjfj ⊗ νj = U
λ1 0 · · · 0
0 λ2.. .
......
. .. .. . 0
0 · · · 0 λk
V,
für die Übergangsmatrixp, und damit auch fürpn:
pn =k∑
j=1
λnj fj ⊗ νj = U
λn1 0 · · · 0
0 λn2. ..
......
. . . . .. 0
0 · · · 0 λnk
V.
Für die Verteilung der Markovkette zur Zeitn ergibt sich
P X−1n =
n∑
j=1
λnj 〈µ, fj〉νj. (11.1.10)
Insbesondere folgt:
Satz 11.6(Exponentielle Konvergenz ins Gleichgewicht). Sind die Eigenwerte einer stochas-
tischen Matrixp ∈ Rk×k einfach, und gilt|λj| < 1 für alle j 6= 1, dann existiert eine Gleichge-
wichtsverteilungν vonp, und für jede Startverteilungµ gilt
µpn = ν +O
(maxj 6=1
|λj|n)
für n→ ∞.
Beweis.Nach (11.1.10) gilt
µpn = 〈µ, f1〉ν1 +k∑
j=2
λnj 〈µ, fj〉νj für allen ≥ 0.
Aus 〈µ, f1〉 = 〈µ, (1, . . . , 1)T 〉 =∑µ(x) = 1 folgt
µpn = ν1 +O
(maxj 6=1
|λj|n)
Insbesondere istν1 = limµpn eine Wahrscheinlichkeitsverteilung mitν1p = ν1, also ein Gleich-
gewicht vonp. Ist umgekehrtµ ein beliebiges Gleichgewicht vonp, dann giltµpn = µ für alle
n ≥ 0, und damit
µ = limn→∞
µpn = ν1.
Universität Bonn Wintersemester 2009/2010
364 KAPITEL 11. MARKOVKETTEN
Bemerkung. (1). Sind die Eigenwerte nicht einfach, dann folgt eine ähnliche Aussage über die
Jordansche Normalformdarstellung der Übergangsmatrixp. Als Konvergenzgeschwindig-
keit ergibt sich in diesem FallO(nm−1 maxi 6=1
|λi|n), wobeim die größte Multiplizität des
betragsmäßig zweitgrößten Eigenwertes ist (Satz von Perron-Frobenius).
(2). Entscheidend für die exponentielle Konvergenzrate ist die Lücke zwischen dem Eigenwert
1 und dem Rest des Spektrums. Eine entsprechende Aussage kann man auch auf allgemei-
nen Zustandsräumen mithilfe des Spektralsatzes für selbstadjungierte Operatoren zeigen,
falls die Gleichgewichtsverteilung die Detailed Balance Bedingung erfüllt.
Beispiel. (1). Die Übergangsmatrix der Markovkette aus Abbildung 11.2 ist
p =
0 1 0
0 12
12
12
0 12
.
1
1/21/2
1/2
1/2
x1
Abbildung 11.2: Markovkette mit zugehöriger Übergangsmatrix p.
Eigenwerte sindλ1 = 1, λ2 = i/2 undλ3 = −i/2. Es folgt:
pn = A+ B ·(i
2
)n
+ C ·(− i
2
)n
mit MatrizenA,B,C ∈ C3×3. Wegenp0(x1, x1) = 1 und p1(x1, x1) = p2(x1, x1) = 0
folgt
pn(x1, x1) =1
5+
(1
2
)n
·(4
5cos
nπ
2− 2
5sin
nπ
2
)für allen ≥ 0.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.1. GRUNDLAGEN 365
Der Wert1/5 ist die erste Komponente des Gleichgewichtsvektorsν1 = (1/5, 2/5, 2/5).
Fürn→ ∞ konvergieren die Übergangswahrscheinlichkeiten mit RateO(2−n) gegenν1.
(2). Die Übergangsmatrix einer deterministischen Rotationauf dem diskreten KreisZ/kZ, k ∈N ist
p =
0 1 0 · · · 0 0
0 0 1 · · · 0 0...
.. . . .....
...
0 0 0 · · · 1 0
0 0 0 · · · 0 1
1 0 0 · · · 0 0
.
Das charakteristische Polynom istχ(λ) = (−1)k · (λk − 1), und die Eigenwerte vonp sind
dementsprechend diek-ten Einheitswurzelnλj = exp(2πi · (j − 1)/k), j = 1, . . . , k. Da
alle Eigenwerte Betrag1 haben, gilt keine exponentielle Konvergenz ins Gleichgewicht.
Tatsächlich ist die Markovkette mit Übergangsmatrixp periodisch:Xn+mk = Xn P -fast
sicher für allen,m ≥ 0.
5
4
3
2
1
1
1
1
1 1
1
1
1
Abbildung 11.3: Darstellung eines gerichteten Graphen einer Markovkette aufZ/mZ.
Verteilung auf dem Pfadraum; kanonisches Modell
In Satz 11.5 haben wir die endlich-dimensionalen VerteilungenP (X0, X1, . . . , Xn)−1 einer
Markovkette(Xn)n≥0 berechnet. Viele relevante Ereignisse hängen aber von unendlich vielen
Universität Bonn Wintersemester 2009/2010
366 KAPITEL 11. MARKOVKETTEN
der ZufallsvariablenXn ab. Die gemeinsame Verteilung aller dieser Zufallsvariablen ist eine
Wahrscheinlichkeitsverteilung auf dem unendlichen Produktraum
S := S0,1,2,... = x = (x0, x1, x2, . . .) | xi ∈ S
aller diskreten Pfade (Folgen) mit Werten inS. Wir versehen die MengeS wie üblich mit der von
den Koordinatenabbildungen
πk : S → S, πk(x) = xk,
erzeugten Produkt-σ-Algebra
F = σ(πk|k ≥ 0) =⊗
k≥0
S.
Einen auf einem Wahrscheinlichkeitsraum(Ω,A, P ) definierten stochastischen Prozess(Xn)n≥0
können wir auch als Abbildung
X = (Xn) : Ω → S
auffassen. Die AbbildungX ist eineS-wertige Zufallsvariable, also messbar bzgl. derσ-Algebren
A/F , dennF wird von den Koordinatenabbildungenπk erzeugt, undπk(X) = Xk ist für alle
k ≥ 0 messbar. Wir können daher die Verteilung
µX [A] = P [(Xn) ∈ A], A ∈ F ,
des stochastischen Prozesses(Xn) auf dem Pfadraum(S,F) betrachten.
Wir beschränken uns nun wieder auf Markovketten. Seienp1, p2, . . . stochastische Kerne, undµ
eine Wahrscheinlichkeitsverteilung auf(S,S).
Satz 11.7(Existenz und Eindeutigkeit in Verteilung von Markovketten). (1). Es existiert ge-
nau eine WahrscheinlichkeitsverteilungPµ auf dem unendlichen Produktraum(S,F), bzgl.
der die Folge(πn)n≥0 der Koordinatenabbildungen eine Markovkette mit Startverteilung
µ(dx) und Übergangskernpn(x, dy) ist.
(2). Ist (Xn)n≥0 auf (Ω,A, P ) eine beliebige Markovkette mit Startverteilungµ und Über-
gangswahrscheinlichkeitenpn, dann gilt
P [(Xn) ∈ A] = Pµ[A] für alleA ∈ F ,
d.h.Pµ ist die Verteilung von(Xn) auf (S,F).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.1. GRUNDLAGEN 367
Bemerkung(Unendliches mehrstufiges Modell). Die VerteilungPµ der Markovkette entspricht
einem mehrstufigen Modell auf dem unendlichen ProduktraumS = S0,1,2,...:
Pµ(dx) = µ(dx0)p1(x0, dx1)p2(x1, dx2) · . . . .
Beweis.Nach Satz 11.5 ist ein stochastischer Prozess(Xn) genau dann eine Markovkette zuµ
undpn, wenn(X0, . . . , Xn) für jedesn ≥ 0 die Verteilung
µ0:n(dx0:n) := µ(dx0)p1(x0, dx1) · . . . · pn(xn−1, dxn)
hat. Zu zeigen ist, dass zu der Familieµ0:n, n ≥ 0, von Wahrscheinlichkeitsverteilungen auf den
endlichdimensionalen ProdukträumenS0,1,...,n eine eindeutige Wahrscheinlichkeitsverteilung
Pµ auf den unendlichen ProduktraumS existiert, bzgl. der die erstenn+1 Koordinatenx0, . . . , xn
für jedesn die Verteilungµ0:n haben. Die Folgeπn(x) = xn der Koordinatenabbildungen ist dann
unterPµ eine Markovkette mit den vorgegebenen Übergangswahrscheinlichkeiten.
Existenz: Die Wahrscheinlichkeitsverteilungenµ0:n auf den endlichdimensionalen Produkträu-
menS0,1,...,n sindkonsistent, d.h. fürm ≤ n stimmt die Verteilung der erstenm+1 Koor-
dinaten unterµ0:n mit µ0:m überein. Aus dem Fortsetzungssatz von Carathéodory folgt nun
allgemein, dass zu einer Familie von konsistenten endlichdimensionalen Verteilungen eine
Wahrscheinlichkeitsverteilung auf dem unendlichen Produktraum mit den entsprechenden
Randverteilungen existiert (Fortsetzungssatz von Kolmogorov). Wir verzichten hier auf den
Beweis dieser maßtheoretischen Aussage, der sich in vielen Lehrbüchern zur Wahrschein-
lichkeitstheorie findet, s. z.B. [Bauer], [Klenke], oder den Anhang in [Durrett: Probability
- Theory and Examples].
Eindeutigkeit: Ein stochastischer Prozess(Xn) auf einem Wahrscheinlichkeitsraum(Ω,A, P )ist genau dann eine Markovkette mit Parameternµ undpn, wenn∫
B0
µ(dx0)
∫
B1
p1(x0, dx1) · · ·∫
Bn
pn(xn−1, dxn) = P [X0 ∈ B0, . . . , Xn ∈ Bn] = P [X ∈ A]
(11.1.11)
für jede Zylindermenge der Form
A = B0 ×B1 × . . .× Bn × S × S × . . . = π0 ∈ B0, . . . , πn ∈ Bn,
mit n ∈ N undB0, . . . , Bn ∈ S gilt. Da die Zylindermengen ein durchschnittsstabiles
Erzeugendensystem der Produkt-σ-AlgebraF bilden, ist die Verteilung vonX auf (S,F)
durch (11.1.11) eindeutig festgelegt.
Universität Bonn Wintersemester 2009/2010
368 KAPITEL 11. MARKOVKETTEN
IstXn = πn der Koordinatenprozess auf dem Produktraum(Ω,A) = (S,F), dann stimmt
die Verteilung vonX mit dem zugrundeliegenden WahrscheinlichkeitsmaßP überein, d.h.
P ist durch (11.1.11) eindeutig festgelegt.
Bemerkung (Konstruktive Existenzbeweise). Im Fall S = R erhalten wir die Wahrschein-
lichkeitsverteilungPµ auch direkt als Verteilung der im letzten Abschnitt explizit konstruierten
Markovkette(Xn) mit Startverteilungµ und Übergangswahrscheinlichkeitenpn. Auch auf allge-
meineren Zustandsräumen kann man die Existenz vonPµ auf ähnliche Weise aus der Existenz
einer Folge von auf(0, 1) gleichverteilten, unabhängigen Zufallsvariablen herleiten (z.B. durch
eine messbare Transformation des Zustandsraums nachR).
Nach Satz 11.7 können wir eine Markovkette mit beliebigen Übergangswahrscheinlichkeiten
durch die Koordinatenabbildungen auf dem unendlichen ProduktraumS = S0,1,2,... realisie-
ren.
Definition. Der durch die Koordinatenabbildungenπn(x) = xn gegebene stochastische Pro-
zess auf dem Wahrscheinlichkeitsraum(S,F , Pµ) heißt kanonisches Modellder Markovkette
mit Startverteilungµ und Übergangswahrscheinlichkeitenpn.
Allgemein kann man jeden stochastischen Prozess im kanonischen Modell realisieren, indem
man zur Verteilung des Prozesses auf dem Pfadraum übergeht.
11.2 Markoveigenschaft und Differenzengleichungen
In diesem Abschnitt werden wir die wichtige Verbindung von Markovketten und Differenzen-
gleichungen betrachten. Dazu beweisen wir zunächst eine weitergehende Form der definierenden
Eigenschaft einer Markovkette.
Sei(Xn)n≥0 auf (Ω,A, P ) eine Markovkette mit Startverteilungµ und Übergangskernenpn. Ist
(S,S) der Zustandsraum, dann hat(Xn) nach Satz 11.7 die Verteilung
Pµ(dx) = µ(dx0)p1(x0, dx1)p2(x1, dx2) · . . .
auf dem unendlichen ProduktraumS = S0,1,2,.... Wir bezeichnen im Folgenden die Verteilung
Pδx der Markovkette bei Startwertx kurz mitPx. Entsprechend seiP (n)x die Verteilung der Mar-
kovkette mit Start inx und Übergangskernenpn+1, pn+2, . . ..
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 369
Die Markoveigenschaft
In Erweiterung der definierenden Eigenschaft einer Markovkette können wir sogar die bedingte
Verteilung der umn Schritte verschobenen Kette gegeben den Verlauf bis zur Zeit n identifizie-
ren:
Satz 11.8(Markoveigenschaft). Für alle n ≥ 0 und alleF-messbaren FunktionenF : S →[0,∞) gilt:
E[F (Xn, Xn+1, . . .) |X0:n] = E(n)Xn
[F ] P -fast sicher. (11.2.1)
Bemerkung. (1). Fürzeitlich homogene Markovkettengilt P (n)x = Px für allen.
(2). Für diskrete Zustandsräume ergibt sich, dass(Xn, Xn+1, . . .) unter der bedingten Vertei-
lung gegebeneX0:n = x0:n für jedesn ≥ 0 undx0:n ∈ Sn+1 mit P [X0:n = x0:n] 6= 0 eine
Markovkette mit Start inxn und Übergangskernenpn+1, pn+2, . . . ist.
Beweis.Der Beweis erfolgt in mehreren Schritten:
(1). Wir nehmen zunächst an, dass die FunktionF nur von endlich vielen Variablen abhängt,
d.h.
F (x0, x1, . . .) = f(x0:k) für eink ≥ 0 und eine messbare Funktionf : Sk+1 → R+.
(11.2.2)
In diesem Fall können wir direkt verifizieren, dassE(n)Xn
[F ] eine Version der bedingten
Erwartung in (11.2.1) ist:
(a) Es giltE(n)Xn
[F ] = g(Xn) mit
g(z) = E(n)z [F ] =
∫p1(z, dx1)
∫p2(x1, dx2) · · ·
∫pk(xk−1, dxk)f(x0:k).
Daf : Sk+1 → R+ produktmessbar ist, istg : S → R+ messbar.
(b) Fürn ≥ 0 und eine messbare Funktionh : Sn+1 → R+ gilt
E[F (Xn, Xn+1, . . .)h(X0:n)] = E[f(Xn:n+k)h(X(0:n))]
=
∫µ(dx0)
∫p1(x0, dx1) · · ·
∫pn(xn−1, dxn)h(x0:n)×
×∫pn+1(xn, dxn+1) · · ·
∫pn+k(xn+k−1, dxn+k)f(xn:n+k)
︸ ︷︷ ︸E
(n)Xn
[F ]
= E[E
(n)Xn
[F ] · h(X0:n)].
Universität Bonn Wintersemester 2009/2010
370 KAPITEL 11. MARKOVKETTEN
(2). Nach (1) gilt (11.2.1) für IndikatorfunktionenF = IA von Zylindermengen der Form
A = x ∈ S : x0 ∈ B0, . . . , xn ∈ Bn mit n ∈ N undB0, . . . , Bn ∈ S. Wir zeigen nun,
dass die Aussage dann auch für Indikatorfunktionen von beliebigen MengenA aus der
Produkt-σ-AlgebraF gilt. Dazu bemerken wir, dass das SystemD aller MengenA ∈ F ,
für die (11.2.1) mitF = IA gilt, ein Dynkinsystem ist. Sind beispielsweiseA1, A2, . . . ∈ Ddisjunkt, dann ist auch
⋃k Ak in D enthalten, denn
E[I⋃Ak(Xn, Xn+1, . . .) |X0:n] =
∑
k
E[IAk(Xn, Xn+1, . . .) |X0:n]
=∑
k
E(n)Xn
[IAk] = E
(n)Xn
[I⋃Ak] P -fast sicher.
Da die Zylindermengen ein durchschnittsstabiles Erzeugendensystem der Produkt-σ-Algebra
bilden, folgtD = F , d.h. (11.2.1) gilt für alleF = IA mit A ∈ F .
(3). Die Aussage (11.2.1) für beliebige nicht-negativeF-messbare FunktionenF folgt nun wie
üblich durch maßtheoretische Induktion.
Bemerkung (Markoveigenschaft im kanonischen Modell). Im kanonischen Modell können
wir die Markoveigenschaft noch etwas kompakter formulieren. Seiθ : S → S die durch
θ(x0, x1, . . .) = (x1, x2 . . .)
definierte Shiftabbildung auf dem PfadraumS, und seienXn : S → S,
Xn(x0, x1, . . .) = xn,
die Koordinatenabbildungen. Dann gilt:
Eµ[F θn |X0:n] = E(n)Xn
[F ] P -fast sicher (11.2.3)
für alle Wahrscheinlichkeitsverteilungenµ auf (S,S) und alle messbaren FunktionenF : S →R+.
Das folgende Korollar liefert eine weitere äquivalente Formulierung der Markoveigenschaft.
Korollar 11.9 (Markoveigenschaft, 2. Version). Ist (Xn) unterP eine Markovkette mit Para-
meternµ undpn, dann ist(Xn, Xn+1, . . .) bedingt unabhängig von(X0, . . . , Xn) gegebenXn
mit bedingter VerteilungP (n)Xn
, d.h.
E[F (Xn, Xn+1, . . .)g(X0, . . . , Xn) |Xn]
= E(n)Xn
[F ] · E[g(X0, . . . , Xn) |Xn]
= E[F (Xn, Xn+1, . . .) |Xn] · E[g(X0, . . . , Xn) |Xn] P -fast sicher
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 371
für alle messbarenF : S → [0,∞) undg : Sn+1 → [0,∞).
Beweis.Wegen der Projektivität der bedingten Erwartung gilt nach Satz 11.8:
E[F (Xn:∞)g(X0:n) |Xn] = E[E[F (Xn:∞)g(X0:n) |X0:n] |Xn]
= E[E
(n)Xn
[F ]g(X0:n)∣∣∣ Xn
]= E
(n)Xn
[F ] · E[g(X0:n) |Xn].
Das Korollar besagt anschaulich, dass, gegeben den gegenwärtigen ZustandXn, die zukünftige
Entwicklung einer Markovkette bedingt unabhängig von der vorherigen Entwicklung ist:
„Die Zukunft ist bedingt unabhängig von der Vergangenheit gegeben die Gegenwart.“
Beispiel(Das klassische Ruinproblem). Wir wollen nun den Zusammenhang von Markovketten
und Differenzengleichungen zunächst in einem einfachen Beispiel betrachten. In jeder Runde
eines Glücksspiels trete einer der folgenden Fälle ein:
• Mit Wahrscheinlichkeitp ∈ (0, 1) gewinnt der Spieler 1 Euro dazu.
• Mit Wahrscheinlichkeitq = 1− p verliert der Spieler 1 Euro.
Die Entwicklung des KapitalsXn des Spielers kann dann durch einen Random Walk aufZ mit
Übergangswahrscheinlichkeitenp(x, x+1) = p, p(x, x− 1) = q beschrieben werden. Seix ∈ Z
das Startkapital, und seiena, b ∈ Z mit a ≤ x ≤ b. Wir können den Random Walk ohne Be-
schränkung der Allgemeinheit im kanonischen Modell betrachten, d.h.Px ist die Verteilung bei
Startwertx auf dem ProduktraumΩ = Z0,1,2,... undXn(ω) = ωn ist dien-te Koordinatenabbil-
dung.
Das Glücksspiel soll folgende mögliche Ausgänge haben:
• Im FallXn ≤ a ist der Spieler bankrott.
• Im FallXn ≥ b ist der Gegenspieler (bzw. die Spielbank) bankrott.
Die Zeit, zu der eines dieser beiden Ereignisse zum ersten Mal eintritt, wird durch die Zufallsva-
riable
T (ω) := minn ≥ 0 |Xn(ω) ≤ a oder Xn(ω) ≥ b
beschrieben, wobei wirmin ∅ = ∞ setzen. Wegenlim sup |Xn| = +∞ gilt T < ∞ PX-fast
sicher für allex. Also ist der Austrittspunkt
XT (ω) := XT (ω)(ω)
Universität Bonn Wintersemester 2009/2010
372 KAPITEL 11. MARKOVKETTEN
des Random Walks(Xn) aus dem Intervall(a, b) Px-fast sicher definiert, und mit Wahrschein-
lichkeit 1 gilt XT = a (Spieler bankrott) oderXT = b (Spielbank bankrott). Wegen
XT =∞∑
n=0
Xn · IT=n
ist auchXT eine Zufallsvariable. Uns interessiert dieRuinwahrscheinlichkeit
h(x) := Px[XT = a]
des Spielers bei Startkapitalx. Um diese zu berechnen, bedingen wir auf den ersten Schritt des
Random Walks („first step analysis“). Sei dazu
Xn(ω) := Xn+1(ω) = Xn(θ(ω))
der um einen Schritt verschobene Prozess, und sei
T = minn ≥ 0 | Xn ≤ a oder Xn ≥ b.
Füra < x < b gilt T ≥ 1, also
XT (ω) = XT (ω) = XT (θ(ω)) für alleω ∈ Ω.
Daher folgt mit der Markoveigenschaft:
h(x) = Px[XT = a] = Px[XT θ = a]
= Px[XT θ = a |X1 = x+ 1] · Px[X1 = x+ 1] +
+Px[XT θ = a |X1 = x− 1] · Px[X1 = x− 1](11.2.1)= Px+1[XT = a] · p+ Px−1[XT = a] · q= p · h(x+ 1) + q · h(x− 1).
Die Funktionh hat also diegewichtete Mittelwerteigenschaft
h(x) = p · h(x+ 1) + q · h(x− 1), für allea < x < b.
Diese Eigenschaft ist äquivalent zu den Differenzengleichungen
0 = p · (h(x+ 1)− h(x))− q · (h(x)− h(x− 1)) bzw. (11.2.4)
0 = q((h(x+ 1)− h(x))− (h(x)− h(x− 1))︸ ︷︷ ︸diskrete 2. Ableitung
) + (p− q) (h(x+ 1)− h(x))︸ ︷︷ ︸diskrete 1. Ableitung
.(11.2.5)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 373
Die gesuchte Ruinwahrscheinlichkeith(x) löst (11.2.3) bzw. (11.2.4) bzw. (11.2.5) mit den Rand-
bedingungen
h(a) = Pa[XT = a] = 1, h(b) = Pb[XT = a] = 0.
Die Lösung der Differenzengleichung können wir leicht berechnen. Dazu verfahren wir ähnlich
wir bei linearen gewöhnlichen Differentialgleichungen. Nach (11.2.4) gilt für die erste Differenz
v(x) := h(x+ 1)− h(x):
v(x) =q
p· v(x− 1) für allea < x < b,
d.h.v(x) = c · (q/p)x für ein c ∈ R. Wir unterscheiden folgende Fälle:
(1). Faire Münzwürfe(p = q = 12): In diesem Fall ist
h(x) = cx+ d mit c, d ∈ R
die allgemeine Lösung von (11.2.4) bzw. (11.2.5). Aus den Randbedingungen folgt:
h(x) =b− x
b− a(a ≤ x ≤ b).
(2). p 6= 12: In diesem Fall erhalten wir
h(x) = c ·(q
p
)x
+ d mit c, d ∈ R
als allgemeine Lösung. Aus den Randbedingungen folgt:
h(x) =
(qp
)b−(
qp
)x
(qp
)b−(
qp
)a =1−
(pq
)b−x
1−(
pq
)b−a.
Wir haben damit die Ruinwahrscheinlichkeit in allen Fällen berechnet. Ist die Erfolgswahrschein-
lichkeit p kleiner als1/2, dann gilt pq< 1 und somith(x) ≥ 1 − (p/q)b−x. Der letzte Ausdruck
hängt nicht von dem Betraga ab, bei dem der Spieler ruiniert ist. Beispielsweise gilt beiRoulette
mit Höchsteinsatz1 stets:
h(x) ≥ 1−(18
19
)b−x
.
Bei genügend kleinem Höchsteinsatz geht also mit an Sicherheit grenzender Wahrscheinlichkeit
der Spieler zuerst bankrott - selbst wenn das Kapital, das ermobilisieren kann, über dem der
Bank liegt!
Universität Bonn Wintersemester 2009/2010
374 KAPITEL 11. MARKOVKETTEN
Differenzengleichungen für Markovketten
Die beim Ruinproblem verwendete Methode, die Berechnung von Wahrscheinlichkeiten und Er-
wartungswerten von Markovketten durch Konditionieren aufden ersten Schritt auf eine Differen-
zengleichung zurückzuführen, ist viel allgemeiner anwendbar. Wir betrachten im Folgenden eine
beliebige zeithomogene Markovkette(Xn) mit Zustandsraum(S,S) und Übergangskernp(x, dy)
im kanonischen Modell. SeiD ∈ S eine messbare Teilmenge des Zustandsraums, und sei
T (ω) := minn ≥ 0 : Xn(ω) ∈ DC
die erste Trefferzeit vonDC = S \ D, d.h. dieerste Austrittszeit der Markovkette aus dem
GebietD. Hierbei setzen wir wiedermin ∅ = ∞. Wir wollen Erwartungswerte von Typ
u(x) = Ex
[T−1∑
n=0
c(Xn)
]+ Ex [f(XT ) ; T <∞] (11.2.6)
berechnen, wobeic : D → R und f : DC → R gegebene nichtnegative, messbare Funktio-
nen sind. Interpretieren wir beispielsweisec(x) als Kosten, wenn die Markovkette den Punkt
x durchläuft, undf(x) als Zusatzkosten, wenn die Markovkette im Punktx aus der MengeD
austritt, dann gibtu(x) die mittleren Gesamtkosten an, die beim Start inx bis zum Austritt aus
der MengeD anfallen. Man beachte, dass sich eine Reihe wichtiger Wahrscheinlichkeiten und
Erwartungswerte von Markovketten in der Form (11.2.6) darstellen lassen.
Beispiel. (1). c ≡ 0, f ≡ 1: Austrittswahrscheinlichkeit ausD bzw. Trefferwahrscheinlichkeit
vonDC :
u(x) = Px[T <∞].
(2). c ≡ 0, f = IB: Verteilung des AustrittspunktesXT :
u(x) = Px[XT ∈ B ; T <∞].
(3). c ≡ 1, f ≡ 0: Mittlere Austrittszeit ausD:
u(x) = Ex[T ].
(4). c = IB, f ≡ 0: Mittlere Anzahl der Besuche inB vor Austritt ausD:
u(x) = Ex
[T−1∑
n=0
IB(Xn)
]=
∞∑
n=0
Px[Xn ∈ B , n < T ].
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 375
Satz 11.10(Poissongleichung). u ist die minimale nichtnegative Lösung des Randwertproblems
u(x)− (pu)(x) = c(x) für x ∈ D, (11.2.7)
u(x) = f(x) für x ∈ DC .
Beweis. (1). Wir zeigen zunächst durch Bedingen auf den ersten Schritt, dassu das Randwert-
problem löst. Dazu betrachten wir – wie oben – die verschobene MarkovketteXn = Xn+1
und die entsprechende AustrittszeitT = minn ≥ 0 : Xn ∈ DC. Fürx ∈ D gilt Px-fast
sicherT ≥ 1, also
XT = XT undT−1∑
n=0
c(Xn) = c(X0) +T−1∑
n=0
c(Xn).
Damit erhalten wir unter Verwendung der Markoveigenschaft:
Ex
[T−1∑
n=0
c(Xn) + f(XT ) · IT<∞
∣∣∣∣∣ X1
]
= Ex
c(x) +
T−1∑
n=0
c(Xn) + f(XT ) · IT<∞
∣∣∣∣∣∣X1
= c(x) + EX1
[T−1∑
n=0
c(Xn) + f(XT ) · IT<∞
]
= c(x) + u(X1) P -fast sicher,
wobei wirf(XT ) · IT<∞ := 0 aufT = ∞ setzen. Durch Bilden des Erwartungswertes
bzgl.Px ergibt sich:
u(x) = c(x) + Ex[u(X1)] = c(x) + (pu)(x) für allex ∈ D.
Fürx ∈ DC gilt T = 0 Px-fast sicher, und damit
u(x) = Ex[f(X0)] = f(x) für allex ∈ DC .
Also löstu das Randwertproblem (11.2.7).
(2). Sei nunv ≥ 0 eine beliebige Lösung des Randwertproblems. Wir wollen zeigen, dass
v ≥ u gilt. Dazu betrachten wir fürm ∈ N die Funktion
um(x) := Ex
(T∧m)−1∑
n=0
c(Xn) + f(XT ) · IT≤m
, x ∈ S.
Universität Bonn Wintersemester 2009/2010
376 KAPITEL 11. MARKOVKETTEN
Nach dem Satz über monotone Konvergenz giltu(x) = supm≥1
um(x). Durch Konditionieren
auf den ersten Schritt erhalten wir ähnlich wie oben:
um+1(x) = c(x) + (p um)(x) für x ∈ D, und (11.2.8)
um+1(x) = f(x) für x ∈ DC .
Wir zeigen nun durch Induktion nachm:
v ≥ um für allem ≥ 0. (11.2.9)
Fürm = 0 ist (11.2.9) erfüllt, denn nach Voraussetzung gilt
v(x) ≥ 0 = u0(x) für allex ∈ D, und v(x) = f(x) = u0(x) für allex ∈ DC .
Gilt (11.2.9) für einm ≥ 0, dann folgt zudem
v = pv + c ≥ pum + c(11.2.8)= um+1 aufD, und
v = f = um+1 aufDC ,
d.h. (11.2.9) gilt auch fürm + 1. Also ist (11.2.9) für allem ≥ 0 erfüllt. Damit folgt aber
auch
v ≥ supum = u,
d.h.u ist tatsächlich dieminimalenichtnegative Lösung von (11.2.7).
Wir wollen uns nun das erhaltene Randwertproblem genauer ansehen. In kompakter Notation
können wir (11.2.7) schreiben als
− L u = c aufD, (11.2.10)
u = f aufDC
mit
(L u)(x) := (pu)(x)− u(x) =
∫p(x, dy)(u(y)− u(x)).
Der lineare OperatorL = p− I heißtGenerator der Markovkette. Auf diskreten Zustandsräu-
men istL ein Differenzenoperator:
(L u)(x) =∑
y∈Sp(x, y)(u(y)− u(x)).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 377
Beispiel (Random Walk auf Zd, Poissongleichung und Dirichletproblem). Für den klassi-
schend-dimensionalen Random Walk gilt
p(x, y) =
12d
falls |y − x| = 1,
0 sonst.
Damit ergibt sich
(L u)(x) =1
2d
d∑
i=1
(u(x+ ei)− u(x) + u(x− ei)− u(x))
=1
2d
d∑
i=1
((u(x+ ei)− u(x))− (u(x)− u(x− ei))) .
Also ist
L =1
2d∆Zd
der diskrete Laplace-Operator multipliziert mit der Übergangswahrscheinlichkeit. (11.2.10) ist
also ein Randwertproblem für diediskrete Poissongleichung
(∆Zdu)(x) = −2dc(x).
Beispielsweise ist die mittlere Austrittszeitu(x) des Random Walks mit Start inx aus einer
MengeD durch die minimale nichtnegative Lösung des Randwertproblems
∆Zdu = −2d aufD,
u = 0 aufDC ,
gegeben. Wollen wir die Verteilung des AustrittspunktesXT berechnen (wie z.B. beim Ruinpro-
blem), dann müssen wirc ≡ 0 setzen. In diesem Fall ist (11.2.10) eindiskretes Dirichletproblem:
Gesucht ist eine Funktionu : Zd → R mit
∆Zdu = 0 aufD,
u = f aufDC .
Universität Bonn Wintersemester 2009/2010
378 KAPITEL 11. MARKOVKETTEN
D
DC
Abbildung 11.4: Diskretes Dirichletproblem auf einer MengeD ⊂ Z2.
Dirichletproblem und Austrittsverteilung
Allgemein nennen wir Funktionenh : S → R mit L h = 0 harmonisch.
Definition. Eine nach unten beschränkte, messbare Funktionh : S → R heißtharmonisch auf
der MengeD bzgl. des stochastischen Kernsp, falls
(L h)(x) = (ph)(x)− h(x) = 0 für alle x ∈ D
gilt, d.h. fallsh dieverallgemeinerte Mittelwerteigenschaft∫p(x, dy)h(y) = h(x) für alle x ∈ D (11.2.11)
besitzt.
Als Spezialfall von Satz 11.10 erhalten wir:
Korollar 11.11 (Stochastische Lösung des Dirichletproblems). Die Funktion
u(x) = Ex[f(XT ) ; T <∞]
ist die minimale nichtnegative Lösung des Dirichletproblems
u harmonisch aufD, u = f aufDC . (11.2.12)
Bemerkung (Lokalität ). Ist S abzählbar, dann sind für die Lösung des Dirichletproblems nur
die Werte vonf auf dem äußeren Rand
∂extD = y ∈ DC | p(x, y) > 0 für einx ∈ D
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 379
relevant. In der Tat gilt füru : S → R undx ∈ D:
(pu)(x) =∑
y∈Sp(x, y)u(y) =
∑
y∈Dp(x, y)u(y) +
∑
y∈∂Dp(x, y)u(y),
d.h.(L u)(x) hängt nicht von den Werten vonu aufDC \ ∂D ab.
Bemerkung (Eindeutigkeit des Dirichletproblems). (1). Im Allgemeinen können mehrere Lö-
sungen des Dirichletproblems (11.2.12) existieren. Ist beispielsweisep der Übergangskern
eines klassischen Random Walks auf0, 1, 2, . . . undD = 1, 2, . . ., dann sind die Funk-
tionenha(x) = ax, a ∈ R, alle harmonisch mit Randwertenha(0) = 0. Ebenso ist die
Lösung nicht eindeutig, falls einz ∈ S mit Pz[T = ∞] 6= 0 existiert, denn in diesem Fall
ist h(x) = Px[T = ∞] eine nichttriviale harmonische Funktion mit Nullrandwerten.
(2). Ist die Funktionf beschränkt, und ist die AustrittszeitT für alle x ∈ S Px-fast sicher
endlich, dann istu die eindeutige beschränkte Lösung von (11.2.12). Dies kannman z.B.
mit dem Stoppsatz für Martingale beweisen.
Satz 11.10 und Korollar 11.11 sind erste Aspekte weitreichender Beziehungen zwischen Wahr-
scheinlichkeitstheorie und Analysis (Potentialtheorie)mit fundamentalen Konsequenzen auch für
andere Gebiete der Mathematik wie z.B. Diskrete Mathematik,Differentialgeometrie, Numerik
und mathematische Physik. Wir erwähnen hier einige wichtige Gesichtspunkte und Konsequen-
zen des gefundenen Zusammenhangs. Dazu setzen wirT < ∞ Px-fast sicher für allex ∈ S
voraus. Unter dieser Annahme ist
u(x) = Ex[f(XT )] (11.2.13)
für eine nichtnegative bzw. beschränkte Funktionf aufDC die minimale nichtnegative, bzw. die
eindeutige beschränkte Lösung des Dirichletproblems.
Monte-Carlo- Methode zur Berechnung harmonischer Funktionen: Nach dem Gesetz der großen
Zahlen gilt
u(x) ≈ 1
k
k∑
i=1
f(X(i)
T (i)) für großek,
wobeiX(1), X(2), . . . unabhängige Markovketten mit Start inx und Übergangskernp sind,
undT (i) die Austrittszeit vonX(i) aus der MengeD bezeichnet. Die Simulation von Mar-
kovketten kann daher in sehr allgemeinem Rahmen zur näherungsweisen Berechnung har-
monischer Funktionen verwendet werden.
Universität Bonn Wintersemester 2009/2010
380 KAPITEL 11. MARKOVKETTEN
Stochastische Darstellung der Lösung des Dirichletproblems als Pfadintegral: Nach (11.2.13)
können wir die harmonische Funktionu schreiben als Integral
u(x) =
∫
S0,1,2,...
f(XT (ω)) P (dω)
über den Raum aller diskreten Pfade aufS. Ähnliche Pfadintegraldarstellungen spielen in
der Quantenphysik eine wichtige Rolle, siehe z.B. die LectureNotes von R. Feynman.
Integralformel für harmonische Funktionen: Seiµx := Px X−1T die Austrittsverteilung der
Markovkette mit Start inx. Dann gilt:
u(x) =
∫
DC
f(y) µx(dy).
Die Austrittsverteilungµx ist also dasharmonische Maßder Potentialtheorie, das eine
Berechnung harmonischer Funktionen aus den Randwerten ermöglicht.
Beispiele harmonischer Funktionen
Diskrete Zustandsräume
Ist S abzählbar, dann ist
hy(x) := Px[T <∞ und XT = y]
für jedesy ∈ DC eine nichtnegative, beschränkte, harmonische Funktion auf D mit Randwerten
hy(x) = Iy(x) für allex ∈ DC .
Eine Lösungu des Dirichletproblems zu beliebigen Randwertenf : DC → R+ erhält man als
Linearkombination der Funktionenhy: Gilt Px[T = ∞] = 0 für alle x ∈ S, dann gibt es genau
eine beschränkte Lösung des Dirichlet-Problems. Damit folgt, dass die Funktionenhy, y ∈ DC ,
eine Basis des Vektorraums aller beschränkten, harmonischen Funktionen bilden. Wir erhalten
also einen Zusammenhang zwischen beschränkten harmonischen Funktionen und den möglichen
Austrittspunkteny ∈ DC der Markovkette.
Beispiel. (1). Ruinproblem:Für den Random Walk aufa, a + 1, . . . , b ⊂ Z mit Übergangs-
kernp(x, x+ 1) = p, p(x, x− 1) = q = 1− p, gilt
ha(x) = Px[XT = a] =h(b)− h(x)
h(b)− h(a)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 381
und
hb(x) = Px[XT = b] =h(x)− h(a)
h(b)− h(a)
mit
h(x) :=
x für p = q
(q/p)x für p 6= q.
Die Funktionenha undhb bilden eine Basis des Vektorraumsc · h + d | c, d ∈ R aller
harmonischer Funktionen.
(2). Eine transiente Markovkette aufZ: Sei p ∈ (12, 1) und q = 1 − p. Wir betrachten die
Markovkette(Xn, Px) aufZ mit den folgenden Übergangswahrscheinlichkeiten:
-3 -2 -1 0 1 2 3 4
p
q
p
q
p
q
p
q
1/2
q
1/2
q
p
q
p
q
p
q
p
q
Abbildung 11.5: Übergangswahrscheinlichkeiten der transienten Markovkette(Xn, Px)
Fürx > 0 gilt
p(x, x+ 1) = p > q = p(x, x− 1),
für x < 0 dagegen umgekehrt
p(x, x+ 1) = q < p = p(x, x− 1).
Daher haben die EreignisselimXn = ∞ und limXn = −∞ beide positive Wahr-
scheinlichkeit. Die Funktion
h+(x) :=
1− 1
2
(qp
)xfür x > 0
12
(qp
)−x
für x ≤ 0
ist harmonisch mit Randbedingungen
limx→∞
h+(x) = 1
und
limx→−∞
h+(x) = 0.
Universität Bonn Wintersemester 2009/2010
382 KAPITEL 11. MARKOVKETTEN
Entsprechend isth−(x) = h+(−x) harmonisch mit
limx→−∞
h−(x) = 1
und
limx→∞
h−(x) = 0,
und jede harmonische Funktion ist eine Linearkombination vonh+ undh−. Durch Bedin-
gen auf den ersten Schritt der Markovkette zeigt man
h+(x) = Px[limXn = ∞]
und
h−(x) = Px[limXn = −∞].
Die harmonischen Funktionenh+ undh− beschreiben in diesem Fall die möglichen Asym-
ptotiken der Markovkette.
Rotationssymmetrischer Fall
Wir betrachten eine Markovkette aufS = Rd, deren Übergangsverteilungenp(x, dy) für jedesx
rotationssymmetrisch mit Zentrumx sind.
Beispielsweise seiXn = x +n∑
i=1
Yi ein Random Walk, dessen InkrementeYi unabhängig mit
identischer rotationssymmetrischer Verteilung sind. Dann ist jede Funktionu ∈ C2(Rd) mit
∆u =d∑
i=1
∂2u
∂x2i= 0
(also jede harmonische Funktion des Laplaceoperators) auch eine harmonische Funktion des
Übergangskernsp, falls u für alle x ∈ Rd bzgl. p(x, dy) integrierbar ist. Aus der Greenschen
Formel folgt nämlich die Mittelwerteigenschaft
u(x) = Mittelwert vonu auf∂Br(x)
für alle Sphären∂Br(x) = y ∈ Rd : |y − x| = r, r > 0, siehe z.B. [Forster, Analysis III]. Da
p(x, dy) rotationssymmetrisch ist, erhalten wir durch Integrationüber den Radius:
u(x) =
∫p(x, dy)u(y),
d.h.u ist in der Tat harmonisch bzgl.p.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 383
Mittlere Aufenthaltszeiten und Greenfunktion
Die mittlere Aufenthaltszeit
u(x) = Ex
[T−1∑
n=0
IB(Xn)
]=
∞∑
n=0
Px[Xn ∈ B , n < T ],
einer Markovkette mit Übergangskernp in einer MengeB ∈ S vor Austritt ausD löst das
Randwertproblem
u− pu = IA aufD
u = 0 aufDC .
Wir betrachten nun den diskreten Fall: SeiS abzählbar,D ⊂ S, und sei
BDy :=
T−1∑
n=0
Iy(Xn), y ∈ S,
die Anzahl der Besuche der Markovkette iny vor Austritt ausD. Für die mittlere Anzahl der
Besuche iny bei Start inx gilt
Ex[BDy ] = Ex
[ ∞∑
n=0
IXn∈B , n<T
]=
∞∑
n=0
pDn (x, y),
wobei
pDn (x, y) = Px[Xn = y , n < T ]
die n-Schritt-Übergangswahrscheinlichkeit der Markovkette mit Absorption bei Austritt ausD
bezeichnet.
Definition. Die durch
GD(x, y) :=∞∑
n=0
pDn (x, y)
definierte FunktionGD : S × S → [0,∞] heißtGreensche Funktionder Markovkette im Gebiet
D.
Korollar 11.12. (1). GD(•, y) ist die minimale Lösung des Randwertproblems
(I − p)GD(•, y) = Iy aufD,
GD(•, y) = 0 aufDC .
Universität Bonn Wintersemester 2009/2010
384 KAPITEL 11. MARKOVKETTEN
(2). Für alle Funktionenf : S → [0,∞] gilt
Ex
[T−1∑
n=0
f(Xn)
]= (GDf)(y).
Beweis.Die erste Aussage folgt unmittelbar aus Satz 11.10. Für eineFunktionf ≥ 0 gilt:
Ex
[T−1∑
n=0
f(Xn)
]= Ex
[T−1∑
n=0
∑
y∈Sf(y) · Iy(Xn)
]=∑
y∈SGD(x, y)f(y) = (GDf)(y).
Beispiel (Random Walk auf Zd). Die Greensche Funktion des klassischen Random Walks auf
Zd ist die minimale nichtnegative Lösung des Randwertproblems
∆ZdGD(•, y) = −2dIy aufD,
GD(•, y) = 0 aufDC .
Sie ist damit ein diskretes Analogon zur Greenschen Funktion der Analysis, die als Fundamen-
tallösung der Poissongleichung definiert ist. Beispielsweise erhält man für den klassischen eindi-
mensionalen Random Walk als Greensche Funktion eines IntervallsD = a, a+, . . . , b ⊂ Z :
GD(x, y) =
2(b− y)(x− a)
b− afür a ≤ x < y
2(y − a)(b− x)
b− afür y ≤ x ≤ b
.
a y b
GD(•, y)
Abbildung 11.6: Darstellung des Graphen der FunktionGD(•, y).
11.3 Rekurrenz und Transienz
Seip(x, y) (x, y ∈ S) eine stochastische Matrix auf einer abzählbaren MengeS. Wir betrachten
eine zeithomogene Markovkette(Xn, Px) mit Übergangsmatrixp im kanonischen Modell, d.h.
Ω = S0,1,2,..., Xn(ω) = ωn, A = σ(Xn | n ≥ 0),
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ 385
undPx ist die Verteilung der Markovkette bei Start inx. Füry ∈ S sei
By(ω) =∞∑
n=0
Iy(Xn(ω))
die Anzahl der Besuche(Aufenthaltszeit) der Markovkette im Punkty. Wir wollen untersuchen,
ob die Markovkette immer wieder zu ihrem Startpunkt zurückkehrt.
Definition. Ein Punktx ∈ S heißt transient, falls Px[Bx = ∞] = 0 gilt, und rekurrent, falls
Px[Bx = ∞] = 1.
Sei nun
G(x, y) = Ex[By] =∞∑
n=0
pn(x, y)
die mittlere Anzahl der Besuche der Markovkette im Punkty bei Start inx. Offensichtlich istx
transient, wenn
G(x, x) = Ex[Bx] < ∞
gilt. Wir werden in Korollar 11.15 zeigen, dass umgekehrtx rekurrent ist, wennG(x, x) = ∞gilt. Insbesondere ergibt sich ein0-1-Gesetz: Jeder Punkt ist entweder transient oder rekurrent.
Allgemeiner werden wir sehen, dass bei irreduziblen Markovketten sogar entweder alle Punkte
transient oder alle Punkte rekurrent sind – wir nennen die Markovkette in diesem Falltransient
bzw. rekurrent.
Intuitiv können wir diese Dichotomie folgendermaßen erklären: Jedes Mal, wenn die Markov-
kette zum Startpunktx zurückkehrt, startet sie aufgrund der Markoveigenschaft wieder neu in
diesem Punkt – unabhängig vom vorherigen Verlauf. Kehrt dieKette also mit Wahrscheinlichkeit
1 wieder zum Startpunkt zurück, dann kehrt sie auch mit Wahrscheinlichkeit1 immer wieder,
also unendlich oft nachx zurück. Ist die Markovkette zudem irreduzibel, dann erreicht sie jeden
festen Punkty auf jeder Exkursion mit einer konstanten strikt positiven Wahrscheinlichkeit –
trifft also insgesamt den Punkty mit Wahrscheinlichkeit1 unendlich oft.
Kehrt die Kette dagegen mit einer strikt positiven Wahrscheinlichkeit ε > 0 nicht zum Startpunkt
x zurück, dann wird sie auch bei jedem weiteren Erreichen vonx mit derselben Wahrschein-
lichkeit ε nicht wieder zurückkehren – unabhängig vom vorherigen Verlauf. Also wird sie mit
Wahrscheinlichkeit1 schließlich nicht mehr nachx zurückkehren – sie durchläuft also jeden
Punkt nur endlich oft.
Um dieseDichotomie von Rekurrenz und Transienzrigoros zu beweisen, benötigen wir eine
Markoveigenschaft für diezufälligen(!) Rückkehrzeiten zum Startpunkt. Bevor wir eine entspre-
chende „starke Markoveigenschaft“ beweisen, betrachten wir schon mal eine Anwendung auf
mehrdimensionale Random Walks.
Universität Bonn Wintersemester 2009/2010
386 KAPITEL 11. MARKOVKETTEN
Beispiel (Rekurrenz und Transienz von Random Walks inZd). Sei (Xn, Px) der klassische
Random Walk aufZd mit Übergangswahrscheinlichkeitenp(x, y) = 12d
falls |x − y| = 1,
p(x, y) = 0 sonst. Wir untersuchen Rekurrenz und Transienz in Abhängigkeit von der Dimension
d:
d = 1: Im eindimensionalen Fall erhalten wir für die Rückkehrwahrscheinlichkeiten zum Aus-
gangspunktx mithilfe der Stirling-Approximation:
p2n(x, x) =
(2n
n
)· 2−2n =
(2n)!
(n!)22−2n
∼√4πn
2πn
(2n)2n
n2n· 2−2n =
1√πn
.
Also gilt G(x, x) =∞∑n=0
pn(x, x) = ∞, d.h. jeder Punktx ∈ Z ist rekurrent.
d = 2: Beim klassischen Random WalkXn = (X(1)n , X
(2)n ) aufZ2 sind die KomponentenX(1)
n
undX(2)n nicht unabhängig.
1/4
1/4
1/4
1/4
Abbildung 11.7: Übergangswahrscheinlichkeiten des klassischen Random Walks.
Durch eine45 Drehung des Koordinatensystems, können wir den Prozess aber in einen
zweidimensionalen Random Walk
Yn = (X(1)n +X(2)
n , X(1)n −X(2)
n )
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ 387
1/4
1/4
1/4
1/4
Abbildung 11.8: Übergangswahrscheinlichkeiten des um45 gedrehten Random Walks.
überführen, dessen KomponentenY (1)n und Y (2)
n unabhängige eindimensionale Random
Walks sind. Offensichtlich gilt:
Xn rekurrent ⇐⇒ Yn transient.
Die Übergangswahrscheinlichkeiten fürYn sind
p2n(x, x) = Px[Y(1)2n = x1, Y
(2)2n = x2] = Px1 [Y
(1)2n = x1] · Px2 [Y
(2)2n = x2]
=
((2n
n
)· 2−2n
)2
∼ 1
πn.
Also gilt erneutG(x, x) = ∞, d.h. jedesx ∈ Z2 ist rekurrent.
d = 3: Betrachten wir einen dreidimensionalen Random Walk
Yn = (X(1)n , X(2)
n , X(3)n ),
dessen KomponentenX(i)n unabhängige klassische Random Walks aufZ1 sind, dann gilt
entsprechend
p2n(x, x) =
((2n
n
)· 2−2n
)3
∼ 1
(πn)3/2,
und damit
G(x, x) =∞∑
n=0
p2n(x, x) < ∞
Universität Bonn Wintersemester 2009/2010
388 KAPITEL 11. MARKOVKETTEN
Der Prozess ist alsotransient. Auch der klassische Random Walk aufZ3 ist transient – der
Beweis erfordert allerdings etwas mehr Kombinatorik, da sich der Prozess in Dimension
3 nicht durch eine Drehung in einen Prozess mit unabhängigen Komponenten überführen
lässt. Die Details werden in einer Übungsaufgabe ausgeführt. Analog folgt Transienz in
höheren Dimensionen. Zwischen Dimension2 und3 gibt es also einen Übergang von re-
kurrentem zu transientem Verhalten. Anschaulich steht in Dimensiond > 2 soviel Raum
zur Verfügung, dass der Random Walk der Startpunkt schließlich nicht mehr trifft.
Starke Markoveigenschaft
Wir beweisen nun die angekündigte Erweiterung der Markoveigenschaft auf zufällige Zeiten
(Stoppzeiten). Die Information, die über einen stochastischen Prozess(Xn)n≥0 bis zur Zeitn
vorliegt, wird beschrieben durch dieσ-Algebra
Fn = σ(X0, X1, . . . , Xn).
SeiT : Ω → 0, 1, 2, . . . ∪ ∞ eine nichtnegative ganzzahlige Zufallsvariable.T heißt eine
Stoppzeit(bzgl. derσ-AlgebrenFn), falls
T = n ∈ Fn für allen ≥ 0 gilt.
Nach dem Faktorisierungslemma istT genau dann eine Stoppzeit bzgl.(Fn)n, wennIT=n für
jedesn eine Funktion vonX0, . . . , Xn ist. Anschaulich bedeutet dies, dass aufgrund der Infor-
mation, die bis zur Zeitn vorliegt, entscheidbar ist, obT den Wertn annimmt.
Beispiel(Trefferzeiten). (1). Dieerste Treffer- bzw. Rückkehrzeit
TB = minn ≥ 1 |Xn ∈ B (min ∅ := ∞)
einer messbaren TeilmengeB des ZustandsraumesS ist eine Stoppzeit, denn es gilt
TB = n = X1 ∈ BC , . . . , Xn−1 ∈ BC , Xn ∈ B ∈ Fn für allen ≥ 0.
Hat man beispielsweise beschlossen, eine Aktie zu verkaufen, sobald ihr KursXn den Wert
λ überschreitet, dann ist der Verkaufszeitpunkt gleichT(λ,∞), also eine Stoppzeit.
(2). Die letzte Besuchszeit
LB := supn ≥ 0 |Xn ∈ B (sup ∅ := 0)
ist dagegen in der Regel keine Stoppzeit (Übung). Um zu entscheiden, obLB = n gilt,
benötigt man nämlich Informationen über die zukünftige Entwicklung des Prozesses.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ 389
Die Information, die bis zu einer Stoppzeit vorliegt, wird beschrieben durch dieσ-Algebra
FT = A ∈ A | A ∩ T = n ∈ Fn für allen ≥ 0 ,
der „bis zur Zeit T beobachtbaren“ Ereignisse. Durch maßtheoretische Induktion zeigt man,
dass eine AbbildungY : Ω → R genau dann bzgl.FT messbar ist, wennY · IT=n für jedes
n ≥ 0 Fn-messbar, also eine Funktion vonX0, . . . , Xn ist. Insbesondere ist die PositionXT des
Prozesses(Xn) zur StoppzeitT eineFT -messbare Zufallsvariable, denn fürn ≥ 0 ist
XT · IT=n = Xn · IT=n Fn-messbar.
Wir setzen nun wieder voraus, dass(Xn, Px) eine zeithomogene Markovkette im kanonischen
Modell ist.
Satz 11.13(Starke Markoveigenschaft). Ist T : Ω → 0, 1, 2, . . . ∪ ∞ eine Stoppzeit bzgl.
derσ-AlgebrenFn = σ(X0, X1, . . . , Xn), dann gilt
Eν [F (XT , XT+1, . . .) | FT ] = EXT[F (X0, X1, . . .)] Pν-fast sicher aufT <∞
für alle Wahrscheinlichkeitsverteilungenν auf(S,S) und alle messbaren FunktionenF : S0,1,2,... →R+, wobeiF (XT , XT+1, . . .) aufT = ∞ willkürlich definiert ist.
Beweis.Sei θ(x0, x1, . . .) = (x1, x2, . . .) der Shiftoperator aufS0,1,2,.... Wir müssen zeigen,
dass
Eν [F θT | FT ] · IT<∞ = EXT[F ] · IT<∞ Pν-fast sicher (11.3.1)
gilt, wobei wir die rechte Seite fürT = ∞ gleich0 setzen. FürA ∈ FT undn ≥ 0 gilt A∩T =
n ∈ Fn, also nach der Markoveigenschaft:
Eν [F θT ; A ∩ T = n] = Eν [F θn ; A ∩ T = n]= Eν [EXn [F ] ; A ∩ T = n]= Eν [EXT
[F ] ; A ∩ T = n]
Durch Summieren übern erhalten wir:
Eν [F θT ; A ∩ T <∞] = Eν [EXT[F ] ; A ∩ T <∞] .
Also stimmen die Integrale beider Seiten von (11.3.1) über eine beliebige MengeA ∈ FT über-
ein. Da beide Seiten in (11.3.1)FT -messbar sind, folgt, dass diesePν-fast sicher übereinstim-
men.
Universität Bonn Wintersemester 2009/2010
390 KAPITEL 11. MARKOVKETTEN
Anschaulich startet eine zeithomogene Markovkette also auch zu einer StoppzeitT neu im Zu-
standXT , d.h. der weitere Verlauf ist unabhängig vom vorherigen Verlauf gegeben den gegen-
wärtigen ZustandXT .
Rekurrenz und Transienz von einzelnen Zuständen
Mithilfe der starken Markoveigenschaft können wir die Verteilung der AufenthaltszeitBy der
Markovkette in einem Punkty ∈ S aus den Trefferwahrscheinlichkeiten
fx,y := Px[Ty <∞]
berechnen. Hierbei bezeichnen wir mit
Ty = minn ≥ 1 : Xn = y
die erste Trefferzeit des Zustandesy, bzw. die erste Rückkehrzeit nachy, falls die Markovkette
in y startet.
Satz 11.14.Für alle x, y ∈ S gilt
Px[By ≥ n] =
fx,y · fn−1
y,y falls x 6= y
fn−1y,y falls x = y
.
Insbesondere ist jedesy ∈ S entweder rekurrent oder transient, und es gilt:
y rekurrent ⇐⇒ fy,y = 1,
y transient ⇐⇒ fy,y < 1.
Beweis.SeiT (0) := 0, und sei
T (n) := T (n−1) + Ty θT(n−1)
dien-te Besuchszeit (bei Start außerhalb vony) bzw. Rückkehrzeit (bei Start iny) des Zustands
y.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ 391
y
T (1) T (2) T (3)T (4) T (5)
Es folgt
Px[T(n) <∞] = Px[T
(n−1) <∞ undTy θT(n−1)
<∞]
= Ex[Px[Ty θT(n−1)
<∞ | FT (n−1) ] ; T (n−1) <∞]
= Ex[PXT (n−1)
[Ty <∞] ; T (n−1) <∞]
= Py[Ty <∞] · Px[T(n−1) <∞],
also durch Induktion nachn:
Px[T(n) <∞] = Px[Ty <∞] · Py[Ty <∞]n−1 = fx,y · fn−1
y,y .
Die Aussage folgt wegen
Px[By ≥ n] =
Px[T
(n) <∞] falls x 6= y,
Px[T(n−1) <∞] falls x = y.
Bemerkung. Die Wahrscheinlichkeitenfx,y (und damit die Verteilungen der Aufenthaltszeiten)
kann man im Prinzip durch Lösen eines Dirichletproblems berechnen: Nach Korollar 11.11 bil-
den die Trefferwahrscheinlichkeiten
h(x) = Px[Ty <∞], Ty := minn ≥ 0 |Xn = y,
die minimale nichtnegative Lösung von
ph = h aufS \ y; h(y) = 1.
WegenTy = Ty Px-fast sicher für allex 6= y folgt fx,y = h(x) für x 6= y, und
fy,y =∑
x∈Sp(y, x)fx,y = (ph)(y).
Universität Bonn Wintersemester 2009/2010
392 KAPITEL 11. MARKOVKETTEN
Beispiel(Kartenhaus, Maschinenerneuerung). Wir betrachten eine Markovkette mit Zustands-
raumS = 0, 1, 2, . . . und Übergangswahrscheinlichkeiten
p(x, x+ 1) = 1− x, p(x, 0) = x, x ∈ (0, 1).
1− x
x
0 1 2 · · · x x+ 1
Abbildung 11.9: Übergangswahrscheinlichkeiten der durchp gegebenen Markovkette.
Hier gilt
P0[T0 > n] =n−1∏
x=0
(1− x),
also:
0 rekurrent ⇐⇒ P0[T0 = ∞] =∞∏
x=0
(1− x) = 0 ⇐⇒∞∑
x=0
x = ∞
Aus Satz 11.14 folgt unmittelbar die schon oben erwähnte Charakterisierung rekurrenter Zustän-
de über die Greensche Funktion:
Korollar 11.15 (Rekurrenzkriterium ). Für alle x ∈ S gilt
G(x, x) =1
1− fx,x=
1
Px[Tx = ∞]falls Px[Tx = ∞] > 0,
bzw.G(x, x) = ∞ fallsPx[Tx = ∞] = 0. Insbesondere istx genau dann rekurrent, wennG(x, x)
unendlich ist.
Beweis.Fürx ∈ S gilt nach Satz 11.14:
G(x, x) = Ex[Bx] =∞∑
n=1
Px[Bx ≥ n]
=∞∑
n=1
fn−1x,x =
∞∑
n=0
fnx,x.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ 393
Leider ist das Kriterium zwar für die Theorie wichtig, aber praktisch nur selten einsetzbar. Leich-
ter verifizierbare hinreichende Bedingungen für Rekurrenz und Transienz basieren auf stochasti-
schen Lyapunovfunktionen und dem Martingalkonvergenzsatz, s. [Stochastische Analysis].
Kommunikationsklassen und globale Rekurrenz
Wir wollen nun untersuchen, wie die Rekurrenz verschiedenerZuständex, y ∈ S miteinander
zusammenhängt.
Definition. Der Zustandy heißterreichbarvonx für die Markovkette(Xn, Px), falls
Px[Ty <∞] > 0
gilt.
Bemerkung. (1). Ein Zustandy ist genau dann erreichbar vonx, wenn einn ∈ Nmit pn(x, y) >
0 existiert. Insbesondere gilt füry 6= x:
y ist erreichbar vonx ⇐⇒ G(x, y) > 0.
(2). Isty erreichbar vonx undz erreichbar vony, dann istz erreichbar vonx.
(3). Ist die Übergangsmatrix irreduzibel, dann ist jeder Zustand von jedem anderen Zustand aus
erreichbar.
Wir wollen zeigen, dass mit einem Zustandx ∈ S auch jeder vonx aus erreichbare Zustandy
rekurrent ist. Dazu bemerken wir zunächst:
Lemma 11.16.Für x, y ∈ S mit y 6= x gilt
G(x, y) = Px[Ty <∞] ·G(y, y).
Beweis.Füry 6= x gilt Px-fast sicherX0 6= y, also
By = By θTy aufTy <∞.
Mit der starken Markoveigenschaft folgt
Ex[By] = Ex[By ; Ty <∞] = Ex[By θTy ; Ty <∞]
= Ey[By] · Px[Ty <∞].
Universität Bonn Wintersemester 2009/2010
394 KAPITEL 11. MARKOVKETTEN
Satz 11.17.Ist x rekurrent, undy vonx aus erreichbar, dann ist auchx vony aus erreichbar,y
ist rekurrent, und es gilt
By = ∞ Px-fast sicher und Bx = ∞ Py-fast sicher.
Insbesondere gilt also
G(x, y) = G(y, x) = G(y, y) = ∞.
Beweis. (1). y ist rekurrent:Da y von x aus erreichbar ist, existiertm ≥ 0 mit pm(x, y) > 0.
Nach dem Lemma folgt:
G(y, y) ≥ G(x, y) ≥∞∑
n=0
pn+m(x, y)
≥∞∑
n=0
pn(x, x)pm(x, y)
= G(x, x)︸ ︷︷ ︸=∞
· pm(x, y)︸ ︷︷ ︸>0
= ∞.
(2). Wir zeigenPy[Bx = ∞] = 1: Da y vonx aus erreichbar undx rekurrent ist, gilt nach der
starken Markoveigenschaft
0 < Px[Ty <∞]x rek.= Px[Ty <∞, Tx θTy <∞]
SME= Px[Ty <∞] · Py[Tx <∞],
alsofy,x = Py[Tx <∞] = 1. Dax rekurrent ist, gilt zudemfx,x = 1, also nach Satz 11.14
Py[Bx = ∞] = limn→∞
(fy,x · fn−1x,x ) = 1.
Insbesondere istx vony aus erreichbar.
(3). Analog erhalten wirPx[By = ∞] = 1 durch Vertauschen der Rolle vonx undy.
Der Satz zeigt, dass für eine Markovkette mit irreduzibler Übergangsmatrix und einem rekurren-
ten Zustand alle Zustände rekurrent sind, und jeder Zustandbei beliebiger Startverteilung mit
Wahrscheinlichkeit1 unendlich oft durchlaufen wird:
Korollar 11.18 (Dichotomie von Rekurrenz und Transienz). Für eine zeithomogene Markov-
kette mit irreduzibler Übergangsmatrix gilt entweder
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.3. REKURRENZ UND TRANSIENZ 395
(1). Allex ∈ S sind rekurrent, undPx[By = ∞] = 1 für alle x, y ∈ S, oder
(2). Allex ∈ S sind transient, undEx[By] <∞ für alle x, y ∈ S.
Ist S endlich, dann kann nur der erste Fall eintreten.
Beweis.Existiert ein rekurrenter Zustand, dann sind nach Satz 11.17 alle Zustände rekurrent,
undPx[By = ∞] = 1 für alle x, y ∈ S. Andernfalls sind nach Satz 11.14 allex ∈ S transient,
und nach Korollar 11.15 giltG(x, x) < ∞. Nach Lemma 11.16 folgt dannEx[By] < ∞ für alle
x, y ∈ S. Ist S endlich, dann kann der zweite Fall wegen
∑
y∈SEx[By] = Ex
[∑
y∈SBy
]= ∞
nicht eintreten.
Was können wir aussagen, wenn die Übergangsmatrix nicht irreduzibel ist?
Allgemein ist die Relation
x y „y ist vonx aus erreichbar“
eine Äquivalenzrelation auf der MengeSrek der rekurrenten Zustände inS. Die zugehörigen
ÄquivalenzklassenSi, i ∈ I, heißenRekurrenzklassen. Wir erhalten also eine disjunkte Zerle-
gung
S = Strans∪⋃
i∈ISi
des Zustandsraums in die MengeStrans der transienten Zustände, und die verschiedenen Rekur-
renzklassen
Universität Bonn Wintersemester 2009/2010
396 KAPITEL 11. MARKOVKETTEN
Strans
Si1
Si2
Abbildung 11.10: Zerlegung der MengeS in die transienten Zustände und die einzelnen Rekur-
renzklassen
Gelangt die Markovkette in eine Rekurrenzklasse, dann bleibt sie dort mit Wahrscheinlichkeit1
und durchläuft alle Zustände der Rekurrenzklasse unendlichoft. Startet die Markovkette in einem
transienten Zustand, dann läuft sie entweder in eine Rekurrenzklasse, oder sie verbleibt im transi-
enten Bereich, verlässt aber jede endliche Teilmenge vonStransschließlich mit Wahrscheinlichkeit
1.
Beispiel. (1). Ehrenfestmodell:Die Markovkette aus dem Ehrenfestmodell (s. Abschnitt 2.2)
ist rekurrent, da der ZustandsraumS = 0, 1, . . . , N endlich, und die Übergangsmatrix
p(k, k − 1) = k/N
p(k, k + 1) = (N − k)/N
irreduzibel ist.
k Moleküle N − k Moleküle
Jeder Zustand wird also unendlich oft durchlaufen, was der thermodynamischen Irrever-
sibilität zunächst zu widersprechen scheint (Einwand von Zermelo, vgl. die Bemerkung
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.4. STATIONÄRE STOCHASTISCHE PROZESSE 397
unter Satz 7.17). Tatsächlich kann man zeigen, dass die mittlere ZeitE0[TN/2] für den
Übergang vom geordneten Zustandk = 0 in den ungeordneten Zustandk = N/2 von
der GrößenordnungN logN ist, die mittlere ZeitEN/2[T0] für den umgekehrten Übergang
dagegen von der Größenordnung12N
22N . DaN zum Beispiel gleich1023 ist, ist die Rekur-
renz jenseits des ungeordneten Zustandes de facto nicht beobachtbar – im makroskopischen
SkalierungslimesN → ∞ ergibt sich bei geeigneter Zeitreskalierung eine irreversible Dy-
namik.
(2). Kartenhaus/Maschinenerneuerung:Im Fall∞∑x=0
x = ∞ sind alle Zustände der Markovket-
te aus dem Beispiel von oben rekurrent, da0 rekurrent und die Übergangsmatrix irreduzibel
ist. Andernfalls sind alle Zustände transient.
(3). Galton-Watson-Prozess:Für den Galton-Watson-Verzweigungsprozess mit Nachkommens-
verteilungν ist 0 ein absorbierenderZustand, d.h. kein anderer Zustand ist von0 aus er-
reichbar. Insbesondere ist0 eine Rekurrenzklasse. Giltν(0) 6= 0, dann ist umgekehrt0
von jedem Zustandx ∈ N aus erreichbar, also sind allex 6= 0 transient. Es folgt dann:
Px[Zn = 0 schließlich oderZn → ∞] = 1 für allex ≥ 0.
11.4 Stationäre stochastische Prozesse
In vielen Fällen nähert sich die Verteilung eines zeitlich verschobenen stochastischen Prozesses
(Yn, Yn+1, . . .) mit Zustandsraum(S,S) für n → ∞ einer GrenzverteilungP auf dem Produk-
traumΩ = S0,1,2,... mit Produkt-σ-AlgebraA an („asymptotische Stationarität“). Die Grenzver-
teilungP sollte dann selbst invariant unter Verschiebungen sein, d.h. für den Koordinatenprozess
Xn(ω) = ωn sollte gelten:
(Xn, Xn+1, . . .) ∼ (X0, X1, . . .) unterP für allen ≥ 0. (11.4.1)
Wir wollen stochastische Prozesse mit der Eigenschaft (11.4.1) nun genauer untersuchen.
Stationarität und Reversibilität
Definition. (1). Eine WahrscheinlichkeitsverteilungP auf (Ω,A) bzw. ein stochastischer Pro-
zess((Xn), P ) heißtstationär, falls (11.4.1) gilt.
Universität Bonn Wintersemester 2009/2010
398 KAPITEL 11. MARKOVKETTEN
(2). Der Prozess((Xn), P ) heißtreversibel, falls die endlichdimensionalen Verteilungen inva-
riant unter Zeitumkehr sind, d.h. falls
(X0, X1, . . . , Xn) ∼ (Xn, Xn−1, . . . , X0) unterP für alle n ≥ 0. (11.4.2)
Bemerkung. Eine WahrscheinlichkeitsverteilungP auf (Ω,A) ist genau dann stationär, wenn
die Shiftabbildungθ : Ω → Ω einemaßerhaltendeAbbildung auf dem Wahrscheinlichkeitsraum
(Ω,A, P ) ist, d.h. wennP = P θ−1 gilt.
Beispiel. (1). IID Folgen: Eine Folge(Xn)n≥0 unabhängiger, identisch verteilter Zufallsvaria-
blen ist ein stationärer und reversibler stochastischer Prozess.
(2). Gaußprozesse:Ein Gaußprozess ist ein reellwertiger stochastischer Prozess(Xn), des-
sen Randverteilungen Normalverteilungen sind. Beispielsweise ist einAR(p)-Prozess ein
Gaußprozess, wenn die Startwerte normalverteilt sind. Gaußprozesse sind eindeutig durch
die MittelwerteE[Xn] und die KovarianzenCov[Xn, Xm] festgelegt. Stationarität gilt ge-
nau dann, wennE[Xn] = α nicht vonn abhängt, undCov[Xn, Xm] = cn−m nur von der
Differenzn−m abhängt.
(3). Deterministische Rotationen:IstX0 gleichverteilt auf dem EinheitskreisS1, undXn+1 =
eiφ · Xn mit φ ∈ [0, 2π), dann ist(Xn)n≥0 stets ein stationärer Prozess. Reversibilität gilt
für φ 6= 0 nicht.
Satz 11.19.Ein reversibler Prozess ist stationär.
Beweis.Aus der Reversibilität folgt durch Zeitumkehr auf0, 1, . . . , n+ 1 und0, 1, . . . , n:
P (X1, X2, . . . , Xn+1)−1 = P (Xn, Xn−1, . . . , X0)
−1 = P (X0, . . . , Xn)−1
für allen ≥ 0. Also gilt
P [(X1, X2, . . .) ∈ A] = P [(X0, X1, . . .) ∈ A]
für alle ZylindermengenA ∈ A, und damit für alleA ∈ A.
Stationarität bzw. Reversibilität zeithomogener Markovketten ist durch die Startverteilung und
den Übergangskern charakterisierbar:
Satz 11.20(Stationarität und Reversibilität von Markovketten ). Für eine zeithomogene Mar-
kovkette(Xn, Pµ) im kanonischen Modell gilt:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.4. STATIONÄRE STOCHASTISCHE PROZESSE 399
(1). Pµ (Xn, Xn+1, . . .)−1 = Pµpn für alle n ≥ 0.
(2). Pµ ist genau dann stationär, wennµ ein Gleichgewicht des Übergangskernsp ist.
(3). Pµ ist genau dann reversibel, wennµ die Detailed-Balance-Bedingung
µ(dx)p(x, dy) = µ(dy)p(y, dx) (11.4.3)
erfüllt, d.h. wenn die Wahrscheinlichkeitsverteilungµ ⊗ p auf S × S invariant unter der
Abbildung(x, y) 7→ (y, x) ist.
Beweis. (1). FürA ∈ A undn ≥ 0 gilt nach der Markoveigenschaft
Pµ[(Xn, Xn+1, . . .) ∈ A] = Eµ[IA θn]= Eµ[PXn [A]]
=
∫Px[A](µp
n)(dx)
= Pµpn [A].
(2). folgt unmittelbar aus (1).
(3). Aus der Reversibilität von(Xn, Pµ) folgt, dass
µ⊗ p = Pµ (X0, X1)−1
invariant unter Koordinatentausch ist.
Umgekehrt folgt aus der Detailed-Balance-Bedingung durch Induktion
µ(dx0)p(x0, dx1) · · · p(xn−1, dxn) = µ(dx1)p(x1, dx2) · · · p(xn−1, dxn)p(x1, dx0)
= . . . = µ(dxn)p(xn, dxn−1) · . . . · p(x1, dx0)
für allen ≥ 0; also
Pµ (X0, . . . , Xn)−1 = Pµ (Xn, . . . , X0)
−1.
Rekurrenz von stationären Prozessen
Stationäre stochastische Prozesse haben starke Rekurrenzeigenschaften. Die folgende Aussage
zeigt unter Anderem, dass die mittlere Rückkehrzeit in eine MengeB endlichen Erwartungswert
hat, wenn der Prozess mit positiver Wahrscheinlichkeit inB startet:
Universität Bonn Wintersemester 2009/2010
400 KAPITEL 11. MARKOVKETTEN
Satz 11.21(Wiederkehrsatz von Kac). Sei(Xn, P ) ein stationärer stochastischer Prozess mit
Zustandsraum(S,S), und sei
TB = minn ≥ 1 : Xn ∈ B
die erste Eintritts- bzw. Rückkehrzeit in eine MengeB ∈ S. Dann gilt
E[TB ; X0 ∈ B] = P [TB <∞], (11.4.4)
also mit anderen Worten
E[TB |X0 ∈ B] =P [TB <∞]
µ[B]falls µ[B] > 0, und (11.4.5)
P [TB <∞] = 0 falls µ[B] = 0, (11.4.6)
wobeiµ = P X−10 die Startverteilung des Prozesses ist.
Bemerkung. (1). Nach (11.4.5) ist die mittlere Rückkehrzeit in die MengeB der Kehrwert des
QuotientenP [X0∈B]P [TB<∞]
, also des Anteils vonX0 ∈ B an allen Pfaden, dieB treffen.
(2). Allgemeiner gilt für jede messbare TeilmengeA ∈ A des Pfadraumes:
E[τA ; A] = P [τA <∞],
wobeiτA = minn ≥ 1 : (Xn, Xn+1, . . .) ∈ A die erste Zeit ist, zu der der verschobene
Pfad inA liegt.
Beweis.Fürn ∈ N gilt wegen der Stationarität des Prozesses:
E[min(TB, n) ; X0 ∈ B] =n−1∑
k=0
P [TB > k undX0 ∈ B]
=n−1∑
k=0
P [X0 ∈ B,X1 6∈ B, . . . , Xk 6∈ B]
=n−1∑
k=0
P [Xn−k ∈ B,Xn−k+1 6∈ B, . . . , Xn 6∈ B]
= P [TB ≤ n].
Hierbei haben wir verwendet, dassTB ≤ n genau dann gilt, wenn zu einer der Zeitenn −k, k = 0, 1, . . . , n − 1, ein letzter Besuch inB vor der Zeitn stattfindet. Die Aussage folgt für
n→ ∞.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.4. STATIONÄRE STOCHASTISCHE PROZESSE 401
Nach dem Wiederkehrsatz von Kac kehrt der Prozess(Xn) auf der MengeX0 ∈ B P -fast
sicher nachB zurück. Durch Anwenden dieser Aussage auf die Teilfolgen(Xnk)n≥0, k ∈ N, die
alle wieder stationäre Prozesse unterP sind, erhalten wir sogar:
Korollar 11.22. Jeder stationäre Prozess(Xn, P ) ist rekurrent in folgendem Sinne: Für alle
B ∈ S gilt Xn ∈ B unendlich oftP -fast sicher aufX0 ∈ B.
Bemerkung (Wiederkehrsatz von Poincaré). Allgemeiner gilt fürA ∈ A:
(Xn(ω), Xn+1(ω), . . .) ∈ A unendlich oft fürP -fast alleω ∈ A.
Anwendung auf Markovketten
Wir betrachten nun eine zeithomogene Markovkette(Xn, Px) mit abzählbarem ZustandsraumS
im kanonischen Modell.
Definition. Ein Zustandx ∈ S heißtpositiv rekurrent, falls die mittlere RückkehrzeitEx[Tx]
endlich ist.
Aus dem Wiederkehrsatz von Kac folgt unmittelbar:
Korollar 11.23 (Gleichgewichte und mittlere Rückkehrzeiten). (1). Istµ ein Gleichgewicht
der Markovkette, dann gilt
µ(x) · Ex[Tx] = Pµ[Tx <∞] für alle x ∈ S.
Insbesondere sind alle Zuständex mit µ(x) > 0 positiv rekurrent.
(2). Ist zudem die Übergangsmatrix irreduzibel, dann sind sogar allex ∈ S positiv rekurrent
mit
µ(x) =1
Ex[Tx]. (11.4.7)
Insbesondere ist das Gleichgewicht in diesem Fall eindeutig.
Beweis. (1). Da die Markovkette mit Startverteilungµ stationär ist, gilt nach dem Satz von
Kac:
µ(x) · Ex[Tx] = Eµ[Tx ; X0 = x] = Pµ[Tx <∞] für allex ∈ S.
(2). Bei Irreduzibilität folgt globale Rekurrenz, alsoPy[Tx < ∞] = 1 für alle x, y ∈ S, und
damitµ(x) · Ex[Tx] = 1 für allex.
Universität Bonn Wintersemester 2009/2010
402 KAPITEL 11. MARKOVKETTEN
Beispiel (Eindimensionale Markovkette, Birth-Death-Process). Wir betrachten eine zeitho-
mogene Markovkette aufS = 0, 1, 2, . . . mit Übergangswahrscheinlichkeiten
p(x, x+ 1) = px, p(x, x− 1) = qx, p(x, x) = rx,
px, qx, rx > 0 mit px + qx + rx = 1, q0 = 0, undpx, qx > 0 für allex ≥ 1.
0 1 2 x− 1 x x+ 1
qx px
rx
Offensichtlich gilt Irreduzibilität. Das Gleichungssystem für eine Gleichgewichtsverteilungµ
lautet
µ(0) · r0 + µ(1) · q1 = µ(0),
µ(x− 1) · px−1 + µ(x) · rx + µ(x+ 1) · qx+1 = µ(x) für x ∈ N.
Da die Lösung sich rekursiv ausµ(0) berechnen lässt, ist der Lösungsvektorraum des linearen
Gleichungssystems eindimensional. Aus der hinreichendenDetailed-Balance-Bedingung
µ(x− 1) · px−1 = µ(x) · qx für allex ∈ N (11.4.8)
erhalten wir daher in diesem Fall bereits die allgemeine Lösung
µ(x) = µ(0) · p0 · p1 · . . . · px−1
q1 · q2 · . . . · qx. (11.4.9)
Sei
Z =∞∑
x=0
p0 · p1 · . . . · px−1
q1 · q2 · . . . · qx.
Gilt Z < ∞, dann ist durch (11.4.9) mitµ(0) = 1/Z das eindeutige Gleichgewicht der Markov-
kette gegeben, und für die mittleren Rückkehrzeiten folgt
Ex[Tx] = 1/µ(x) für allex ≥ 0.
Die BedingungZ < ∞ bedeutet, dass die Wachstumswahrscheinlichkeitenp(x − 1, x) nicht zu
groß im Vergleich zu den Abfallwahrscheinlichkeitenp(x, x − 1) sind. Gilt dagegenZ = ∞,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.5. ERGODIZITÄT 403
dann existiert keine Gleichgewichtsverteilung. Wir werden in 11.25 sehen, dass in diesem Fall
auch keiner der Zuständex ∈ S positiv rekurrent ist. Durch Lösen des Dirichletproblems kann
man zudem zeigen, dass die Markovkette genau dann rekurrentist, wenn
∞∑
x=0
q1q2 · · · qxp1p2 · · · px
= ∞
gilt (s. Übung).
11.5 Ergodizität
In diesem Abschnitt werden wir ein Gesetz der großen Zahlen für positiv rekurrente Markovket-
ten beweisen. Dabei verwenden wir, dass die Verläufe der Markovkette während verschiedener
Exkursionen von einem Punkt aus unabhängig voneinander undidentisch verteilt sind. Langzeit-
mittelwerte verhalten sich daher asymptotisch wie der Erwartungswert des zeitlichen Mittelwerts
über eine Exkursion. Als Vorbereitung überlegen wir uns, dass der Anteil der mittleren Exkursi-
onszeit, den die Markovkette in bestimmten Bereichen verbringt, eine Gleichgewichtsverteilung
definiert.
Wie zuvor sei(Xn, Px) eine zeithomogene Markovkette mit abzählbarem Zustandsraum S und
Übergangsmatrixp(x, y) im kanonischen Modell. Ferner sei
Tx = minn ≥ 1 : Xn = x
die erste Treffer- bzw. Rückkehrzeit zum Punktx.
Positive Rekurrenz und Gleichgewichte
Für einen Zustandx ∈ S sei
µx[B] := Ex
[Tx−1∑
n=0
IB(Xn)
]=
∞∑
n=0
P [Xn ∈ B ; n < Tx] (11.5.1)
die mittlere Anzahl der Besuche in einer MengeB ⊂ S während einer Exkursion vonx. Ein
positives Maßν aufS heißtinvariant bzgl. der Übergangsmatrixp, falls
∑
x∈Sν(x)p(x, y) = ν(y) für alley ∈ S
gilt. Ein Gleichgewicht ist also eine invariante Wahrscheinlichkeitsverteilung.
Universität Bonn Wintersemester 2009/2010
404 KAPITEL 11. MARKOVKETTEN
Satz 11.24. (1). Istx ∈ S ein rekurrenter Zustand der Markovkette, dann istµx ein invariantes
Maß mit Gesamtmasseµx[S] = Ex[Tx].
(2). Istx positiv rekurrent, dann ist das normierte Maß
µx[B] =µx[B]
Ex[Tx]
(=
mittlere Aufenthaltszeit inBmittlere Exkursionsdauer
)
ein Gleichgewicht der Markovkette.
Bei positiver Rekurrenz existiert also stets ein Gleichgewicht. Umgekehrt haben wir in Korol-
lar 11.22 bereits gezeigt, dass Gleichgewichtsverteilungen nur positiv rekurrenten Zuständen ei-
ne strikt positive Gesamtmasse zuordnen. Ist die Markovkette zudem irreduzibel, dann ist die
Gleichgewichtsverteilung nach Korollar 11.22 eindeutig,d.h. die Verteilungµx hängt nicht vom
Startpunktx ab.
Beweis. (1). Istx rekurrent, dann giltPx-fast sicherTx < ∞, und damitXTx = x = X0. Für
B ⊆ S folgtTx−1∑
n=0
IB(Xn) =Tx−1∑
n=0
IB(Xn+1).
Mit der Markoveigenschaft erhalten wir damit
µx[B] = Ex
[Tx−1∑
n=0
IB(Xn+1)
]
=∞∑
n=0
Px[Xn+1 ∈ B ; n < Tx]
ME=
∞∑
n=0
Ex [PXn [X1 ∈ B ]; n < Tx]
=∑
z∈S
∞∑
n=0
Px[Xn = z ; n < Tx] · p(z, B)
=∑
z∈Sµx[z] · p(z, B) = (µxp)[B],
d.h.µx ist ein invariantes Maß. Die Gesamtmasse ist
µx[S] = Ex
[Tx−1∑
n=0
IS(Xn)
]= Ex[Tx].
(2). Istx positiv rekurrent, dann hatµx endliche Gesamtmasse, also erhält man durch Normie-
ren ein Gleichgewicht.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.5. ERGODIZITÄT 405
Ein Gesetz der großen Zahlen für Markovketten
Wir können nun das Hauptresultat dieses Abschnitts formulieren. Fürn ∈ N undy ∈ S sei
By(n) :=n−1∑
i=0
IXi=y
die Anzahl der Besuche der Markovkette im Zustandy vor der Zeitn.
Satz 11.25(Ergodensatz für Markovketten, 1. Version). Sei(Xn, P ) eine irreduzible homo-
gene Markovkette mit abzählbarem ZustandsraumS.
(1). Ist die Markovkette rekurrent, dann gilt
limn→∞
1
By(n)
n−1∑
i=0
f(Xi) = Ey
[Ty−1∑
i=0
f(Xi)
]=
∫f dµy
P -fast sicher für jede Funktionf : S → R+ und alley ∈ S. Hierbei istµy das durch
(11.5.1) definierte invariante Maß.
(2). Existiert eine Gleichgewichtsverteilungµ, dann folgtµy = µ für alle y ∈ S und
limn→∞
1
n
n−1∑
i=0
f(Xi) =
∫f dµ P -fast sicher.
Die letzte Aussage ist ein Gesetz der großen Zahlen für irreduzible, positiv rekurrente Markovket-
ten, und eine erste Version eines Ergodensatzes für Markovketten: Die „zeitlichen“ Mittelwerte1n
n−1∑i=0
f(Xi) konvergieren fast sicher gegen den „räumlichen“ Mittelwert∫f dµ der Funktionf
bzgl. der Gleichgewichtsverteilung. Insbesondere ergibtsich
µ(x) = limn→∞
1
n
n−1∑
i=0
Ix(Xi) P -fast sicher für allex ∈ S,
d.h. die Gewichte der Gleichgewichtsverteilung sind die asymptotischen relativen Häufigkeiten
der Zuständex ∈ S. Dieser Zusammenhang kann in beide Richtungen verwendet werden:
(1). Berechnung der asymptotischen relativen Häufigkeitendurch Lösen des linearen Glei-
chungssystemsµ = µp.
(2). Schätzen der Gleichgewichtsverteilung:
µ ≈ 1
n
n−1∑
i=0
δXifür großen.
Universität Bonn Wintersemester 2009/2010
406 KAPITEL 11. MARKOVKETTEN
Beweis von Satz 11.25.Da die ZufallsvariablenXi nicht unabhängig sind, können wir nicht wie
im Beweis des klassischen GdgZ verfahren. Stattdessen nutzen wir aus, dass die Markovkette
jedes mal, wenn sie den Punktx trifft, neu startet – unabhängig vom vorherigen Verlauf. Durch
Zerlegen der Summe in Teilsummen über diese verschiedenen Zykel erhalten wir eine Summe
von unabhängigen Zufallsvariablen, auf die sich das klassische GdgZ anwenden lässt:
(1). Wir betrachten die Markovkette o.B.d.A. im kanonischenModell. SeiT (k) die k-te Be-
suchszeit bzw. Rückkehrzeit zu einem festen Zustandy ∈ S, d.h.T (0) = 0, und
T (k+1) = T (k) + Ty θT(k)
für allek ≥ 0.
Da die Kette irreduzibel und rekurrent ist, giltT (k) <∞ P -fast sicher für allek, und damit
T (l)∑
i=1
f(Xi) =l−1∑
k=0
Yk mit Yk :=T (k+1)∑
i=T (k)+1
f(Xi).
y
T (1) T (2) T (3) T (4) T (5) T (6)
Abbildung 11.11: Regenerative Zyklen.
Wir zeigen nun, dass aufgrund der starken Markoveigenschaft die ZufallsvariablenYk (k ≥1) unterP unabhängig und identisch verteilt sind. Es gilt nämlich
Yk =
T (k)+TyθT(k)
∑
i=T (k)+1
f(Xi) =
Ty∑
j=1
f(Xj θT(k)
) = Y0 θT(k)
,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.5. ERGODIZITÄT 407
also
P [Yk ∈ B | FT (k) ]SME= Py[Y0 ∈ B] für alleB ⊂ S,
d.h.Yk ist unabhängig vonFT (k) mit VerteilungPyY −10 . Da die ZufallsvariablenY0, . . . , Yk−1
FT (k)-messbar sind, folgt die Unabhängigkeit derYk, k ≥ 0, unterP . Zudem erhalten wir
für k ≥ 1 :
E[Yk] = Ey[Y0] = Ey
[Ty∑
i=1
f(Xi)
]=
∫f dµy.
Nach demGesetz der großen Zahlenfolgt dann:
liml→∞
1
l
T (l)∑
i=1
f(Xi) = liml→∞
1
l
l−1∑
k=1
Yk =
∫f dµy P -fast sicher. (11.5.2)
Ist die AnzahlBy(n) der Besuche iny vor der Zeitn gleichl, dann gilt
T (l−1) < n ≤ T (l+1),
also1
l
T (l−1)∑
i=1
f(Xi) ≤ 1
By(n)
n∑
i=1
f(Xi) ≤ 1
l
T (l+1)∑
i=1
f(Xi). (11.5.3)
Für n → ∞ konvergiert auchl = By(n) gegen unendlich, da die Markovkette rekurrent
ist. Da die linke und rechte Seite von (11.5.3) nach (11.5.2)für l → ∞ gegen∫f dµy
konvergieren, folgt
limn→∞
1
By(n)
n−1∑
i=0
f(Xi) = limn→∞
1
By(n)
n∑
i=1
f(Xi) =
∫f dµy P -fast sicher.
(2). Anwenden von Aussage (1) mit der konstanten Funktionf ≡ 1 liefert
n
By(n)
n→∞−→ µy[S] P -fast sicher.
Da eine invariante Verteilung existiert, ist die Kette positiv rekurrent, d.h.µy[S] < ∞.
Daher folgt fürf ≥ 0:
1
n
n−1∑
i=0
f(Xi) =By(n)
n· 1
By(n)
n−1∑
i=0
f(Xi)n→∞−→
∫f dµy
µy[S]=
∫f dµy
P -fast sicher fürn → ∞. Da die Markovkette nach Voraussetzung irreduzibel ist, ist die
Gleichgewichtsverteilung nach Korollar 11.22 eindeutig.Also gilt µy = µ für alley ∈ S.
Universität Bonn Wintersemester 2009/2010
408 KAPITEL 11. MARKOVKETTEN
Beispiel(Kartenhaus / Maschinenerneuerung). Wir betrachten die Markovkette aus dem Bei-
spiel von oben.
q0 q1 q2 q3 q4 q5
p1p2
p3p4
p5
p0
0 1 2 3 4 5
Abbildung 11.12: Übergangswahrscheinlichkeiten der durch p gegeben Markovkette.
Für Übergangswahrscheinlichkeitenp(i, 0) = pi ∈ (0, 1) undp(i, i + 1) = qi = 1 − pi erhalten
wir
P0[T0 > n] = q0 · q1 · . . . · qn−1, und damit
E0[T0] =∞∑
n=0
n−1∏
i=0
qi.
Gilt E0[T0] <∞, dann ist die Kette irreduzibel und positiv rekurrent. Für die asymptotische rela-
tive Häufigkeit des Zusammenfallens des Kartenhauses folgtdann nach Satz 11.25 und Korollar
11.22:
limn→∞
1
n
n−1∑
i=0
I0(Xi) = µ(0) =1
E0[T0]Px-fast sicher für allex ∈ S.
Beispiel(Markov Chain Monte Carlo Verfahren (MCMC) ). Seiµ eine Wahrscheinlichkeits-
verteilung auf eine abzählbaren MengeS, deren Gewichte wir bis auf eine Normierungskon-
stante kennen bzw. berechnen können. Um Erwartungswerte von Funktionenf : S → R+ bzgl
µ approximativ zu berechnen, können wir dann wie in Kapitel 3 beschrieben eine irreduzible
Übergangsmatrixp mit Gleichgewichtµ bestimmen, und eine Markovkette(Xn, P ) mit dieser
Übergangsmatrix simulieren. Nach Satz 11.26 liefern die empirischen Mittelwerte
θn =1
n
n∑
i=1
f(Xi)
dann eine konsistente Folge von Schätzern für den gesuchtenErwartungswert
θ =
∫f dµ.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.5. ERGODIZITÄT 409
Für praktische Anwendungen ist es wichtig, den Schätzfehler zu quantifizieren. Eine erste Aus-
sage in diese Richtung liefert ein zentraler Grenzwertsatz für Markovketten, siehe z.B. [T. Ko-
morowski, C. Landim, S. Olla: Fluctuations in Markov Processes].
Allgemeinere Ergodensätze
Die Aussage von Satz 11.25 lässt sich wesentlich allgemeiner formulieren. Wir notieren zunächst
eine elementare, aber wichtige Erweiterung:
Satz 11.26(Ergodensatz für Markovketten, 2. Version). Ist (Xn, P ) eine irreduzible homoge-
ne Markovkette, undµ ein Gleichgewicht des Übergangskernsp, dann gilt
limn→∞
1
n
n−1∑
i=0
f(Xi, Xi+1, . . . , Xi+r) =
∫· · ·∫f(x0, x1, . . . , xr)µ(dx0)p(x0, dx1) · · · p(xr−1, dxr)
P -fast sicher für aller ≥ 0 undf : Sr+1 → R+.
Wir geben nur die Beweisidee an, und überlassen die Ausführung der Details dem Leser als
Übung:
Beweis-Skizze.Der Prozess
Xi := (Xi, Xi+1, . . . , Xi+r)
ist eine Markovkette mit Zustandsraum
S = (x0, . . . , xr) ∈ Sr+1 | p(xi, xi+1) > 0 ∀0 ≤ i < r,
Übergangsmatrix
p((x0, . . . , xr), (y0, . . . , yr)) = δx1(y0)δx2(y1) · · · δxr(yr−1)p(xr, yr),
und Gleichgewichtsverteilung
µ(x0, . . . , xr) = µ(x0) · p(x0, x1) · . . . · p(xr−1, xr).
Ist (Xn) irreduzibel, so auch(Xn). Die Behauptung folgt daher aus Satz 11.25.
Eine wichtige Anwendung von Satz 11.26 ist dasSchätzen der Übergangsmatrixeiner Markov-
kette: Fürx, y ∈ S gilt
p(x, y) = limn→∞
1
n
n−1∑
i=0
IXi=x,Xi+1=y P -fast sicher,
d.h. die Übergangswahrscheinlichkeiten sind die asymptotischen relativen Häufigkeiten der Über-
gänge.
Universität Bonn Wintersemester 2009/2010
410 KAPITEL 11. MARKOVKETTEN
Beispiel (Neues im I.I.D. Fall). Auch im i.i.d. Fall liefert Satz 11.26 eine neue Aussage: Ist
X0, X1, . . . eine Folge unabhängiger, identisch verteilter Zufallsvariablen („Buchstaben“) mit
Werten in einer endlichen oder abzählbaren MengeS („Alphabet“), dann ergibt sich für die a-
symptotische relative Häufigkeit eines Wortes(a0, a1, . . . , ak) ∈ Sk+1:
limn→∞
1
n
n−1∑
i=0
IXi=a0,Xi+1=a1,...,Xi+k=ak =k∏
j=0
µ(aj) P -fast sicher,
wobeiµ(a) = P [Xi = a] die Wahrscheinlichkeit des Buchstabensa ist.
Mit abstrakteren Argumenten kann man Ergodensätze im allgemeinen Rahmen dynamischer Sys-
teme beweisen. Zum Abschluss dieses Abschnittes geben wir kurz ein entsprechendes zentrales
Resultat ohne Beweis wieder. Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum undθ : Ω → Ω eine
maßerhaltende Abbildung, d.h.P θ−1 = P . Den Raum(Ω,A, P ) zusammen mit der maßerhal-
tenden Abbildungθ nennt man auch eindynamisches System. Beispielsweise ist der Shiftoperator
θ auf dem Pfadraum maßerhaltend bzgl. der VerteilungP eines stationären stochastischen Pro-
zesses. Dieσ-AlgebraJ der θ-invarianten Ereignisseist definiert als
J = A ∈ A | θ−1(A) = A.
Beispielsweise sind die Zufallsvariablenlim inf 1n
n−1∑i=0
F θi undlim sup 1n
n−1∑i=0
F θi für jedeA-
messbare AbbildungF : Ω → R messbar bzgl.J . Allgemein sind alleθ-invarianten Ereignisse
asymptotisch. Das MaßP heißtergodisch, falls P [A] ∈ 0, 1 für alleA ∈ J gilt. In dieser
allgemeinen Situation kann man zeigen:
Satz 11.27(Birkhoffs individueller Ergodensatz). Für jede FunktionF ∈ L1(Ω,A, P ) gilt
limn→∞
1
n
n−1∑
i=0
F (θi(ω)) = E[F | J ](ω) für P -fast alleω ∈ Ω.
Ist P ergodisch, dann folgt
limn→∞
1
n
n−1∑
i=0
F θi = E[F ] P -fast sicher.
Der Beweis findet sich z.B. in den Wahrscheinlichkeitstheorie-Büchern von Breiman oder Dur-
rett. DieL2-Konvergenz lässt sich mit wesentlich einfacheren funktionalanalytischen Methoden
zeigen (Ergodensatz von Neumann, siehe z.B. [Varadhan: Probability Theory])
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE 411
11.6 Zeitstetige Markovprozesse
Für viele Anwendungsprobleme sind Modelle, die auf Markovprozessen in kontinuierlicher Zeit
basieren, natürlicher. Ändert der Prozess nur an abzählbarvielen zufälligen Zeitpunkten seinen
Zustand, dann nennt man ihn eine zeitstetige Markovkette. Ein Markovprozess mit stetigen Pfa-
den heißt dagegen Diffusionsprozess.
Klassische Anwendungsbereiche zeitstetiger Markovketten sind die Modellierung von Warte-
schlangen und chemischen Reaktionen. Wir zeigen hier, wie man zeitstetige aus zeitdiskreten
Markovketten konstruiert und beschreibt. Viele der Aussagen aus den letzten Abschnitten haben
Entsprechungen im zeitstetigen Fall – wir verweisen dazu auf das einführende Lehrbuch [J. Nor-
ris: Markov Chains].
Der wichtigste Diffusionsprozess ist die Brownsche Bewegung, die sich ausgehend vom zentralen
Grenzwertsatz als universeller zeitstetiger Skalierungslimes von Random Walks mit quadratin-
tegrierbaren Inkrementen ergibt. In der stochastischen Analysis konstruiert man andere Diffu-
sionsprozesse über stochastische Differentialgleichungen aus der Brownschen Bewegung – mit
zahlreichen Anwendungen z.B. in der Finanzmathematik, Physik und mathematischen Biologie,
aber auch mit weitreichenden Konsequenzen für viele Bereiche der Mathematik.
Übergangskerne und Markovprozesse
Seienps,t(x, dy), 0 ≤ s ≤ t <∞, stochastische Kerne auf einem messbaren Raum(S,S).
Definition (Markovprozess).
(1). Ein auf einem Wahrscheinlichkeitsraum(Ω,A, P ) definierter zeitstetiger stochastischer
ProzessXt : Ω → S, t ∈ [0,∞), heißtMarkovprozess mit Übergangswahrscheinlich-
keitenps,t(x, dy), falls
P [Xt+h ∈ B | FXt ] = pt,t+h(Xt, B) P -fast sicher
für alleB ∈ S undt, h ≥ 0 gilt, wobei
FXt = σ(Xs | 0 ≤ s ≤ t)
die vom Prozess erzeugtenσ-Algebren sind.
(2). Der Markovprozess heißtzeitlich homogen, falls die Übergangswahrscheinlichkeitenpt,t+h
nur vonh abhängen:
pt,t+h(x, dy) = ph(x, dy) für alle t, h ≥ 0.
Universität Bonn Wintersemester 2009/2010
412 KAPITEL 11. MARKOVKETTEN
Bemerkung. Einen Markovprozess mit stetigen Pfadent 7→ Xt(ω) nennt man einenDiffusions-
prozess. Einezeitstetige Markovketteist ein Markovprozess, dessen Pfade stückweise konstant
sind, und nur an abzählbar vielen (vonω abhängigen) Zeitpunkten springen. Allgemeine Mar-
kovprozesse können sowohl stetige als auch Sprunganteile haben – es ist auch möglich, das sich
die Sprünge häufen.
Die zeithomogenen reellwertigen Markovprozesse mit räumlich homogenen Übergangswahr-
scheinlichkeiten sind gerade die Lévy-Prozesse:
Satz 11.28(Lévy-Prozesse als Markovprozesse). EinRd-wertiger stochastischer Prozess(Xt, P )
mit stationären unabhängigen InkrementenXt0 , Xt1 − Xt0 , . . . , Xtn − Xtn−1 (0 ≤ t0 < t1 <
. . . < tn) ist ein zeithomogener Markovprozess mit translationsinvarianten Übergangswahr-
scheinlichkeiten
ph(x,B) = P [Xt+h −Xt ∈ B − x], t, h ≥ 0, B ∈ B(Rd).
Beweis.Für jede Partition0 = t0 < t1 < . . . < tn = t eines Intervalls[0, t] sind die Inkremente
Xt+h −Xt für h ≥ 0 unabhängig vonσ(Xt0 , Xt1 −Xt0 , . . . , Xtn −Xtn−1). Wegen
Xtk = Xt0 +k∑
i=1
(Xti −Xti−1)
erzeugen die ZufallsvariablenXt0 , Xt1 , . . . , Xtn dieselbeσ-Algebra. Also istXt+h − Xt auch
unabhängig von derσ-Algebra
FXt = σ(Xs | 0 ≤ s ≤ t) = σ
(⋃
0=t0<t1<...<tn
σ(Xt0 , Xt1 , . . . , Xtn)
).
Damit folgt
P [Xt+h ∈ B | FXt ](ω) = P [Xt + (Xt+h −Xt) ∈ B | FX
t ](ω)
= P [Xt+h −Xt ∈ B −Xt(ω)] = ph(Xt(ω), B)
für P -fast alleω.
Beispiel. (1). Poissonprozess:Ein Poissonprozess mit Parameterλ > 0 ist eine zeitstetige Mar-
kovkette mit ZustandsraumS = 0, 1, 2, . . . und Übergangswahrscheinlichkeiten
pt(x, y) = e−λt (λt)y−x
(y − x)!für y ≥ x, bzw.pt(x, y) = 0 für y < x.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE 413
(2). Brownsche Bewegung:Eined-dimensionale Brownsche Bewegung ist ein zeitlich homo-
gener Diffusionsprozess mit ZustandsraumS = Rd und absolutstetigen Übergangswahr-
scheinlichkeitenpt(x, dy) mit Dichte
pt(x, y) = (2πt)−d/2 · exp(−‖x− y‖2
2t
), t > 0, x, y ∈ Rd.
Damit die Übergangswahrscheinlichkeiten eines Markovprozesses für verschiedene Zeitinterval-
le konsistent sind, muss
ps,u = ps,tpt,u für alle0 ≤ s ≤ t ≤ u, (11.6.1)
bzw., im zeithomogenen Fall,
ps+t = pspt = ptps für alles, t ≥ 0 (11.6.2)
gelten. (11.6.1) und (11.6.2) werden auch alsChapman-Kolmogorov-Gleichungenbezeichnet.
Im zeithomogenen Fall besagt die Chapman-Kolmogorov-Gleichung (11.6.2), dass die Über-
gangskernept, t ≥ 0, eineHalbgruppe bilden.
Ist (Xt)t∈[0,∞) bzgl.P ein zeitstetiger Markovprozess und(tn) eine aufsteigende Folge inR+,
dann ist(Xtn) eine zeitdiskrete Markovkette mit Übergangskernenptn−1,tn . Insbesondere erhal-
ten wir mit Satz 11.5:
Korollar 11.29 (Endlichdimensionale Randverteilungen). Für jedesn ≥ 0 und0 = t0 < t1 <
. . . < tn hat (Xt0 , Xt1 , . . . , Xtn) die Verteilung
µ(dx0)pt0,t1(x0, dx1)pt1,t2(x1, dx2) · · · ptn−1,tn(xn−1, dxn),
wobeiµ = P X−10 die Startverteilung des Markovprozesses ist.
Beispiel(Brownsche Bewegung). Für eined-dimensionale Brownsche Bewegung(Bt) mit Start
in x0 sind die Verteilungen von(Bt1 , . . . , Btn) für 0 = t0 < t1 < . . . < tn absolutstetig mit
Dichten
fBt1 ,...,Btn(x1, . . . , xn) =
n∏
i=1
pti−ti−1(xi−1, xi) =
n∏
i=1
(2π(ti−ti−1))−d/2 exp
(−‖xi − xi−1‖2
2(ti − ti−1)
).
Insbesondere ist eine Brownsche Bewegung einGaußprozess, d.h. alle endlichdimensionalen
Randverteilungen sind multivariate Normalverteilungen.
Universität Bonn Wintersemester 2009/2010
414 KAPITEL 11. MARKOVKETTEN
Bemerkung (Eindeutigkeit in Verteilung, Modifikationen ). Nach dem Korollar ist die Vertei-
lung eines Markovprozesses((Xt)t≥0, P ) auf dem ProduktraumS[0,∞) mit Produkt-σ-Algebra
eindeutig durch die Startverteilung und die Übergangswahrscheinlichkeiten festgelegt. Da es
überabzählbar viele Zeitpunktet ∈ R+ gibt, ist die Situation allerdings etwas subtiler als im
zeitdiskreten Fall. Beispielsweise ist das Ereignis, dass die Pfadet 7→ Xt(ω) des Prozesses ste-
tig bzw. rechtsstetig sind,nicht messbarbzgl. der Produkt-σ-Algebra. Tatsächlich kann man zu
einem Markovprozess(Xt) mit (rechts-)stetigen Pfaden in der Regel einen modifizierten Prozess
(Xt) mit
P [Xt = Xt] = 1 für jedest ∈ R+
finden, der keine (rechts-)stetigen Pfade hat. Der Prozess(Xt) hat dann dieselben endlichdimen-
sionalen Randverteilungen wie(Xt), und ist daher ein Markovprozess mit derselben Startvertei-
lung und denselben Übergangswahrscheinlichkeiten!
Zeitstetige Markovketten
Wir wollen nun (umgekehrt wie oben) aus einer zeitdiskretenMarkovkette einen zeitstetigen
Markovprozess konstruieren, der dieselben Zustände durchläuft, aber zu zufälligen kontinuierli-
chen Zeitpunkten von einem Zustand zum nächsten springt. Dazu betrachten wir der Übersicht-
lichkeit halber nur den Fall eines abzählbaren ZustandsraumesS. Einen zeitstetigen Markovpro-
zess aufS charakterisieren wir dann durch die infinitesimalen Übergangsraten
Lt(x, y) = limhց0
pt,t+h(x, y)− δ(x, y)
h, t ≥ 0. (11.6.3)
Wir beschränken uns im Folgenden auf den zeithomogenen Fall. Hier hängen die Übergangs-
wahrscheinlichkeiten nicht vont ab, und es gilt
Lt(x, y) = L (x, y) = limhց0
ph(x, y)− δ(x, y)
hfür alle t ≥ 0. (11.6.4)
Wegen
ph(x, y) = h · L (x, y) + o(h) für x 6= y, und
ph(x, x) = 1 + h · L (x, x) + o(h),
ist L (x, y) für x 6= y die Sprungrate vonx nachy, undL (x, x) ist die negative Wegsprungrate
von x. Erfüllen die Übergangswahrscheinlichkeiten eines zeithomogenen Markovprozesses auf
S die Bedingung (11.6.4) bzgl. eines zu spezifizierenden Konvergenzbegriffes, dann heißt die
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE 415
Matrix L (x, y) (x, y ∈ S) infinitesimaler Generator des Markovprozesses. Daph(x, •) für
alleh ≥ 0 eine Wahrscheinlichkeitsverteilung ist, sollte in diesemFall gelten:
L (x, x) = −∑
y∈SL (x, y) für allex ∈ S. (11.6.5)
Sei nunL (x, y) (x, y ∈ S) eine gegebene Matrix mitL (x, y) ≥ 0 für allex, y ∈ S und (11.6.5).
Wir setzen zudem voraus, dass die WegsprungratenL (x, x) beschränkt sind:
Annahme: Es existiertλ > 0 mit
∑
y∈SL (x, y) = −L (x, x) ≤ λ für allex ∈ S. (11.6.6)
Um einen Markovprozess mit SprungratenL (x, y) zu konstruieren, betrachten wir unabhängi-
ge,Exp(λ)-verteilte ZufallsvariablenT1, T2, . . . auf einem Wahrscheinlichkeitsraum(Ω,A, P ),die die zeitlichen Abstände zwischen möglichen Sprüngen des Prozesses beschreiben. Sei fer-
ner(Yn)n=0,1,2,... eine vonσ(T1, T2, . . .) unabhängige Markovkette auf(Ω,A, P ) mit Übergangs-
wahrscheinlichkeiten
π(x, y) =1
λL (x, y) für y 6= x,
π(x, x) = 1−∑
y 6=x
π(x, y).
Die Kette (Yn) beschreibt die Zustände, die der zu konstruierende zeitstetige Sprungprozess
durchläuft. Mit
Nt = #n ∈ N|T1 + T2 + . . .+ Tn ≤ t
erhalten wir:
Satz 11.30(Konstruktion von zeitstetigen Markovketten). Der ProzessXt := YNt ist ein
zeitstetiger Markovprozess mit ZustandsraumS, Übergangswahrscheinlichkeiten
pt(x, y) = e−λt
∞∑
n=0
(λt)n
n!πn(x, y), x, y ∈ S, (11.6.7)
und GeneratorL (x, y). Genauer gilt
limhց0
supx∈S
∑
y∈S
∣∣∣∣ph(x, y)− δ(x, y)
h− L (x, y)
∣∣∣∣ = 0. (11.6.8)
Universität Bonn Wintersemester 2009/2010
416 KAPITEL 11. MARKOVKETTEN
Bemerkung. (1). Matrixexponentialfunktion:Die Übergangswahrscheinlichkeiten haben die
Form
pt = e−λteλtπ = eλt(π−I), (11.6.9)
wobei
(eq)(x, y) =∞∑
n=0
1
n!qn(x, y)
die Matrixexponentialfunktion ist. Hierbei isteλtπ auch im abzählbar unendlichen Fall de-
finiert, da die Matrizen(λtπ)n für allen ≥ 0 nichtnegativ sind. Die Reiheeλt(π−I) konver-
giert bzgl. der multiplikativen Matrixnorm
‖q‖ := supx∈S
∑
y∈S|q(x, y)|, (11.6.10)
da ‖λntn(π − I)n‖ ≤ (2λt)n für alle n ≥ 0 gilt, und die Identität (11.6.9) folgt wegen
eλt(π−I) = e−λtIeλtπ = e−λteλtπ.
(2). Konvergenzbegriff:Die Aussage (11.6.8) besagt, dass
limhց0
ph − I
h= L
bzgl. der durch (11.6.10) definierten Matrixnorm gilt. Die Voraussetzung (11.6.6) gewähr-
leistet gerade, dass die Norm vonL endlich ist. In anderer Form ausgedrückt bedeutet
(11.6.8), dass die signierten Maße1h(ph(x, •) − δ(x, •)) für h ց 0 gleichmäßig in Varia-
tionsnorm (ℓ1-Norm) gegenL (x, •) konvergieren. Eine entsprechende Aussage gilt auch
(mit analogem Beweis), wenn der ZustandsraumS nicht abzählbar ist.
Beweis.Seient, h ≥ 0 undy ∈ S. Um die Markoveigenschaft
P [Xt+h = y | FXt ] = ph(Xt, Y ) P -fast sicher (11.6.11)
zu zeigen, verfahren wir ähnlich wie für Poisson-Prozesse in Satz 10.12. Seien zunächstk, l ∈0, 1, 2, . . . fest, und sei
Gk = σ(T1, . . . , Tk, Y0, Y1, . . . , Yk)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE 417
dieσ-Algebra, die den Verlauf des Prozesses bis zumk-ten Sprung beschreibt. Da die Wartezei-
tenTi (i ∈ N) und die Markovkette(Yn) unabhängig voneinander sind, undNt messbar bzgl.
σ(Ti | i ∈ N) ist, erhalten wir nach (10.4.3):
P [Nt = k,Nt+h = k + l, Yk+l = y | Gk]
= P [Nt = k,Nt+h = k + l | T1, . . . , Tk] · P [Yk+l = y | Y0, Y1, . . . , Yk](10.4.3)= P [Nt = k | T1, . . . , Tk] · P [Nh = l] · πl(Yk, y)
= P [Nt = k | Gk] · e−λh (λh)l
l!πl(Yk, y) P -fast sicher.
Durch Summieren überl folgt:
P [Nt = k,Xt+h = y | Gk] = P [Nt = k | Gk] · e−λh
∞∑
l=0
(λh)l
l!πl(Yk, y) P -f.s. (11.6.12)
Sei nunA ∈ FXt . Ähnlich wie im Beweis von Satz 10.12 (3) zeigt man, dass dann ein Ereignis
Ak ∈ Gk existiert mit
A ∩ Nt = k = Ak ∩ Nt = k,
d.h. fürNt = k hängt der Verlauf vonXs für 0 ≤ s ≤ t nur von den ZufallsvariablenT1, . . . , Tk
undY0, . . . , Yk ab. Nach (11.6.12) folgt dann
P [Nt = k ∩ Xt+h = y ∩ A]= E[P [Nt = k,Xt+h = y | Gk] ; Ak]
= E[P [Nt = k | Gk] · ph(Yk, y) ; Ak]
= E[ph(Xt, y) ; A ∩ Nt = k],
wobeiph wie in (11.6.7) definiert ist. Hierbei haben wir im letzten Schritt benutzt, dassXt = Yk
aufNt = k gilt. Durch Summieren überk erhalten wir schließlich
P [Xt+h = y ∩ A] = E[ph(Xt, y) ; A] für alleA ∈ FXt ,
und damit (11.6.11).
Um den Generator zu identifizieren, bemerken wir, dass füry 6= x aus (11.6.7) wegenL (x, y) =
λπ(x, y) folgt:
ph(x, y)− hL (x, y) = (e−λh − 1)λhπ(x, y) + eλh∞∑
n=2
(λh)n
n!πn(x, y).
Universität Bonn Wintersemester 2009/2010
418 KAPITEL 11. MARKOVKETTEN
Wegen∑y∈S
πn(x, y) = 1 für allen ≥ 0 erhalten wir dann die Abschätzung
supx∈S
∑
y 6=x
|ph(x, y)− hL (x, y)| = O(h2).
Die Aussage (11.6.8) folgt hieraus, da
ph(x, x)− δ(x, x)− hL (x, x) = −∑
y 6=x
(ph(x, y)− hL (x, y))
für allex ∈ S gilt.
Vorwärts- und Rückwärtsgleichungen für Markovketten
Wir leiten nun Gleichungen für die Zeitentwicklung der Übergangswahrscheinlichkeiten von
Markovketten her.
Zeitdiskreter Fall. Für dien-Schritt Übergangswahrscheinlichkeiten einer zeitdiskreten Mar-
kovkette mit Übergangskernπ gilt
πn+1 − πn = (π − I)πn = πn(π − I) für allen ≥ 0. (11.6.13)
Hierbei istπ − I der Generator der Markovkette.
Zeitstetiger Fall. Im zeitstetigen Fall erhalten wir als infinitesimale Versionen von (11.6.13)
Differentialgleichungen für die Zeitentwicklung der Übergangswahrscheinlichkeiten. Aus (11.6.8)
und der Chapman-Kolmogorov-Gleichung (11.6.1) folgt:
Satz 11.31(Kolmogorovsche Vorwärts- und Rückwärtsgleichung). Für die Übergangsmatri-
zenpt(x, y) des in Satz 11.30 konstruierten Markovprozesses gilt
limh→0
pt+h − pth
= ptL = L pt für alle t ≥ 0
mit Konvergenz bzgl. der in 11.6.10 definierten Matrixnorm‖ • ‖. Insbesondere erfüllen die
Übergangswahrscheinlichkeiten dieKolmogorovsche Vorwärtsgleichung (Mastergleichung)
d
dtpt(x, y) =
∑
z∈Spt(x, z)L (z, y), t ≥ 0, (11.6.14)
sowie dieKolmogorovsche Rückwärtsgleichung
d
dtpt(x, y) =
∑
z∈SL (x, z)pt(z, y), t ≥ 0. (11.6.15)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE 419
Beweis.Nach (11.6.8) giltlimhց0
h−1(ph − I) = L bzgl. der Matrixnorm‖ • ‖. Da die Norm
multiplikativ mit ‖pt‖ ≤ 1 ist, folgt für t, h > 0 nach der Chapman-Kolmogorov-Gleichung∥∥∥∥pt+h − pt
h− ptL
∥∥∥∥ =
∥∥∥∥pt(ph − I
h− L
)∥∥∥∥ ≤ ‖pt‖ ·∥∥∥∥ph − I
h− L
∥∥∥∥
≤∥∥∥∥ph − I
h− L
∥∥∥∥hց0−→ 0.
Entsprechend konvergiert auch∥∥∥∥pt−h − pt
−h − ptL
∥∥∥∥ =
∥∥∥∥pt−h
(ph − I
h− phL
)∥∥∥∥ ≤ ‖pt−h‖ ·∥∥∥∥ph − I
h− phL
∥∥∥∥
≤∥∥∥∥ph − I
h− L
∥∥∥∥+ ‖I − ph‖ · ‖L ‖
für hց 0 gegen0. Damit haben wir die Vorwärtsgleichung
limh→0
h−1(pt+h − pt) = ptL
für t > 0 gezeigt. Der Beweis der Rückwärtsgleichung verläuft ähnlich.
Anschaulich können wir dieVorwärtsgleichungfolgendermaßen interpretieren: Seix ∈ S ein
fester Zustand. Dann beschreibt die Funktion
u(t, y) = pt(x, y) = P [Xt = y |X0 = x], t ≥ 0, y ∈ S,
die Zeitentwicklung der Aufenthaltswahrscheinlichkeiten der Markovkette in Zuständeny ∈ S.
Die Vorwärtsgleichung besagt, dassu das Anfangswertproblem
∂u
∂t(t, y) =
∑
z∈Su(t, z)L (z, y) für t ≥ 0,
u(0, y) = δx(y)
löst. Die Wahrscheinlichkeitsmasse im Punkty ändert sich also dadurch, dass Übergänge von
anderen Zuständenz nachy mit den RatenL (z, y), bzw. Übergänge vony in andere Zustände
mit der negativen RateL (y, y) stattfinden. Bei der Analyse chemischer Reaktionen spielt die
Vorwärtsgleichung eine wichtige Rolle – sie wird in den Naturwissenschaften meist als Master-
gleichung bezeichnet.
Für die Rückwärtsgleichungergibt sich eine ähnliche, aber andere Interpretation: Seien hier
y ∈ S undt ≥ 0 fest, und
v(s, x) = pt−s(x, y) = P [Xt = y |Xs = x], s ∈ [0, t], x ∈ S.
Universität Bonn Wintersemester 2009/2010
420 KAPITEL 11. MARKOVKETTEN
Die Funktionv beschreibt die Abhängigkeit der Aufenthaltswahrscheinlichkeiten von dem zu-
rückliegenden Startzeitpunkt und Anfangszustand des Markovprozesses. Die Rückwärtsgleichung
besagt dann, dassv das „Endwertproblem“
∂v
∂s(s, x) =
∑
z∈SL (x, z)v(s, z), s ∈ [0, t],
v(t, x) = δy(x)
löst.
Allgemeiner ergeben sich aus der Vorwärtsgleichung Zeitentwicklungsgleichungen für die Ver-
teilungenµpt des Markovprozesses mit beliebiger Startverteilungµ, und aus der Rückwärtsglei-
chung Zeitentwicklungsgleichungen für die ErwartungswerteE[f(Xt) |Xs = x] von Funktionen
f : S → R. Die Rückwärtsgleichung liefert auch eine infinitesimale Charakterisierung von
Gleichgewichtsverteilungen zeitstetiger Markovketten:
Korollar 11.32 (Gleichgewichte zeitstetiger Markovketten). Ist die Annahme (11.6.6) erfüllt,
dann sind für eine Wahrscheinlichkeitsverteilungµ aufS die folgenden Aussagen äquivalent:
(1). µ ist ein Gleichgewicht der Übergangshalbgruppe(pt)t≥0 aus (11.6.7), d.h.
µpt = µ für alle t ≥ 0.
(2). µL = 0, d.h. ∑
x∈Sµ(x)L (x, y) = 0 für alle y ∈ S.
Hierbei gewährleistet die Annahme (11.6.6) unter anderem,dassµL auch im abzählbar unend-
lichen Fall definiert ist.
Beweis.Anschaulich folgt aus der Rückwärtsgleichung
d
dtµpt = µL pt für t ≥ 0, µp0 = µ, (11.6.16)
und damit die Aussage. Um dies auch im abzählbar unendlichenFall zu rechtfertigen, verwenden
wir die Variationsnorm (ℓ1-Norm) ‖ν‖TV =∑x∈S
|ν(x)| von signierten Maßen. Für eine Matrix
q(x, y) (x, y ∈ S) und eine Wahrscheinlichkeitsverteilungµ gilt:
‖µq‖TV ≤ ‖µ‖TV · ‖q‖ = ‖q‖.
Nach Satz 11.30 erhalten wir
limhց0
∥∥∥∥µpt+h − µpt
h− µL pt
∥∥∥∥TV
≤ ‖µ‖TV · limhց0
∥∥∥∥pt+h − pt
h− L pt
∥∥∥∥ = 0,
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE 421
und somit (11.6.16), wobei die Ableitung als Grenzwert der Differenzenquotienten in Variations-
norm definiert ist.
Aufbauend auf den obigen Resultaten kann man nun, ähnlich wieim zeitdiskreten Fall, die Re-
kurrenz und Transienz von zeitstetigen Markovketten untersuchen, mittlere Rückkehrzeiten und
Trefferwahrscheinlichkeiten berechnen, und einen Ergodensatz beweisen. Unter der Annahme
(11.6.6) können Rekurrenz und Transienz vollständig auf denzeitdiskreten Fall zurückgeführt
werden, da der zeitstetige ProzessXt = YNt dieselben Zustände durchläuft wie die zeitdiskrete
Markovkette(Yn)n=0,1,2,.... Für die Herleitung von Differenzengleichungen für mittlere Rück-
kehrzeiten, Trefferwahrscheinlichkeiten usw., sowie denBeweis des Gesetzes der großen Zahlen
im zeitstetigen Fall verweisen wir aus das Buch ’Markov Chains’ von J. R. Norris. Wir sehen uns
hier noch ein Beispiel an, das einen wichtigen Anwendungsbereich zeitstetiger Markovketten
kurz anreißt:
Beispiel (M/M/1-Warteschlangenmodell). Im einfachsten Modell einer Warteschlange gibt es
nur einen Server. Die Aufträge kommen jeweils nach unabhängigen, mit einem Parameterλ > 0
exponentialverteilten Wartezeiten beim Server an, und dieAbstände zwischen den Bearbeitungs-
zeiten zweier Aufträge sind ebenfalls unabhängig, und mit einem Parameterν exponentialverteilt.
Die beiden „M“s in M/M/1 stehen für gedächtnislose (engl. memoryless) Ankunfts- und Bear-
beitungszeiten, die „1“ für die Anzahl der Server.
Unter diesen (sehr restriktiven) Annahmen wird die Warteschlange durch eine zeitstetige Mar-
kovkette mit ZustandsraumS = 0, 1, 2, . . . und Übergangsraten
L (x, x+ 1) = λ, L (x, x− 1) = ν,
beschrieben, d.h. durch einen zeitstetigen Birth-Death-Process.
0 1 2 3 4
λ
ν
λ
ν
λ
ν
λ
ν
Abbildung 11.13: Übergangsraten einer M/M/1-Warteschlange.
Universität Bonn Wintersemester 2009/2010
422 KAPITEL 11. MARKOVKETTEN
Die Wegsprungraten−L (x, x) sind durchλ + ν beschränkt, und die Sprungkette(Yn) hat die
Übergangswahrscheinlichkeiten
π(x, x+ 1) =λ
λ+ ν, π(x, x− 1) =
ν
λ+ νfür x > 0,
undπ(0, 0) =ν
λ+ ν. Insbesondere sind die Sprungkette, und damit auch die zeitstetige Markov-
kette, genau dann rekurrent, wennλ ≤ ν gilt. Die GleichgewichtsbedingungµL = 0 für den
zeitstetigen Prozess lautet
−µ(0) · λ+ µ(1) · ν = 0,
µ(x− 1) · λ− µ(x)(λ+ ν) + µ(x+ 1) · ν = 0 für x ∈ N.
Fürλ ≥ ν existiert keine Gleichgewichsverteilung, fürλ < ν ist die geometrische Verteilung
µ(x) =
(1− λ
ν
)·(λ
ν
)x
, x = 0, 1, 2, . . . ,
das eindeutige Gleichgewicht. Aus dem Ergodensatz folgt dann beispielsweise, dass die mitt-
lere Länge1t
t∫0
Xs ds der Warteschlange sich asymptotisch wie der Erwartungswertλ
ν − λder
Gleichgewichtsverteilung verhält.
Vorwärts- und Rückwärtsgleichung für die Brownsche Bewegung
Für allgemeine Markovprozesse ist die Herleitung von Vorwärts- und Rückwärtsgleichungen
technisch häufig deutlich aufwändiger, da der infinitesimale GeneratorL im Allgemeinen ein
unbeschränkter linearer Operator ist. Dies ist bereits beizeitstetigen Markovketten der Fall, wenn
die Wegsprungraten nicht beschränkt sind. Für die BrownscheBewegung erhalten wir die Kol-
mogorovschen Gleichungen unmittelbar aus der expliziten Form der Übergangsdichten
pt(x, y) = (2πt)−d/2 · exp(−‖x− y‖2
2t
).
Als infinitesimaler Generator ergibt sich der Laplaceoperator:
Satz 11.33(Brownsche Bewegung und Wärmeleitungsgleichung). Die Übergangsdichtenpt(x, y)
der Brownschen Bewegung bilden die Fundamentallösung der Wärmeleitungsgleichung, d.h. es
gilt∂
∂tpt(x, y) =
1
2∆xpt(x, y) =
1
2∆ypt(x, y) (11.6.17)
mit Anfangsbedingung
limtց0
∫pt(x, y)f(y) dy = f(x) für alle f ∈ Cb(R
d) undx ∈ Rd, (11.6.18)
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
11.6. ZEITSTETIGE MARKOVPROZESSE 423
bzw.
limtց0
∫g(x)pt(x, y) dy = g(y) für alle g ∈ Cb(R
d) undy ∈ Rd. (11.6.19)
Hierbei ist∆x =d∑
i=1
∂2
∂x2i
der Laplace-Operator in derx-Variable.
Beweis.Die Gleichung (11.6.17) verifiziert man durch Nachrechnen.Für x ∈ Rd ist pt(x, y)dy
eine Normalverteilung mit Mittelwertvektorx und Kovarianzmatrixt ·Id. Hieraus folgt (11.6.18),
da diese Wahrscheinlichkeitsverteilung fürt ց 0 analog zu Beispiel 2 in Abschnitt 8.3 schwach
gegen das Diracmaßδx konvergiert. Die Identität (11.6.19) folgt aus (11.6.18) wegenpt(x, y) =
pt(y, x).
Die Gleichung∂
∂tpt(x, y) =
1
2∆ypt(x, y)
ist dieVorwärtsgleichung, und die Gleichung
∂
∂tpt(x, y) =
1
2∆xpt(x, y)
die Rückwärtsgleichungder Brownschen Bewegung. Anschaulich können wir die Vorwärtsglei-
chung auch folgendermaßen interpretieren: Für jedes Gebiet D ⊂ Rd mit glattem Rand gilt:
∂
∂tpt(x,D) =
∫
D
∂
∂tpt(x, y)dy
=1
2
∫
D
∆ypt(x, y)dy
=1
2
∫
∂D
n(y) · ∇ypt(x, y)ν(dy),
wobein der äußere Normalenvektor undν das Oberflächenmaß auf∂D ist.
n(y)y
D
Abbildung 11.14: Äußerer Normalenvektor der MengeD im Punkty.
Universität Bonn Wintersemester 2009/2010
424 KAPITEL 11. MARKOVKETTEN
Also beschreibt12n · ∇ypt(x, y) den Nettozufluss von Wahrscheinlichkeitsmasse pro Flächenein-
heit durch ein infinitesimales Flächenstück mit Ausrichtung n am Punkty.
Für Funktionenf ∈ C2b (R
d) ergeben sich aus (11.6.17) die Zeitentwicklungsgleichungen
∂
∂tptf =
1
2∆ptf =
1
2pt∆f
für die Erwartungswerte
(ptf)(x) =
∫
Rd
pt(x, y)f(y) dy = Ex[f(Bt)].
Dx y
pt(x, y)
Abbildung 11.15: Nettoabfluss
∣∣∣∣1
2
∂
∂ypt(x, y)
∣∣∣∣.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
Kapitel 12
Importance Sampling und große
Abweichungen
Um Wahrscheinlichkeiten seltener Ereignisse zu untersuchen, geht man häufig zu einer neuen
absolutstetigen Wahrscheinlichkeitsverteilung über, bzgl. der das relevante Ereignis nicht mehr
selten ist. Der Maßwechsel geschieht dabei typischerweisemit einer exponentiellen Dichte. Auf
diese Weise erhält man unter Anderem asymptotische Aussagen über die Wahrscheinlichkeiten
großer Abweichungen. Eine zentrale Rolle spielt dabei der Begriff der relativen Entropie, die
die statistische Unterscheidbarkeit zweier Wahrscheinlichkeitsverteilungen misst. Anwendungen
liegen in der Asymptotik von Likelihood basierten Schätz und Testverfahren, und der asymptoti-
schen Effizienz von Importance Sampling Schätzern.
12.1 Relative Dichten und Importance Sampling
Oft ist es günstig, Wahrscheinlichkeitsverteilungen mit einer relativen Dichte bzgl. leichter hand-
habbarer Verteilungen darzustellen. Die relative Dichte ist dabei häufig nur bis auf eine multi-
plikative Konstante explizit bekannt. Wir stellen hier zunächst einige Grundlagen über relative
Dichten zusammen, und betrachten dann Monte-Carlo Verfahren in diesem Kontext.
Relative Dichten
Seienµ undν Wahrscheinlichkeitsverteilungen auf einem messbaren Raum(S,S). Das Maßµ
heißtabsolutstetigbzgl. ν (µ ≪ ν), falls jedeν-Nullmenge auch eineµ-Nullmenge ist. Der
425
426 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Satz von Radon-Nikodym besagt, dassµ genau dann absolutstetig bzgl.ν ist, wenn eine relative
Dichtedµ/dν ∈ L1(S,S, ν) existiert mitµ[B] =∫B
dµdν(x)ν(dx) für alleB ∈ S, bzw.
∫f dµ =
∫f · dµ
dνdν für alle messbarenf : S → R+. (12.1.1)
Die relative Dichte istν-fast sicher eindeutig festgelegt. Ein stochastischer Beweis des Sat-
zes von Radon-Nikodym basierend auf dem Martingal-Konvergenzsatz findet sich z.B. in [Wil-
liams: Prob. with martingales]. Die folgenden elementarenAussagen ergeben sich unmittelbar
aus (12.1.1):
Satz 12.1. (1). Ist µ absolutstetig bzgl.ν mit ν-fast überall strikt positiver relativer Dichte,
dann ist auchν absolutstetig bzgl.µ und
dν
dµ(x) =
(dµ
dν(x)
)−1
für µ-fast allex ∈ S.
(2). Sindµ undν beide absolutstetig bzgl. eines Referenzmaßesλ mit Dichtenf undg, und gilt
g > 0 λ-fast überall, dann istµ absolutstetig bzgl.ν mit relativer Dichte
dµ
dν(x) =
f(x)
g(x)für ν-fast allex ∈ S.
(3). Sindµ1, . . . , µn und ν1, . . . , νn Wahrscheinlichkeitsverteilungen auf messbaren Räumen
(S1,S1), . . . , (Sn,Sn) mit µi ≪ νi für alle 1 ≤ i ≤ n, dann ist auchµ1 ⊗ µ2 ⊗ . . . ⊗ µn
absolutstetig bzgl.ν1 ⊗ ν2 ⊗ . . .⊗ νn mit relativer Dichte
d(µ1 ⊗ . . . µn)
d(ν1 ⊗ . . .⊗ νn)(x1, . . . , xn) =
n∏
i=1
dµi
dνi(xi).
Die letzte Aussage gilt nicht für unendliche Produkte.
Beispiel (Singularität von unendlichen Produktmaßen). Sindµ undν zwei unterschiedliche
Wahrscheinlichkeitsverteilungen auf einem messbaren Raum(S,S), dann ist das unendliche Pro-
duktµ∞ :=⊗i∈N
µ nicht absolutstetig bzgl.ν∞ :=⊗i∈N
ν. In der Tat gilt nämlich nach dem Gesetz
der großen Zahlen:
µ∞
[(x1, x2, . . .) ∈ S∞ : lim
n→∞
1
n
n∑
i=1
IB(xi) = µ[B]
]= 1
ν∞
[(x1, x2, . . .) ∈ S∞ : lim
n→∞
1
n
n∑
i=1
IB(xi) = ν[B]
]= 1
für alleB ∈ S. Ist µ 6= ν, dann existiert eine MengeB ∈ S mit µ[B] 6= ν[B]. Also sind die
Wahrscheinlichkeitsverteilungenµ∞ undν∞ in diesem Fall singulär.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 427
In Satz 12.10 werden wir sehen, dass die relativen Dichtendµn/dνn der endlichen Produktmaße
für µ 6= ν undn→ ∞ exponentiell schnell anwachsen.
Sindµ undν Wahrscheinlichkeitsverteilungen auf einem messbaren Raum(S,S) mit beschränk-
ter relativer Dichte, dann können wir ein Acceptance-Rejection Verfahren verwenden, um Stich-
proben von der Verteilungµ aus Stichproben der Verteilungν zu erzeugen.
In vielen praktischen Anwendungen ist die Dichte nur bis aufeine Normierungskonstante explizit
bekannt. Wir nehmen daher an, dass eine beschränkte Funktion : S → R+ und Konstanten
Z,C ∈ (0,∞) gegeben sind mit
dµ
dν(x) =
1
Z· (x), (x) ≤ C für allex ∈ S. (12.1.2)
Dies ist beispielsweise der Fall, wennµ und ν absolutstetige Verteilungen aufRd mit Dichten
proportional zuf(x) bzw.g(x) sind, und
f(x) ≤ C · g(x) für allex ∈ Rd
gilt. In diesem Fall können wir = f/g wählen. Die KonstanteC sollte explizit bekannt sein
– die NormierungskonstanteZ =∫ dν kennt man dagegen meistens nicht. Gilt (12.1.2), dann
können wirµ folgendermaßen als bedingte Verteilung darstellen:
Lemma 12.2.SeiX eine Zufallsvariable mit Verteilungν, und seiU eine unabhängige, auf(0, 1)
gleichverteilte Zufallsvariable. Dann gilt:
µ[B] = P
[X ∈ B
∣∣∣∣U ≤ (X)
C
]für alleB ∈ S.
Beweis.Die gemeinsame Verteilung vonX undU ist ν ⊗ U(0,1). Also gilt nach dem Satz von
Fubini:
P
[X ∈ B,U ≤ (X)
C
]=
∫
B
∫
(0,(x)C
)
λ(du)ν(dx)
=1
C·∫
B
(x)ν(dx)
=Z
C· µ[B],
und insbesondere
P
[U ≤ (X)
C
]=
Z
C· µ[S] =
Z
C.
Die bedingte Wahrscheinlichkeit ist der Quotient der beiden Ausdrücke.
Universität Bonn Wintersemester 2009/2010
428 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Das Lemma motiviert das folgende Verwerfungsverfahren zurSimulation von Stichproben von
der Wahrscheinlichkeitsverteilungµ:
Algorithmus 12.3 (Acceptance-Rejection-Verfahren). repeat
erzeuge unabhängige Stichprobenx ∼ ν undu ∼ U(0,1)
until u ≤ (x)C
return x
Der folgende Satz zeigt, dass der Algorithmus im Mittel nachC/Z Schritten eine Stichprobe von
µ liefert:
Satz 12.4.SeienX1, X2, . . . : Ω → S und U1, U2, . . . : Ω → (0, 1) unter P unabhängige
Zufallsvariablen mit Verteilungenν bzw.U(0,1). Dann ist die erste Akzeptanzzeit
T (ω) := min
k ∈ N
∣∣∣∣Uk(ω) ≤(Xk(ω))
C
geometrisch verteilt mit ParameterZ/C, und die (fast überall definierte) Zufallsvariable
Y (ω) := XT (ω)(ω)
hat die Verteilungµ.
Beweis.Da die EreignisseEk := Uk ≤ (Xk)C
unabhängig sind, ist die ZufallsvariableT (ω) =
mink ∈ N | ω ∈ Ek geometrisch verteilt mit Parameter
p = P [Ek] = P
[Uk ≤
(Xk)
C
]Lemma 12.2
=Z
C.
Weiterhin folgt nach Lemma 12.2:
P [Y ∈ B] =∞∑
k=1
P [XT ∈ B, T = k] =∞∑
k=1
P [Xk ∈ B ∩ EC1 ∩ . . . ∩ EC
k−1 ∩ Ek]
=∞∑
k=1
P [Xk ∈ B ∩ Ek]k−1∏
i=1
P [ECi ] =
∞∑
k=1
P [Xk ∈ B | Ek] · p · (1− p)k−1
= µ[B].
Bemerkung. (1). Im Algorithmus kommt nur das Verhältnis(x)/C vor, und die Konstan-
te C kann frei gewählt werden, solangeC ≥ sup gilt. Um das Acceptance-Rejection-
Verfahren einzusetzen, benötigen wir daher lediglich eineobere Schranke für dieunnor-
mierteDichte.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 429
(2). Die mittlere Anzahl von Versuchen bis zur Akzeptanz beträgtE[T ] = C/Z. Der Algorith-
mus ist also umso effizienter, je kleinerC gewählt wird.
Die letzte Bemerkung zeigt auch eine Schwäche des AR-Verfahrens: Damit die Methode prakti-
kabel ist, muss die relative Dichtegleichmäßigdurch eine Konstante beschränkt sein, die nicht zu
groß ist. Dies ist besonders in hohen Dimensionen häufig nicht der Fall. Ist man nur an Schätzern
von Erwartungswerten, und nicht an der Simulation einzelner Stichproben interessiert, dann bie-
tet es sich an, Importance Sampling anstelle eines AR-Verfahrens zu verwenden. In diesem Fall
wird zumindest keine gleichmäßige Schranke für die relative Dichte benötigt, s.u. Alternative
Verfahren, um Stichproben zu generieren sind Markov Chain Monte Carlo (MCMC) Methoden.
Beispiel(Abgeschnittene Normalverteilungen). Füra > 0 sei
µ := N(0, 1)[ • | (a,∞) ]
die auf Werte größer alsa konditionierte Standardnormalverteilung. Die Dichte istproportional
zu
f(x) = e−x2/2I(a,∞)(x).
Eine naive Methode zur Simulation einer Stichprobe vonµ ist, solange Stichproben vonN(0, 1)
zu erzeugen, bis ein Wert größer alsa auftritt. Für großea ist dieses Verfahren jedoch extrem
ineffizient, da die AkzeptanzwahrscheinlichkeitN(0, 1)[(a,∞)] sehr klein ist. Besser geht man
wie folgt vor: Fürx > a gilt
f(x) = e−(a+(x−a))2/2 = e−a2/2 · e−a(x−a)−(x−a)2/2.
Wir schätzen diese Dichte durch die Dichte
gλ(x) = λ · e−λ(x−a) · I(a,∞)(x)
einer verschobenen Exponentialverteilung mit Parameterλ ≥ a ab.
Universität Bonn Wintersemester 2009/2010
430 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
a
νλµ(0, 1)
Abbildung 12.1: Dichten der Normalverteilung und der Sampling-Verteilung für die abgeschnit-
tene Normalverteilung (hier die Dichte der Exponentialverteilung).
Maximieren von λ = f/gλ liefert:
C(λ) := supx≥a
λ(x) =1
λexp((λ− a)2/2).
Diese Funktion ist fürλ = (a+√a2 + 1)/2 minimal. Damit bietet sich der folgende Algorithmus
zum Simulieren einer Stichprobe vonµ an:
Setzeλ := (a+√a2 + 1)/2
repeat
erzeuge unabhängige Stichprobenu1, u2 vonU(0,1)
setzex := a− 1
λlog u1 (simuliert Stichprobe vonνλ)
until u2 ≤ λ(x)C(λ)
(= f(x)
gλ(x)·C(λ)
)
return x
Seltene Ereignisse und Importance Sampling
Seiµ eine Wahrscheinlichkeitsverteilung auf einem messbaren Raum (S,S). Angenommen, wir
wollen die Wahrscheinlichkeit
θ = µ[A] =
∫IA dµ
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 431
eines EreignissesA ∈ S mit einem Monte-Carlo-Verfahren näherungsweise berechnen. Der klas-
sische Monte-Carlo-Schätzer
θk =1
k
k∑
i=1
IA(Yi), Yi unabhängig mit Verteilungµ,
ist erwartungstreu mit Varianz
Var[θk] =1
kVarµ[IA] =
θ · (1− θ)
k
und relativem Fehler
E[|θk − θ|2]1/2/θ = σ(θk)/θ =
(1− θ
k · θ
)1/2
.
Für seltene Ereignisse ist der relative Fehler hoch, und dasSchätzverfahren ineffizient. Istν eine
andere Wahrscheinlichkeitsverteilung mitµ ≪ ν, dann können wir alternativ den Importance
Sampling Schätzer
θk =1
k
k∑
i=1
IA(Xi)dµ
dν(Xi), Xi unabhängig mit Verteilungν,
verwenden. Auchθk ist erwartungstreu, denn
θ = µ[A] =
∫IAdµ
dνdν = E[θk].
Zudem gilt
Var[θk] =1
kVarν
[IA · dµ
dν
]. (12.1.3)
Es stellt sich die Frage, wie wir eine Wahrscheinlichkeitsverteilungν finden, von der wir Stich-
proben simulieren können, und für die die Varianz in (12.1.3) möglichst klein ist. Wir betrachten
zunächst ein Beispiel:
Beispiel (Berechnung Gaußscher Wahrscheinlichkeiten). Sei C eine strikt positiv definite
symmetrisched × d-Matrix, und seiµ = N(0, C) die multivariate Normalverteilung imRd
mit Dichte
f(x) =1√
(2π)d(detC)exp
(−1
2x · C−1x
).
Angenommen, wir wollen die Wahrscheinlichkeitθ = µ[A] einer offenen MengeA ⊆ Rd mit
einem Monte-Carlo Verfahren berechnen. Ist der Nullpunkt inder MengeA enthalten, dann ist
A ein „typisches“ Ereignis bzgl.µ, und wir können in der Regel den klassischen Monte-Carlo
Universität Bonn Wintersemester 2009/2010
432 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Schätzerθk verwenden.
Hier interessiert uns der Fall0 6∈ A. In diesem Fall ist die Wahrscheinlichkeitθ evtl. sehr klein –
wir wenden daher ein Importance Sampling Verfahren an. Um eine geeignete Referenzverteilung
ν zu erhalten, wählen wir einen Punktx∗ aus dem AbschlussA mit
f(x∗) = supx∈A
f(x), d.h. x∗ · C−1x∗ = infx∈A
x · C−1x, (12.1.4)
und setzen
ν := N(x∗, C).
Wir verschieben die Verteilung also so, dass sie in der Umgebung des „wahrscheinlichsten“ Punk-
tesx∗ ∈ A bzgl.µ, d.h. des Punktes mit maximaler Dichte, konzentriert ist. Die Verteilungν ist
absolutstetig mit Dichte
g(x) =1√
(2π)d detCexp
(−1
2(x− x∗) · C−1(x− x∗)
).
Damit erhalten wir
dµ
dν(x) =
f(x)
g(x)= exp
(−x∗ · C−1x+
1
2x∗ · C−1x∗
).
Ist die MengeA konvex, dann gilt
x∗ · C−1(x− x∗) ≥ 0 für allex ∈ A,
dax∗ der Minimierer der quadratischen Formx 7→ x · C−1x in A ist. Damit erhalten wir
supx∈A
dµ
dν(x) = exp
(−1
2x∗ · C−1x∗
),
und somit nach (12.1.3)
Var[θk] ≤ 1
k
∫
A
(dµ
dν
)2
dν =1
k
∫
A
dµ
dνdµ
≤ θ
k· exp
(−1
2x∗ · C−1x∗
).
Offensichtlich ist dieser Wert in vielen Fällen deutlich kleiner als die Varianzθ(1 − θ)/k des
klassischen Monte-Carlo Schätzers.
Wir wollen nun Importance Sampling Schätzer systematischer untersuchen. Sei allgemein
θ =
∫φ dµ mit φ ∈ L1(µ),
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 433
und seiν eine zuµ absolutstetige Verteilung mit relativer Dichte
w =dν
dµ> 0 µ-fast überall.
Dann ist auchµ absolutstetig bzgl.ν mit relativer Dichte1/w, und es giltφ/w ∈ L1(ν). Wegen
θ =
∫φ dµ =
∫φ
wdν
ist der Importance Sampling Schätzer
θk =1
k
k∑
i=1
φ(Xi)/w(Xi), Xi unabhängig mit Verteilungν,
erwartungstreu, und nach dem Gesetz der großen Zahlen konsistent, d.h.θk → θ P -fast sicher
für k → ∞. Für den mittleren quadratischen Fehler ergibt sich:
Satz 12.5(MSE von Importance Sampling). (1). Es giltE[|θk − θ|2] = σ2ν/k mit
σ2ν = Varν
[φ
w
]=
(∫φ2(x)
w(x)µ(dx)
)− θ2.
(2). Der mittlere quadratische Fehler ist minimal, fallsw proportional zu|φ| ist.
Beweis. (1). Die Aussage folgt, daθk erwartungstreu ist mit
k · Var[θk] = Varν [φ/w] =
∫ (φ(x)
w(x)− θ
)2
w(x)µ(dx).
(2). Aus der Cauchy-Schwarz Ungleichung ergibt sich
(∫|φ| dµ
)2
=
(∫ |φ|√w
√w dµ
)2
≤∫φ2
wdµ ·
∫w dµ = σ2
ν + θ2
Dies liefert eine untere Schranke für den mittleren quadratischen Fehler. Zudem gilt Gleich-
heit in der Cauchy-Schwarz Ungleichung genau dann, wenn√w proportional zu|φ|/√w
ist, also, wennw ∝ |φ| ist.
Das Optimalitätsresultat aus Satz 12.5 ist eher von theoretischer als von praktischer Bedeutung,
wie das folgende Beispiel zeigt:
Universität Bonn Wintersemester 2009/2010
434 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Beispiel(Seltene Ereignisse). Ist θ = µ[A] für eine MengeA ∈ S, alsoφ = IA, dann ist
w =IAµ[A]
, d.h.ν = µ[• | A],
die Importance Sampling Verteilung mit minimalem quadratischen Fehler. Die Simulation von
Stichproben von der bedingten Verteilung ist jedoch für EreignisseA mit kleiner Wahrschein-
lichkeit oft nicht praktikabel. Das AR-Verfahren ist in diesem Fall ineffizient, da die mittlere
Akzeptanzzeit mindestens1/µ[A] beträgt.
Zumindest liefert Satz 12.5 eine gewisse Rechtfertigung fürdie Faustregel, dass man bei der Aus-
wahl einer IS Verteilungν darauf achten sollte, die relative Dichtew von ν bzgl.µ dort groß zu
wählen, wo auch der Integrandφ betragsmäßig große Werte annimmt.
Da die optimale Importance Sampling Verteilung gewöhnlichnicht realisierbar ist, betrachtet
man stattdessen üblicherweise nur Verteilungen aus einer ein- oder mehrparametrigen Familie
(νt)t∈Θ von Wahrscheinlichkeitsverteilungen, und versuchtσ2ν innerhalb dieser Familie zu mini-
mieren. Am wichtigsten sind dabei die im nächsten Abschnittbetrachteten exponentiellen Fami-
lien, da diese eine Minimierungseigenschaft bzgl. der relativen Entropie besitzen, s. Satz 12.13
unten.
Bemerkung. (1). Asymptotische Normalität:Ist φ/w ∈ L2(ν), dann folgt aus dem zentralen
Grenzwertsatz die asymptotische Normalität des Importance Sampling Schätzers:
√k(θk − θ)
D−→ N(0, σ2ν) für k → ∞.
Für praktische Anwendungen ist der nicht-asymptotische mittlere quadratische Fehler al-
lerdings wichtiger.
(2). Importance Sampling mit unnormierten Dichten:In Anwendungen ist die relative Dichte
oft nur bis auf eine Normierungskonstante bekannt, d.h. es gilt
dµ
dν(x) =
1
w(x)∝ (x)
mit einer explizit bekannten Funktion(x), aber einem unbekannten Proportionalitätsfak-
tor. In diesem Fall können wir die Darstellung
θ =
∫φ dµ =
∫φdµ
dνdν =
∫φ dν∫ dν
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 435
nutzen, undθ durch den Schätzer
θk =
1k
k∑i=1
φ(Xi)(Xi)
1k
k∑i=1
(Xi)
=
k∑i=1
φ(Xi)(Xi)
k∑i=1
(Xi)
, Xi i.i.d. ∼ ν, (12.1.5)
approximieren. Nach dem Gesetz der großen Zahlen istθk konsistent, d.h.θk → θ fast
sicher fürk → ∞. Ein zentraler Grenzwertsatz gilt ebenfalls. Allerdings ist θk i. A. nicht
erwartungstreu, und der nicht-asymptotische mittlere quadratische Fehler ist nicht so leicht
zu kontrollieren, da der Nenner in (12.1.5) degenerieren kann.
(3). Schätzen der Varianz:Ein weiteres zentrales Problem in Anwendungen ist, dass dieVarianz
σ2ν in der Regel nicht bekannt ist, und häufig auch keine guten Abschätzungen fürσ2
ν vor-
liegen. Daher behilft man sich in der Praxis oft damit, die Varianz empirisch zu schätzen,
z.B. durch
s2k =1
k − 1
k∑
i=1
(φ(Xi)
w(Xi)− θk
)2
.
Die empirische Schätzung kann jedoch irreführend sein, wiedas folgende warnende Bei-
spiel zeigt:
Beispiel. Seiµ das Lebesguemaß aufR,
φ(x) = (2π)−1/2 exp(−|x−m|2/2)
die Dichte der Normalverteilung mit Varianz1 und Mittelwertm ∈ R, undν die Standardnor-
malverteilung. In diesem Fall gilt
θ =
∫φ dµ = 1.
Obwohlµ keine Wahrscheinlichkeitsverteilung ist, können wir wie oben Importance Sampling
mit Referenzverteilungν durchführen. Es gilt dannw(x) = (2π)−1/2 exp(−x2/2) und
σ2ν =
∫φ(x)2
w(x)dx− 1 = (2π)−1/2
∫em
2−(x−2m)2/2 dx− 1 = em2 − 1.
Hieraus folgt, dass schon fürm = 5 mindestensk ≥ 6.5 · 1015 Stichproben benötigt werden,
damit für den mittleren quadratischen Fehler
E[|θk − θ|2]1/2 = σν · k−1/2 <1
3
Universität Bonn Wintersemester 2009/2010
436 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
gilt. Empirisches Schätzen der Varianz in Simulationsläufen liefert ganz andere Ergebnisse. Bei-
spielsweise erhielten wir fürk = 106 Stichproben in einem typischen Simulationslauf
s2k = 6816, d.h.sk · k−1/2 ≈ 0.08 < 1/3.
Die empirische Varianzschätzung suggeriert hier also die falsche Aussage, dass der Schätzwert
bereits fürk = 106 genau genug ist!
Die Ursache ist in diesem Fall, dass praktisch keine Stichproben im relevanten Bereichx ≈ m
landen. Daher ist nicht nur der Schätzwert fürθ, sondern auch die empirische Varianz sehr klein.
Tatsächlich rechnet man in dem Beispiel leicht nach, dass
Var[s2k] =1
k − 1Varν [φ/w] ≤ 1
k − 1(e6m
2 − 1)
gilt – der Schätzers2k für die Varianz ist also völlig unbrauchbar. Das Problem ist, dass in vielen
Anwendungen ähnliche Effekte auftreten können, aber nichtso leicht zu erkennen sind.
12.2 Exponentielle Familien und große Abweichungen
In diesem Abschnitt wollen wir uns überlegen, wie die Wahrscheinlichkeiten großer Abweichun-
gen vom Gesetz der großen Zahlen sowohl asymptotisch als auch numerisch berechnet werden
können. In beiden Fällen hilft uns dasselbe Prinzip weiter:Ein Maßwechsel zu einer Verteilung
aus einer exponentiellen Familie.
Exponentielle Familien
Seiµ ein positives Maß auf(S,S), U : S → Rd eine messbare Funktion, und
Z(t) =
∫et·U dµ, t ∈ Rd,
die momentenerzeugende Funktion vonU mit Definitionsbereich
Θ = t ∈ Rd | Z(t) <∞.
Für t ∈ Θ sei
Λ(t) = logZ(t)
die kumulantenerzeugende Funktion.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 437
Definition. Die Familie der Wahrscheinlichkeitsverteilungen
νt(dx) :=1
Z(t)et·U(x)µ(dx) = et·U(x)−Λ(t)µ(dx), t ∈ Θ,
heißtexponentielle Familie zuµ undU .
Bemerkung (Boltzmannverteilung). In der statistischen Physik treten exponentielle Famili-
en als Gleichgewichsverteilungen auf. Beispielsweise ist die Verteilung im thermodynamischen
Gleichgewicht in einem abgeschlossenen System bei inverser Temperaturβ = 1/T gleich νβ,
wobeiµ die Gleichverteilung bzw. das Lebesguemaß auf dem Zustandsraum undU(x) = −H(x)
die negative Energie des Zustandesx ist. Die NormierungskonstanteZ(β) heißt in der statisti-
schen PhysikPartitionsfunktion.
Wir betrachten nun einige elementare Beispiele von exponentiellen Familien:
Beispiel. (1). Exponential und Gammaverteilungen.Ist µ die Exponentialverteilung mit Pa-
rameterλ > 0, undU(x) = −x, dann istM(t) für t > −λ endlich, und es gilt
νt = Exp(λ+ t) für alle t > −λ.
Die exponentielle Familie besteht also aus allen Exponentialverteilungen.
Ist µ = Γ(α, λ) eine Gammaverteilung, dann gilt entsprechendνt = Γ(α, λ+ t).
(2). Bernoulli-, Binomial- und PoissonverteilungenIst µ die Bernoulliverteilung mit Para-
meterp undU(k) = k, dann giltνt(1) = pt mit
pt =etp
etp+ 1− p=
p
p+ (1− p)e−t,
d.h.νt ist die Bernoulliverteilung mit Parameterpt. Entsprechend gilt fürU(k) = k:
µ = Bin(n, p) ⇒ νt = Bin(n, pt), und
µ = Poisson(λ) ⇒ νt = Poisson(λet).
Die exponentielle Familie besteht also jeweils aus allen Bernoulliverteilungen, Binomial-
verteilungen mit festemn, bzw. Poissonverteilungen.
(3). Normalverteilungen. Istµ = N(m,C) eined-dimensionale Normalverteilung, undU(x) =
x, dann gilt νt = N(m + Ct, C) für t ∈ Rd. Im nichtdegenerierten Fall enthält die
exponentielle Familie also alle Normalverteilungen mit fester KovarianzmatrixC. Für
d = 1, µ = N(m,σ2), und
U(x) = −(x−m)2
2
Universität Bonn Wintersemester 2009/2010
438 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
erhält man
νt = N
(m,
(1
σ2+
1
t
)−1)
für t > 0,
d.h. die exponentielle Familie besteht aus Normalverteilungen mit festem Mittelwertm.
Entsprechend kann man die Familie der eindimensionalen Normalverteilungen als zweipa-
rametrige exponentielle Familie bzgl. einer Referenz-Normalverteilung interpretieren.
Wir beschränken uns nun auf den Falld = 1. Sei (νt)t∈Θ eine einparametrige exponentielle
Familie zuµ undU , und seiΘ = Θ \ ∂Θ der offene Kern des Definitionsbereichs.
Lemma 12.6(Eigenschaften exponentieller Familien).
(1). Es giltZ ∈ C∞(Θ). Für t ∈
Θ existieren die Erwartungswerte und Varianzen
m(t) =
∫U dνt bzw. v(t) = Varνt [U ],
und es gilt
m(t) = Λ′(t) und v(t) = Λ′′(t).
(2). Die Funktionm ist aufΘ beliebig oft differenzierbar und monoton wachsend. IstU nicht
ν-fast überall konstant, dann istm sogar strikt monoton wachsend. Im FallΘ = R gilt
zudem
limt→∞
m(t) = esssupU = infa ∈ R : µ[U > a] = 0, und (12.2.1)
limt→−∞
m(t) = essinf U = supa ∈ R : µ[U < a] = 0, (12.2.2)
d.h.m : R → (essinf U, esssupU) ist bijektiv.
Beweis. (1). Seit ∈Θ. Wir betrachten die momentenerzeugende Funktion
M(s) =
∫esU dνt
der Verteilungνt. Wegent ∈Θ gilt
M(s) =
∫1
Z(t)e(s+t)U dµ = Z(s+ t)/Z(t) < ∞ (12.2.3)
für alle s in einer Umgebung(−ε, ε) der 0, alsoM ∈ C∞(−ε, ε). Wegen (12.2.3) folgt
Z ∈ C∞(t− ε, t+ ε),∫U dνt = M ′(0) =
Z ′(t)
Z(t)= Λ′(t), und
Varνt [U ] = (logM)′′(0) = Λ′′(t).
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 439
(2). Aus (1) folgtm = Λ′ ∈ C∞(Θ) undm′ = v. Also istm monoton wachsend, und strikt
monoton wachsend, fallsVarνt [U ] > 0. Füra ∈ (essinf U, esssupU) folgt mit monotoner
Konvergenz
νt[U ≤ a]
νt[U > a]=
∫etU · IU≤a dµ∫etU · IU>a dµ
=
∫et(U−a) · IU≤a dµ∫et(U−a) · IU>a dµ
→ 0
für t→ ∞, also limt→∞
νt[U > a] = 1. Hieraus folgt
lim inft→∞
m(t) ≥ a · lim inft→∞
νt[U > a] = a für allea < esssupU,
also (12.2.1). Die Aussage (12.2.2) zeigt man analog.
Beispiel(Isingmodell). Das Isingmodell wurde 1925 in der Dissertation von Ernst Ising mit der
Absicht eingeführt, Phasenübergänge von ferromagnetischen Materialien in einem vereinfachten
mathematischen Modell nachzuweisen. Heute spielt das Isingmodell eine wichtige Rolle als ein-
fach zu formulierendes, aber schwer zu analysierendes grundlegendes mathematisches Modell,
das auch in unterschiedlichen Anwendungsbereichen wie z.B.der Bildverarbeitung eingesetzt
wird.
SeiS = −1, 1V , wobeiV die Knotenmenge eines endlichen Graphen(V,E) ist, z.B.
V = −k,−k + 1, . . . , k − 1, kd ⊆ Zd, d, k ∈ N.
Ein Elementσ = (σi|i ∈ V ) ausS interpretieren wir physikalisch als Konfiguration von Spins
σi ∈ −1, 1 an dem Knoteni ∈ V , wobeiσi = +1 für einen Spin in Aufwärtsrichtung und
σi = −1 für einen Spin in Abwärtsrichtung steht. Da benachbarte Spins sich vorzugsweise gleich
ausrichten, ist die Energie einer Konfigurationσ durch
H(σ) =∑
(i,j)∈E|σi − σj|2 + h ·
∑
i∈Vσi
gegeben, wobei die erste Summe über alle Kanten des Graphen läuft, und der zweite Term die
Wechselwirkung mit einem äußeren Magnetfeld mit Stärkeh ∈ R beschreibt. Als Gleichge-
wichtsverteilung bei inverser Temperaturβ = 1/T ergibt sich die Verteilungµβ,h auf S mit
Gewichten
µβ,h(σ) ∝ exp(−β∑
(i,j)∈E|σi − σj|2 − βh ·
∑
i∈Vσi).
Die folgende Grafik zeigt Stichproben von der Verteilungµβ,h auf einem ?×? GitterV für ver-
schiedene Werte vonβ und h. Für β = 0 (d.h. bei unendlicher Temperatur) ergibt sich eine
Universität Bonn Wintersemester 2009/2010
440 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Gleichverteilung. Fürβ → ∞ (Temperatur→ 0) konzentriert sich die Verteilung dagegen auf
den energieminimierenden Konfigurationen. Dieses sind fürh = 0 die beiden konstanten Kon-
figurationenσi ≡ +1 und σi ≡ −1, für h 6= 0 hat dagegen nur eine dieser Konfigurationen
minimale Energie.
Der Satz von Cramér
Seiµ eine Wahrscheinlichkeitsverteilung auf einem messbaren Raum (S,S), U : S → R eine
messbare Funktion, und sei(Xi)i∈N eine Folge unabhängiger Zufallsvariablen auf einem Wahr-
scheinlichkeitsraum(Ω,A, P ) mit Verteilungµ. Wir setzen voraus:
Annahmen:
(1). Alle exponentiellen Momente der ZufallsvariablenU(Xi) existieren, d.h.
Λ(t) = log
∫etUdµ < ∞ für alle t ∈ R.
(2). U ist nichtµ-fast sicher konstant.
Seia ∈ R fest. Wir möchten nun die Asymptotik der Wahrscheinlichkeiten
θn = P [Sn ≥ an], Sn =n∑
i=1
U(Xi),
für n→ ∞ genauer untersuchen. Nach dem Gesetz der großen Zahlen gilt:
Sn/n −→ m =
∫U dµ P -fast sicher.
Füra > m ist das EreignisSn ≥ an also eine große Abweichung vom typischen Verhalten. Der
Satz von Chernoff liefert eine obere Schranke der Wahrscheinlichkeitenθn. Um die Asymptotik
genauer zu verstehen, führen wir eine Maßtransformation durch. Es gilt
θn = µn[An] mit An =
x ∈ Sn :
n∑
i=1
U(xi) ≥ an
. (12.2.4)
Wir wollen zu einer Verteilung übergehen, bzgl. der das EreignisAn nicht mehr selten, sondern
typisch ist. Dazu betrachten wir die Produktmaßeνnt , t ∈ R, wobeiνt absolutstetig bzgl.µ ist mit
Dichtedνtdµ
(x) = exp (tU(x)− Λ(t)) .
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 441
Die relative Dichte vonνnt bzgl.µn ist dann
wnt (x1, . . . , xn) =
n∏
i=1
dνtdµ
(xi) = exp
(t
n∑
i=1
U(xi)− nΛ(t)
). (12.2.5)
Man beachte, dass(νnt )t∈R wieder eine exponentielle Familie ist. Es gilt
wnt (X1, . . . , Xn) = exp(tSn − nΛ(t)).
Bemerkung. Der stochastische ProzessMn = exp(tSn − nΛ(t)), n = 0, 1, 2, . . . , ist ein expo-
nentielles Martingal. Exponentielle Martingale spielen in der stochastischen Analysis eine wich-
tige Rolle, s. [Introduction to Stochastical Analysis].
Wir wollen uns nun überlegen, wie wirden Parametert in angemessener Weise wählen können.
Wenn wirt zu klein wählen, dann hat das EreignisAn für großen nur eine geringe Wahrschein-
lichkeit bzgl.νnt . Wählen wir umgekehrtt sehr groß, dann liegt die Wahrscheinlichkeitνnt [An]
für großen nahe bei1. In beiden Fällen sind Abschätzungen fürνnt [An] daher nur bedingt aussa-
gekräftig. Um eine präzisere Aussage zu erhalten, sollten wir t so groß wählen, dass das Ereignis
An „gerade typisch wird.“ Der Erwartungswert
m(t) =
∫U dνt, t ∈ R,
ist nach Lemma 12.6 strikt monoton wachsend. Wählen wirt∗ mit
m(t∗) = a,
dann gilt nach dem Gesetz der großen Zahlen
limn→∞
νnt∗
[x ∈ Sn :
1
n
n∑
i=1
U(xi) ∈ (a− ε, a+ ε)
]= 1 für alleε > 0,
und nach dem zentralen Grenzwertsatz
limn→∞
νnt∗
[x ∈ Rn :
1
n
n∑
i=1
U(xi) ≥ a
]=
1
2,
d.h.t∗ ist gerade der gesuchte „Schwellenwert.“
Die Umsetzung unserer Überlegungen führt zu einer ersten Aussage über die Asymptotik der
Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen auf der exponentiel-
len Skala:
Universität Bonn Wintersemester 2009/2010
442 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Satz 12.7(Cramér). Unter den Annahmen von oben gilt
limn→∞
1
nlogP
[Sn
n≥ a
]= −I(a) für alle a ∈ (m, esssupU),
wobei die Ratenfunktion
I(a) = supt∈R
(ta− Λ(t))
die Legendretransformation vonΛ ist.
Bemerkung. Der Satz von Cramér besagt, dass sich die Wahrscheinlichkeitenθn = P [Sn/n ≥a] asymptotisch wieexp(−n · I(a)) verhalten, wenn man subexponentiell wachsende Faktoren
vernachlässigt. Er besagtnicht, dass die Folgen(θn) und(exp(−n·I(a))) asymptotisch äquivalent
sind!
Beweis.Der Beweis setzt sich zusammen aus einer nicht-asymptotischen Abschätzung der Wahr-
scheinlichkeiten
θn = P [Sn ≥ an] = µn[An], An = x ∈ Sn :n∑
i=1
U(xi) ≥ an,
nach oben, und einer asymptotischen Abschätzung der Wahrscheinlichkeit nach unten.
(1). Obere Schranke.Die nicht-asymptotische obere Schranke
1
nlog θn ≤ −I(a) für allen ∈ N
liefert der Satz von Chernoff (Satz 8.3). Zur Illustration schreiben wir das Hauptargument
aus dem Beweis von oben noch einmal so auf, dass der Zusammenhang mit einer Maß-
transformation verdeutlicht wird: Fürt > 0 gilt nach (12.2.5):
θn = µn[An] =
∫
An
1
wnt
dνnt
=
∫
An
exp
(−t
n∑
i=1
U(xi) + Λ(t)n
)dνnt
≤ e−(ta−Λ(t))n · νnt [An]
≤ e−(ta−Λ(t))n.
Hieraus folgt die Behauptung wie im Beweis von Satz 8.3 durch Optimieren der Abschät-
zung int.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 443
(2). Untere Schranke.Wir zeigen nun die asymptotische untere Schranke
lim infn→∞
1
nlog µn[An] ≥ −I(a). (12.2.6)
Zusammen mit der oberen Schranke folgt dann
limn→∞
1
nlog µn[An] = −I(a),
d.h. die obere Schranke ist asymptotisch „scharf“. Zum Beweis von (12.2.6) gehen wir zu
der Verteilungνnt∗ zum Schwellenwertt∗ = m−1(a) über. Nach Lemma 12.6 istm : R →(essinf U, esssupU) bijektiv, also existiertm−1(a) > 0 für a ∈ (m, esssupU). Für ε > 0
sei
An,ε =
x ∈ Sn : a ≤ 1
n
n∑
i=1
U(xi) ≤ a+ ε
.
Ähnlich wie bei der oberen Schranke erhalten wir
µn[An] ≥ µn[An,ε] =
∫
An,ε
exp
(−t∗
n∑
i=1
U(xi) + Λ(t)n
)dνnt∗
≥ e−(t∗(a+ε)−Λ(t∗))nνnt∗ [An,ε]
≥ e−I(a)·ne−t∗εn · νnt∗ [An,ε] (12.2.7)
Wegen∫U dνt∗ = m(t∗) = a gilt nach dem zentralen Grenzwertsatz:
νnt∗ [An,ε] = νnt∗
[0 ≤ 1√
n
n∑
i=1
(U(xi)− a) ≤ ε√n
]
n→∞−→ N(0,Var[U ])[[0,∞)] =1
2, (12.2.8)
d.h. die große Abweichung ist typisch unterνnt∗.
Für die Wahrscheinlichkeiten bzgl.µn ergibt sich dann nach (12.2.7):
lim inf1
nlog µn[An] ≥ −I(a)− t∗ε.
Die Behauptung folgt fürεց 0.
Bemerkung. Ähnliche Aussagen über die Asymptotik von Wahrscheinlichkeiten großer Abwei-
chungen wurden auch in vielen Modellen mit Abhängigkeit bewiesen. Sie spielen unter anderem
in der mathematischen statistischen Mechanik eine wichtige Rolle.
Universität Bonn Wintersemester 2009/2010
444 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Asymptotische Effizienz von IS Schätzern
Der beschriebene Maßwechsel ermöglicht nicht nur die asymptotische Berechnung der Wahr-
scheinlichkeiten
θn = P [Sn ≥ an] = µn[An].
Wir können den Maßwechsel auch praktisch verwenden, um die Wahrscheinlichkeitenθn nume-
risch mithilfe von Importance Sampling zu berechnen. Wählenwir νnt als Referenzmaß, dann
erhalten wir nach (12.2.5) die Importance Sampling Schätzer
θ(k)n =1
k
k∑
j=1
(IAn
wnt
)(X
(j)1 , . . . , X(j)
n )
=1
k
k∑
j=1
IS(j)n ≥an · exp
(−tS(j)
n + Λ(t) · n)
mit unabhängigen ZufallsvariablenX(j)i mit Verteilungνt undS(j)
n =n∑
i=1
X(j)i . Wir können ver-
muten, dass auch diese Schätzer für großen nur für t nahet∗ effizient sind, da ansonsten das
EreignisAn eine Wahrscheinlichkeit nahe0 oder1 bzgl. νnt hat, und daher die überwiegende
Mehrheit der StichprobenS(j)n außerhalb bzw. inAn liegt. Diese Vermutung lässt sich bestätigen.
Auf ähnliche Weise wie beim Beweis des Satzes von Cramér erhalten wir:
Lemma 12.8.Der Schätzerθ(k)n ist für jedest ∈ R undk, n ∈ N erwartungstreu. Für die Varianz
gelten folgende Abschätzungen:
Var[θ(k)n ] ≤ 1
ke−2n·(at−Λ(t)), (12.2.9)
lim infn→∞
log Var[θ(k)n ]
log θ2n≥ at− Λ(t)
I(a). (12.2.10)
Bemerkung. Die zweite Aussage sieht auf den ersten Blick wie eine untere Schranke aus. Tat-
sächlich handelt es sich aber um eine Abschätzung der Varianz nach oben, da der Nennerlog θ2n
negativ ist.
Beweis.Für die Varianz erhalten wir ähnlich wie beim Beweis der oberen Schranke im Satz von
Cramér:
k · Var[θ(k)n ] = Varνn [IAn/wnt ] ≤
∫
An
(wnt )
−2 dνnt
=
∫
An
exp
(−2t
n∑
i=1
U(xi) + 2Λ(t) · n)νnt (dx)
≤ exp(−2 · (ta− Λ(t))n),
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 445
wobeiwnt = dνnt /dµ
n die relative Dichte ist. In Kombination mit der unteren Schranke aus dem
Satz von Cramér folgt
lim infn→∞
log Var[θ(k)n ]
log θ2n=
1
2lim infn→∞
−n−1 log Var[θ(k)n ]
−n−1 log θn
≥ 1
2· − lim supn−1 log Var[θ
(k)n ]
− lim inf n−1 log θn
≥ at− Λ(t)
I(a).
Hierbei haben wir die Vorzeichen eingefügt, dalog θn negativ ist.
Aus dem Lemma ergibt sich:
Satz 12.9(Logarithmische Effizienz). Gilt t = t∗, dann ist die Folge(θ(k)n )n∈N von Schätzern
für die Wahrscheinlichkeitenθn für jedesk ∈ N logarithmisch effizient, d.h. für jedesε > 0 gilt
lim supn→∞
E[|θ(k)n − θn|2]θ2−εn
< ∞.
Beweis.Die Funktionf(t) = ta−Λ(t) hat ein globales Maximum beit∗ = m−1(a), denn es gilt
f ′(t) = a− Λ′(t) = a−m(t) = 0 für t = t∗, und
f ′′(t) = −Λ′′(t) = −Varνt [U ] < 0 für alle t ∈ R.
Also gilt
I(a) = supt∈R
(ta− Λ(t)) = t∗a− Λ(t∗).
Für t = t∗ folgt dann aus Lemma 12.8
lim supk→∞
log Var[θ(n)k ]
− log θ2k≤ −1,
d.h. zu jedemε > 0 existiert einn0 ∈ N mit
log Var[θ(k)n ] ≤ −(−1 + ε) log θ2n,
bzw.
Var[θ(k)n ] ≤ θ2+2εn für allen ≥ n0.
Umgekehrt kann man zeigen, dass bei anderer Wahl vont keine logarithmische Effizienz vorliegt.
Dies rechtfertigt die zunächst anschaulich motivierte Wahl von t als Schwellenwertt∗ = m−1(a).
Universität Bonn Wintersemester 2009/2010
446 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
12.3 Relative Entropie und statistische Unterscheidbarkeit
In diesem Abschnitt werden wir den Wechsel des zugrundeliegenden Wahrscheinlichkeitsmaßes
systematischer untersuchen. Dabei spielt der Begriff der relativen Entropie eine zentrale Rolle.
Relative Entropie
Seienµ und ν Wahrscheinlichkeitsverteilungen aufS = Rd oder einem diskreten Raums mit
Dichten (bzw. Massenfunktionen)f, g > 0. Die relative Dichtew vonν bzgl.µ ist
w(x) :=dν
dµ(x) =
g(x)
f(x)für µ-fast allex ∈ S.
Die Dichte bzw. Massenfunktion
Ln(µ; x1, . . . , xn) =n∏
i=1
f(xi)
der Verteilungn unabhängiger StichprobenX1, . . . , Xn von µ bezeichnet man auch alsLike-
lihood der Verteilungµ bzgl. der Daten(x1, . . . , xn).
Wie kann man anhand von unabhängigen Stichproben erkennen,welche der beiden Verteilungen
µ undν in einem Zufallsexperiment vorliegt? Dazu betrachten wir denLikelihoodquotienten
wn(x1, . . . , xn) :=Ln(ν; x1, . . . , xn)
Ln(µ; x1, . . . , xn)=
n∏i=1
g(xi)
n∏i=1
f(xi)=
n∏
i=1
w(xi).
Definition. Die durch
H(ν | µ) =
∫logw dν =
∫w logw dµ falls ν ≪ µ mit Dichtew,
H(ν | µ) = ∞ sonst,
definierte GrößeH(ν | µ) ∈ [0,∞] heißtrelative Entropie(oderKullback-Leibler Information)
vonν bzgl.µ.
Um eine anschauliche Interpretation der relativen Entropie zu geben, bemerken wie, dass
H(ν | µ) =
∫log
g
fdν =
∫(− log f(x)− (− log g(x))) ν(dx)
gilt. Wir können− log f(x) und− log g(x) als Maß für die Überraschung (den Informationsge-
winn) bei Eintreten vonx interpretieren, fallsµ bzw. ν das zugrundeliegende Modell ist. Wenn
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 447
wir alsoµ als Modell annehmen, aber tatsächlichν die zugrundeliegende Verteilung ist, dann er-
höht sich die Überraschung (der Informationszuwachs) bei Ziehen einer Stichprobe im Vergleich
zum korrekten Modell im Mittel umH(ν | µ).
Satz 12.10(Shannon-Mac Millan). SeienX1, X2, . . . : Ω → S unabhängige Zufallsvariablen
unterPµ bzw.Pν mit Verteilungµ bzw.ν. Dann gilt fürn→ ∞:
(1).1
nlogwn(X1, . . . , Xn) −→ H(ν | µ) Pν-fast sicher.
(2).1
nlogwn(X1, . . . , Xn) −→ −H(µ | ν) Pµ-fast sicher.
Beweis. (1). Fürn→ ∞ gilt nach dem Gesetz der großen Zahlen
1
nlogwn(X1, . . . , Xn) =
1
n
n∑
i=1
logw(Xi) −→∫
logw dν Pν-fast sicher.
Das Gesetz der großen Zahlen ist anwendbar, da∫(logw)− dν =
∫(w logw)− dµ ≤ 1
e< ∞.
(2). Daµ absolutstetig bzgl.ν mit Dichte1/w ist, gilt entsprechend
1
nlogwn(X1, . . . , Xn) = − 1
n
n∑
i=1
log1
w(Xi)
GdgZ−→ −∫
log1
wdµ = −H(µ | ν) Pµ-fast sicher.
Der Satz zeigt, dass sich die Produktdichte (der Likelihoodquotient) asymptotisch auf der expo-
nentiellen Skala (d.h. unter Vernachlässigung subexponentiell wachsender Faktoren) folgender-
maßen verhält:
wn(X1, . . . , Xn) ≃
enH(ν | µ) Pν-fast sicher
e−nH(µ | ν) Pµ-fast sicher.
Das folgende Lemma fasst einige elementare Eigenschaften der relativen Entropie zusammen:
Lemma 12.11(Eigenschaften der relativen Entropie).
Universität Bonn Wintersemester 2009/2010
448 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
(1). Es giltH(ν | µ) ≥ 0 mit Gleichheit genau dann, wennν = µ.
(2). Istµ die Gleichverteilung auf einer endlichen MengeS, dann gilt
H(ν | µ) = log |S| −H(ν). (12.3.1)
(3). H(ν1 ⊗ . . .⊗ νn | µ1 ⊗ . . .⊗ µn) =n∑
i=1
H(νi | µi).
Beweis. (1). Aus der Jensenschen Ungleichung folgt
H(ν | µ) =
∫w logw dµ ≥
∫w dµ · log
∫w dµ = 0.
Gleichheit gilt genau dann, wennw µ-fast sicher konstant, alsoν = µ ist.
(2). In diesem Fall giltw(x) = ν(x) · |S|, also
H(ν | µ) =∑
x∈Sν(x) log(ν(x) · |S|) = log |S| −H(ν).
(3). Übung.
Nach (12.3.1) liefern Aussagen über die relative Entropie als Spezialfall entsprechende Aussagen
für die Entropie.
Beispiel. (1). Bernoulliverteilungen: Für die Bernoulliverteilungenµp mit µp(1) = p undµp(0) =
1− p gilt:
H(µa | µp) = a log
(a
p
)+ (1− a) log
(1− a
1− p
)für allea, p ∈ (0, 1).
(2). Normalverteilungen: Fürm, m ∈ R undv, v > 0 gilt:
H(N(m, v) |N(m, v)) =1
2
(log(vv
)+v
v− 1 +
(m−m)2
v
), also insbesondere
H(N(m, v) |N(m, v)) =(m−m)2
2v.
Die relative Entropie ist ein im Allgemeinennichtsymmetrischer Abstandsbegrifffür Wahrschein-
lichkeitsverteilungen. Ihre statistische Interpretation werden wir im nächsten Abschnitt noch wei-
ter präzisieren. Zuvor bemerken wir, dass die relative Entropie Aussagen über die Größe wesent-
licher Mengen bei Wechsel der zugrundeliegenden Wahrscheinlichkeitsverteilung ermöglicht:
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 449
Maßwechsel und untere Schranken für große Abweichungen
SeienX1, X2, . . . unterPµ bzw.Pν unabhängige Zufallsvariablen mit Verteilungµ bzw. ν. Wie
in Abschnitt 7.4 nennen wir eine FolgeBn von messbaren Teilmengen der ProdukträumeSn
wesentlich bzgl.ν, falls
Pν [(X1, . . . , Xn) ∈ Bn] = νn[Bn] −→ 1 für n→ ∞.
Die folgende Aussage verallgemeinert den Maßkonzentrationssatz von MacMillan und den Quel-
lenkodierungssatz von Shannon aus Abschnitt 7.4.
Korollar 12.12. (1). Für jedesε > 0 ist die Folge
Bn,ε := (x1, . . . , xn) | en(H(ν | µ)−ε) ≤ wn(x1, . . . , xn) ≤ en(H(ν | µ)+ε) ⊆ Sn
wesentlich bzgl.ν, und
µn[Bn,ε] ≤ e−n(H(ν | µ)−ε) für alle n ∈ N. (12.3.2)
(2). Für beliebige messbare MengenAn ⊆ Sn mit
lim inf νn[An] > 0 (12.3.3)
gilt
lim inf1
nlog µn[An] ≥ −H(ν | µ). (12.3.4)
Bemerkung. Der Maßkonzentrationssatz von MacMillan und der Quellenkodierungssatz von
Shannon ergeben sich als Spezialfall von (1) bzw. (2), wennS endlich undν die Gleichverteilung
ist.
Wir beweisen nun das Korollar.
Beweis. (1). Die MengenBn,ε, n ∈ N, sind wesentlich bzgl.ν nach Satz 12.10. Zudem gilt:
1 ≥ νn[Bn,ε] =
∫
Bn,ε
wn dµn ≥ µn[Bn,ε] · en(H(ν | µ)−ε).
(2). beweist man analog zum Quellenkodierungssatz (Satz 7.17): Aus
µn[An] =
∫
An
1
wn
dνn ≥ e−n(H(ν | µ)+ε)νn[An ∩ Bn,ε]
Universität Bonn Wintersemester 2009/2010
450 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
folgt
lim inf1
nlog µn[An] ≥ −(H(ν | µ) + ε) + lim inf
1
nlog νn[An ∩ Bn,ε]
= −(H(ν | µ) + ε),
da lim inf νn[An ∩ Bn,ε] = lim inf νn[An] > 0 nach (1) gilt. Die Behauptung folgt für
ε→ 0.
Die zweite Aussage der Korollars können wir als eine allgemeine untere Schranke für große
Abweichungen interpretieren: IstAn ⊆ Sn eine Folge von Ereignissen, deren Wahrscheinlichkeit
bzgl. µn gegen0 geht, dann liefert uns (12.3.4) für jede Wahrscheinlichkeitsverteilungν mit
(12.3.3) eine asymptotische Schranke für die Wahrscheinlichkeiten
Pµ[(X1, . . . , Xn) ∈ An] = µn[An]
auf der exponentiellen Skala.
Als erste Anwendung betrachten wir nochmal die Situation aus dem Satz von Cramér: SeiU :
S → R eine messbare Funktion mit∫etU dµ <∞ für alle t ∈ R, und sei
a > m =
∫U dµ.
Um aus (12.3.4) eine bestmögliche asymptotische untere Schranke für die Wahrscheinlichkeiten
µn[An] der großen Abweichungen
An =
(x1, . . . , xn) ∈ Sn :
1
n
n∑
i=1
U(xi) ≥ a
zu erhalten, müssen wir eine Wahrscheinlichkeitsverteilung ν finden, die die relative Entropie
H(ν | µ) unter allen Wahrscheinlichkeitsverteilungenν mit (12.3.3) minimiert. Die Bedingung
(12.3.3) ist aber genau dann erfüllt, wenn∫U dν ≥ a gilt, denn aus dem Gesetz der großen
Zahlen und dem zentralen Grenzwertsatz folgt:
limn→∞
νn
[1
n
n∑
i=1
U(xi) ≥ a
]=
1 für a <∫U dν
1/2 für a =∫U dν
0 für a >∫U dν
. (12.3.5)
Das sich ergebende Variationsproblem
H(ν | µ) =
∫w logw dµ
!= min
unter der Nebenbedingung∫U dν =
∫Uw dµ ≥ a
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 451
kann man formal durch Variationsrechnung lösen. Als eindeutige Lösung erhält man gerade die
Verteilungνt∗ aus der exponentiellen Familie
νt(dx) =1
Z(t)exp (tU(x))µ(dx), Z(t) =
∫etU dµ,
zum eindeutigen Schwellenwertt∗ mit∫U dνt∗ = a:
Satz 12.13(Variationsprinzip für die relative Entropie ). Seit ≥ 0 undm(t) =∫U dνt. Dann
minimiert das Maßνt die relative Entropie bzgl.µ unter allen Wahrscheinlichkeitsverteilungenν
mit∫U dν ≥ m(t):
H(νt | µ) = t ·m(t)− logZ(t)
= minH(ν | µ) : ν Wahrscheinlichkeitsmaß mit∫U dν ≥ m(t).(12.3.6)
Beweis.Seiν eine Wahrscheinlichkeitsverteilung mitH(ν | µ) < ∞ und∫U dν ≥ m(t). Dann
gilt ν ≪ µ und
H(ν | µ) =
∫log
dν
dµdν =
∫log
dν
dνtdν +
∫log
dνtdµ
dν
= H(ν | νt) +(t
∫U dν − logZ(t)
)
≥ tm(t)− logZ(t).
Fürν = νt ergibt sich Gleichheit.
Wir beweisen nun die untere Schranke aus dem Satz von Cramér zur Illustration noch einmal
mithilfe von Korollar 12.12:
Fürν = νt∗ gilt∫U dν = m(t∗) = a, also nach 12.3.5lim νn[An] =
12. Damit erhalten wir nach
Korollar 12.12(2) und (12.3.6) die untere Schranke
lim inf1
nlog µn[An] ≥ −H(ν | µ) = t∗ ·m(t∗)− logZ(t∗) ≥ −I(a),
wobeiI die Ratenfunktion aus Satz 12.7 ist.
Das beschriebene Vorgehen ergibt nicht nur die untere Schranke. Es demonstriert auch, dass der
Maßwechsel über die exponentielle Familie sinnvoll ist, daer asymptotisch die bestmöglichen
Abschätzungen liefert.
Universität Bonn Wintersemester 2009/2010
452 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Große Abweichungen für empirische Verteilungen
Mithilfe von Korollar 12.12 können wir noch eine stärkere Form der unteren Schranke für große
Abweichungen vom Gesetz der großen Zahlen herleiten. Seiendazu
Ln(ω) =1
n
n∑
i=1
δXi(ω), n ∈ N,
die empirischen Verteilungen einer Folge(Xi)i∈N unabhängiger Zufallsvariablen mit Verteilung
µ bzgl.Pµ. Aus dem Gesetz der großen Zahlen folgt die fast sichere schwache Konvergenz der
empirischen Verteilungen
Ln(ω)ω−→ µ für Pµ-fast alleω. (12.3.7)
Insbesondere konvergiert die WahrscheinlichkeitPµ[Ln 6∈ U ] für jede UmgebungU der Wahr-
scheinlichkeitsverteilungµ bzgl. der Topologie der schwachen Konvergenz gegen0. Die Kon-
vergenzgeschwindigkeit auf der exponentiellen Skala lässt sich durch ein Prinzip der großen
Abweichungen auf dem Raum WV(S) der Wahrscheinlichkeitsverteilungen auf(S,S) mit der
Topologie der schwachen Konvergenz beschreiben:
Satz 12.14(Sanov). Die empirischen VerteilungenLn = 1n
n∑i=1
δXierfüllen das folgende Prinzip
der großen Abweichungen:
(1). Obere Schranke: Für jede abgeschlossene MengeA ⊆WV(S) gilt:
lim supn→∞
1
nlogPµ[Ln ∈ A] ≤ − inf
ν∈AH(ν | µ).
(2). Untere Schranke: Für jede offene MengeO ⊆WV(S) gilt:
lim infn→∞
1
nlogPµ[Ln ∈ O] ≥ − inf
ν∈OH(ν | µ).
Beweis. (2). Zum Beweis der unteren Schranke wechseln wir wieder das zugrundeliegende
Maß, und wenden Korollar 12.12 an. SeiO ⊆ WV(S) offen undν ∈ O. Nach (12.3.7) ist
dann die Folge
An = (x1, . . . , xn) ∈ Sn | 1n
n∑
i=1
δxi∈ O
wesentlich bzgl.ν, denn
νn[An] = Pν [Ln ∈ O] −→ 1
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 453
für n→ ∞. Daher folgt nach Korollar 12.12(2):
lim infn→∞
1
nlogPµ[Ln ∈ O] = lim inf
n→∞
1
nlog µn[An] ≥ −H(ν | µ).
Die Behauptung ergibt sich, da dies für alleν ∈ O gilt.
(1). Die obere Schranke beweisen wir hier nur für endliche ZustandsräumeS, s. z.B. [Dembo
und Zeitouni: Large Deviations] für den Beweis im allgemeinen Fall. IstS endlich, undν
eine bzgl.µ absolutstetige Wahrscheinlichkeitsverteilung mit Dichtew = dν/dµ, dann gilt
für alle (x1, . . . , xn) ∈ Sn mit empirischer Verteilung1n
n∑i=1
δxi= ν:
dνn
dµn(x1, . . . , xn) =
n∏
i=1
dν
dµ(xi) = exp
(n∑
i=1
log
(dν
dµ(xi)
))
= exp
(n
∫log
(dν
dµ
)dν
)= exp(n ·H(ν | µ)).
Damit folgt
Pµ[Ln = ν] = µn
[(x1, . . . , xn)
∣∣∣∣∣1
n
n∑
i=1
δxi= ν
]
= e−nH(ν | µ) · νn[
(x1, . . . , xn)
∣∣∣∣∣1
n
n∑
i=1
δxi= ν
](12.3.8)
≤ e−nH(ν | µ).
Jeder empirischen Verteilung vonn Elementenx1, . . . , xn ∈ S entspricht ein Histogramm~h = (ha)a∈S ∈ 0, 1, . . . , nS. Für die Anzahl der möglichen empirischen Verteilungen
gilt daher ∣∣∣∣∣
1
n
n∑
i=1
δxi
∣∣∣∣∣ (x1, . . . , xn) ∈ Sn
∣∣∣∣∣ ≤ (n+ 1)|S|.
Nach (12.3.8) erhalten wir nun für eine beliebige MengeA ⊆ WV(S) die (nicht-asympto-
tische) Abschätzung
Pµ[Ln ∈ A] =∑
ν∈APµ[Ln = ν] ≤ (n+ 1)|S| · e−n inf
ν∈AH(ν | µ)
,
aus der die asymptotische obere Schranke wegen|S| <∞ folgt.
Bemerkung. Wie der Beweis schon andeutet, gilt auch die obere Schranke indiesem Fall nur
noch asymptotisch und modulo subexponentiell wachsender Faktoren. Der Übergang von endli-
chen zu allgemeinen Zustandsräumen ist bei der oberen Schranke nicht trivial, s. [Dembo/Zei-
touni].
Universität Bonn Wintersemester 2009/2010
454 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Den Satz von Sanov bezeichnet man gelegentlich auch als ein „Prinzip der großen Abweichungen
auf Level II“, d.h. für die empirischen Verteilungen. Wir bemerken abschließend, dass sich eine
Version des Satzes von Cramér, d.h. ein „Prinzip der großen Abweichungen auf Level I“ als
Spezialfall ergibt:
FürU : S → R und eine offene MengeB ⊆ R gilt nach dem Satz von Sanov:
lim infn→∞
1
nlogPµ
[1
n
n∑
i=1
U(Xi) ∈ B
]= lim inf
n→∞
1
nlogPµ[Ln ∈ O] ≥ − inf
ν∈OH(ν | µ)
mit O = ν ∈ WV(S) |∫U dν ∈ B. Entsprechend ergibt sich eine analoge obere Schranke,
fallsB abgeschlossen ist.
12.4 Likelihood
Praktisch unterscheidet man Wahrscheinlichkeitsverteilungen in der Schätz- und Testtheorie durch
Likelihood-basierte statistische Verfahren. Der Zusammenhang von relativer Entropie und statis-
tischer Unterscheidbarkeit kann genutzt werden, um die Qualität dieser Verfahren asymptotisch
zu beurteilen.
Konsistenz von Maximum-Likelihood-Schätzern
Sei(µθ)θ∈Θ eine Familie von Wahrscheinlichkeitsverteilungen aufS = Rd (oder einem diskreten
Raum) mit Dichten (bzw. Massenfunktionen)fθ wobeiθ ein unbekannter Parameter ist. Ferner
sei
Ln(θ; x1, ..., xn) =n∏
i=1
fθ(xi), θ ∈ Θ,
die Likelihoodfunktion zun unabhängigen Stichprobenx1, ..., xn vonµθ. Ein wichtiges Ad-hoc-
Verfahren zur Konstruktion eines Schätzers fürθ ist das
Maximum-Likelihood-Prinzip : Wähleθ(x1, ..., xn) als den Parameterwertθ, für den die Like-
lihood der beobachteten Wertex1, . . . , xn maximal ist.
Definition. (1). Eine Zufallsvariable vom Typθ(X1, . . . , Xn), θ : Sn → Θ messbar, heißt
Statistik der DatenX1, . . . , Xn.
(2). Die Statistik heißtMaximum-Likelihood-Schätzer (MLE)für den Parameterθ, falls
Ln(θ(x1, ..., xn); x1, ..., xn) = maxθ∈Θ
Ln(θ; x1, ..., xn) für alle x1, . . . , xn ∈ S gilt.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.4. LIKELIHOOD 455
Um einen Maximum-Likelihood-Schätzer zu berechnen, ist esoft günstig, dielog-Likelihood
θ 7→ logLn(θ; x1, ..., xn) =n∑
i=1
log fθ(xi) zu maximieren.
Beispiel. (1). Gaußmodell: Θ = (m, v) |m ∈ R, v > 0, µm,v = N(m, v).
Ln(m, v;X1, ..., Xn) =n∏
i=1
1√2πv
e−(Xi−m)2
2v
ist maximal fürm(X) = Xn, v(X) = 1n
∑ni=1 (Xi −Xn)
2. Dieser Maximum-Likelihood-
Schätzer istnicht erwartungstreu, da die Stichprobenvarianz mit dem Faktor1n
statt 1n−1
gebildet wird.
(2). Doppelexponentialverteilung: Θ = R, fθ(Xi) =12e−|Xi−θ|.
logLn(θ;X1, ..., Xn) = −n log 2−n∑
i=1
|Xi − θ|
ist maximal, fallsθ ein Median vonX1, ..., Xn ist.
(3). Zufallszahlenaus[0, θ], θ > 0 unbekannt.
fθ(Xi) =1
θI[0,θ](Xi),
Ln(θ;X1, ..., Xn) =1
θnI[0,θ](max
1≤i≤nXi).
Der Maximum-Likelihood-Schätzer istθ(X1, ..., Xn) = max1≤i≤nXi. Dieser Schätzer ist
sicher nicht optimal, da mit Wahrscheinlichkeit 1θ > θ(X1, . . . , Xn) gilt !
Wie das letzte Beispiel zeigt, sind Maximum-Likelihood-Schätzer für ein festesn nicht immer
optimal. Unter bestimmten Voraussetzungen haben sie aber gute asymptotische Eigenschaften
für n→ ∞. Sei etwaµθ (θ ∈ Θ) eine einparametrige (d.h.Θ ⊆ R) Familie von Wahrscheinlich-
keitsverteilungen mit Dichten bzw. Massenfunktionenfθ. Es gelte:
Annahme (Unimodalität): Für allen ∈ N undx ∈ Sn existiert einθn(x1, ..., xn), sodass
θ 7→ Ln(θ; x1, ..., xn)
ist monoton wachsend fürθ ≤ θn(x1, ..., xn).
ist monoton fallend fürθ ≥ θn(x1, ..., xn).
Bemerkung. (1). Die Annahme ist z.B. erfüllt, fallsθ 7→ log fθ(x) für jedesx konkav ist -
denn dann ist auchlogLn(θ, x1, ..., xn) =∑n
i=1 log fθ(xi) konkav inθ.
Universität Bonn Wintersemester 2009/2010
456 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
(2). θn(X1, ..., Xn) ist im unimodalen Fall eindeutiger Maximum-Likelihood-Schätzer fürθ.
Satz 12.15.Es gelte die Annahme, sowieµθ 6= µθ für θ 6= θ. Dann istθn(X1, . . . , Xn) (n ∈ N)
einekonsistenteFolge von Schätzern fürθ, d.h. für jedesε > 0 gilt:
Pθ[|θn(X1, ..., Xn)− θ| < ε] → 1 für n→ ∞.
Beweis.Wegen der Unimodalität giltθn(x1, ..., xn) ∈ (θ − ε, θ + ε) falls
Ln(θ; x1, ..., xn) > Ln(θ ± ε; x1, ..., xn).
Also:
Pθ[|θn(X1, ..., Xn)− θ| < ε] ≥ Pθ
[Ln(θ;X1, ..., Xn)
Ln(θ ± ε;X1, ..., Xn)> 1
].
Die rechte Seite konvergiert aber fürn→ ∞ nach Satz 12.10 für jedesθ gegen1.
Bemerkung(Asymptotische Normalität von Maximum-Likelihood-Schätzern). Unter geeig-
neten Regularitätsvoraussetzungen an die Dichtenfθ gilt für die Maximum-Likelihood-Schätzer
neben der Konsistenz (also dem Gesetz der großen Zahlen) auch ein zentraler Grenzwertsatz:
Satz (Fisher, Wilkes, Wold). Unter geeigneten Voraussetzungen gilt:
√n(θn(X1, ..., Xn)− θ)
D−→ N
(0,
1
I(θ)
),
wobei
I(θ) =
∫ ∣∣∣∣∂
∂θlog fθ(x)
∣∣∣∣2
µθ(dx) = limε→0
2
ε2H(µθ+ε| µθ)
dieFisher-Information des statistischen Modells ist.
Da man andererseits unter geeigneten Regularitätsbedingungen zeigen kann, daß die Varianz
eines erwartungstreuen Schätzers fürθ basierend aufn unabhängigen Stichproben stets größer als1
nI(θ)ist (Informationsungleichung von Cramér-Rao), folgt, daß Maximum-Likelihood-Schätzer
in gewisser Hinsicht asymptotisch optimal sind.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.4. LIKELIHOOD 457
Asymptotische Macht von Likelihoodquotiententests
Angenommen, wir habenn unabhängige StichprobenX1, ..., Xn von einer unbekannten Vertei-
lung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus einer Familie
µθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt. SeiΘ0 eine Teilmenge des Parameter-
bereichs. Wir wollen entscheiden zwischen der
NullhypotheseH0: »θ ∈ Θ0«
und der
AlternativeH1: »θ 6∈ Θ0«
Ein Hypothesentestfür ein solches Problem ist bestimmt durch eine messbare TeilmengeC ⊆Sn (denVerwerfungsbereich) mit zugehöriger Entscheidungsregel:
akzeptiereH0 ⇐⇒ (X1, ..., Xn) /∈ C.
Beispiel (t-Test). SeienX1, X2, . . . , Xn unabhängige Stichproben von einer Normalverteilung
mit unbekanntem Parameter(m, v) ∈ Θ = R × R+. Wir wollen testen, ob der Mittelwert der
Verteilung einen bestimmten Wertm0 hat:
NullhypotheseH0: »m = m0« , Θ0 = m0 × R+ .
Ein solches Problem tritt z.B.in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob
ein Sollwertm0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren,
wobeiXi die Differenz der mit beiden Verfahren erhaltenen Messwerte ist. Die Nullhypothese
mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht.
Im t–Testfür obiges Testproblem wird die Nullhypothese akzeptiert,falls der Betrag derStudent-
schen t-Statistikunterhalb einer angemessen zu wählenden Konstantenc liegt, bzw. verworfen,
falls
|Tn−1| =
∣∣∣∣√n · (Xn −m0)√
Vn
∣∣∣∣ > c
gilt.
Seien nun allgemeinX1, X2, . . . unterPθ unabhängige Zufallsvariablen mit Verteilungµθ. Bei
einem Hypothesentest können zwei Arten von Fehlern auftreten:
Fehler 1. Art: H0 wird verworfen, obwohl wahr. Wahrscheinlichkeit:
Pθ[(X1, ..., Xn) ∈ C] = νnθ (C) , θ ∈ Θ0.
Universität Bonn Wintersemester 2009/2010
458 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Fehler 2. Art: H0 wird akzeptiert, obwohl falsch. Wahrscheinlichkeit:
Pθ[(X1, ..., Xn) /∈ C] = µnθ (C
C) , θ ∈ Θ \Θ0.
Obwohl das allgemeine Testproblem im Prinzip symmetrisch inH0 undH1 ist, interpretiert man
beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die
Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeu-
gen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht
vorhanden) unterhalb einer vorgegebenen (kleinen) Schrankeα liegen. Die Wahrscheinlichkeit
µnθ (C) , θ ∈ Θ \Θ0 ,
daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein.
Definition. Die Funktion
G(θ) = Pθ[(X1, ..., Xn) ∈ C] = µnθ (C)
heißtGütefunktiondes Tests. Der Test hatNiveauα, falls
G(θ) ≤ α für alle θ ∈ Θ0
gilt. Die FunktionG(θ) mit θ ∈ Θ1 heißtMacht des Tests.
Beispiel. Der Studentsche t-Test hat Niveauα falls c ein (1 − α2)-Quantil der Studentschen t-
Verteilung mitn− 1 Freiheitsgraden ist.
Ein Ziel bei der Konstruktion eines Testverfahrens sollte es sein, die Machtfunktion bei vor-
gegebenem Niveau zu maximieren. Dies ist im Allgemeinen nicht simultan für alle Parameter
θ ∈ Θ \Θ0 möglich. Eine Ausnahme bildet der Fall einer einfachen Hypothese und Alternative,
in dem ein optimaler Test existiert:
a) Einfache Hypothese und Alternative
Angenommen, wir wissen, daß die Stichproben von einer der beiden Verteilungenµ0 := ν und
µ1 := µ stammen und wir wollen entscheiden zwischen der
NullhypotheseH0: »Xi ∼ ν«
und der
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.4. LIKELIHOOD 459
AlternativeH1: »Xi ∼ µ«.
Ein solches Problem tritt in Anwendungen zwar selten auf, bildet aber einen ersten Schritt zum
Verständnis allgemeinerer Testprobleme. Sei
n(x1, . . . , xn) =Ln(µ; x1, ..., xn)
Ln(ν; x1, ..., xn)=
n∏
i=1
f(xi)
g(xi)
der Quotient der Likelihoods der Stichprobenx1, . . . , xn im Produktmodell. Hierbei sindf und
g die Dichte bzw. Massenfunktion der Verteilungenµ undν.
Definition. Ein Test mit Entscheidungsregel
AkzeptiereH0 ⇐⇒ n(X1, ..., Xn) ≤ c,
c ∈ (0,∞), heißtLikelihoodquotiententest.
Der Verwerfungsbereich eines Likelihoodquotiententestsist alsoC = n > c, die Wahrschein-
lichkeit für den Fehler 1. Art beträgt
α := νn(n > c).
Satz 12.16(Neyman-Pearson-Lemma). Der Likelihoodquotiententest mit Parameterc ist der
beste Test zum Niveauα, d.h. jeder Test mit
Wahrscheinlichkeit (Fehler 1.Art)≤ α
hat eine kleinere Macht (d.h. eine höhere Wahrscheinlichkeit für den Fehler 2. Art).
Beweis.SeiA ⊆ Sn der Verwerfungsbereich eines Tests mitνn(A) ≤ α, und sei
χ = IC − IA = IAC − ICC .
Zu zeigen ist:
0 ≤ µn(AC)− µn(CC) =
∫χ dµn.
Offensichtlich giltχ ≥ 0 aufC = n > c undχ ≤ 0 aufCC = n ≤ c, alsoχ ·(n−c) ≥ 0.
Durch Integration erhalten wir:
0 ≤∫χ · (n − c) dνn =
∫χ dµn − c ·
∫χ dνn ≤
∫χ dµn,
da∫χ dνn = νn(C)− νn(A) ≥ 0.
Universität Bonn Wintersemester 2009/2010
460 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN
Wie gut ist der Likelihoodquotiententest (also der beste Test zur Unterscheidung vonν und
µ) asymptotisch für großen? Wir betrachten ein festes Niveauα ∈ (0, 1), und wählencn ∈(0,∞) (n ∈ N) mit
νn(n > cn) ≤ α ≤ νn(n ≥ cn) (12.4.1)
Satz 12.17(Asymptotische Macht des Likelihoodquotiententests). Es gilt:
(i)1
nlog cn −→ −H(ν|µ) für n→ ∞.
(ii)1
nlog µn(n ≤ cn) −→ −H(ν|µ) für n→ ∞,
d.h. die Wahrscheinlichkeit für den Fehler 2. Art fällt exponentiell mit RateH(ν|µ).
Beweis. (i) Sei ε > 0. Für großen gilt nach dem Satz von Shannon-McMillan:
νn(n > e−n(H(ν|µ)+ε)
)> α
12.4.1≥ νn(n > cn).
Es folgt e−n(H(ν|µ)+ε) < cn. Analog zeigt mane−n(H(ν|µ)−ε) > cn. Die Behauptung folgt
dann fürε→ 0.
(ii) a) Untere Schranke:Wegen
νn(n ≤ cn) ≥ 1− α > 0 ∀ n ∈ N
folgt nach Korollar 12.12:
lim1
nlog µn(n ≤ cn) ≥ −H(ν|µ).
Obere Schranke:Wegen
µn(n ≤ cn) =
∫
n≤cn
n dνn ≤ cn
folgt nach (i)
lim1
nlog µn(n ≤ cn) ≤ lim
1
nlog cn = −H(ν|µ).
Der Satz demonstriert erneut, daß die relative Entropie eingutes Maß für die Unterscheidbarkeit
zweier Wahrscheinlichkeitsverteilungen ist.
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
12.5. BAYESSCHE MODELLE UND MCMC VERFAHREN 461
b) Zusammengesetzte Hypothesen und/oder Alternativen
WennΘ0 und/oderΘ1 aus mehr als einem Element bestehen, kann man denverallgemeinerten
Likelihoodquotienten
¯n(x1, . . . , xn) =supθ∈Θ1
Ln(θ; x1, ..., xn)
supθ∈Θ0Ln(θ; x1, ..., xn)
=max. Lik. vonx, fallsH1 wahrmax. Lik. vonx, fallsH0 wahr
betrachten. Der entsprechende Likelihoodquotiententestist ähnlich wie der Maximum-Likelihood-
Schätzer ein häufig verwendetes ad hoc Verfahren. Im Gegensatz zum Fall einer einfachen Hy-
pothese und Alternative ist der verallgemeinerte Likelihoodquotiententest allerdings nicht immer
optimal.
Beispiel. Im Beispiel von oben ist dert-Test der Likelihoodquotiententest. Mit einem Neyman-
Pearson-Argument kann man zeigen, daß er im Gaußschen Produktmodell der beste unverfälschte
Test zu einem vorgegebenen Niveauα ist, d.h. der mächtigste Test mit
G(θ) ≤ α ∀ θ ∈ Θ0 und G(θ) ≥ α ∀ θ ∈ Θ1.
Auch in nicht-Gaußschen Modellen wird häufig dert-Test eingesetzt – eine partielle Rechtferti-
gung dafür liefert der zentrale Grenzwertsatz.
12.5 Bayessche Modelle und MCMC Verfahren
Universität Bonn Wintersemester 2009/2010
Stichwortverzeichnis
0-1 Gesetz von Kolmogorov, 182
0-1-Experimente
abhängige, 41
unabhängige, 41, 51
σ-Additivität, 13
σ-Algebra, 12
a posteriori degree of belief, 47
a priori degree of belief, 47
abhängige 0-1-Experimente, 41
absolutstetig, 203
Acceptance-Rejection-Verfahren, 74, 428
Additivität, endliche, 13
Akzeptanzwahrscheinlichkeit, 73
Akzeptanzzeit, 74
Algebra, 115
arithmetisches Mittel, 194
asymptotisch
-e Zufallsvariable, 185
asymptotische Äquivalenz von Folgen, 68
Atome, 129
Bayessche Regel, 47
Bayessche Statistik, 47
Bedingte Erwartung, 330
Definition
Diskrete -, 314
bedingte Erwartung, 44
bedingte Verteilung, 44
bedingte Wahrscheinlichkeit, 44
Benfordsches Gesetz, 21
Bernoulli-Verteilung, 41
n-dimensionale, 51
Bernstein-Ungleichung, 59
Bias, 208
Bildmaß, 122
Binomialverteilung, 26
Poissonapproximation, 27
Varianz, 81
Birth-Death-Process, 421
Brown’sche Bewegung, 305
Brownsche
- Bewegung, 345
Brownsche Bewegung, 113, 305
Cauchy-Schwarz-Ungleichung inL2, 78
Cebyšev-Ungleichung, 83
Chapman-Kolmogorov-Gleichungen, 413
Charakteristische Funktion
Ableitungen der -, 253
Lévys Inversionsformel, 254
charakteristische Funktion, 250
Cramér-Wold Device, 304
degree of belief
a posteriori, 47
a priori, 47
Detailed Balance-Bedingung, 90
462
STICHWORTVERZEICHNIS 463
Dichte
bedingte -, 294
Wahrscheinlichkeits-, 129, 199
Diffusionsprozess, 412
diskrete Zufallsvariable, 23
gemeinsame Verteilung, 64
Unabhängigkeit, 64
diskretes Modell, 12
mehrstufiges, 48
durchschnittsstabil, 115, 116
Dynkinsystem, 118
das vonJ erzeugte -, 118
Ehrenfest-Modell, 54, 91
Ehrenfestmodell, 396
Einschluss-/Ausschlussprinzip, 15
Elementarereignis, 9
empirische Mittel, 205
empirische Varianz, 205
empirische Verteilung, 19, 237
empirische Verteilungsfunktion, 237
empirisches Mittel, 235
Entropie, 242
relative -, 446
Ereignis, 9
Verteilungen für unabhängige Ereignisse, 58
asymptotisches -, 181
Elementar-, 9
Ereignisse und ihre Wahrscheinlichkeit, 11
Indikatorfunktion, 37
Unabhängigkeit, 56
Erfolgswahrscheinlichkeit, 25
Ergodensatz, 101
Erneuerungsgleichung, 326
Erneuerungsprozess
stationärer -, 327
Erwartung, bedingte, 44
Erwartungswert, 37
- elementarer ZVn, 188
der Poissonverteilung, 38
Linearität, 40
Monotonie, 40
Erzeugende Funktion, 320
erzeugende Funktion, 346
Euler’sche Beta-Funktion, 309
Exponentielle Familie, 437
Faltung von W’Verteilungen, 297
Faltungshalbgruppe, 298
Fehler
1. und 2. Art, 311, 457
Fisher-Information, 456
Fluss in Markovketten, 90
Fouriertransformation, 251
gemeinsame Verteilung, 64, 167
Generator, 415
- einer Markovkette, 376
geometrische Verteilung, 58
Gesetz der großen Zahlen, 59
für Markov-Ketten, 101
schwaches, 83
starkes, 83
Gesetz großer Zahlen
- für Bernoulli-Experimente, 107
Starkes -
- ohne Integrierbarkeit, 235
Kolmogorovs -, 231
gewichtetes Mittel, 39
Gewichtung der möglichen Fälle, 15
Gibbs-Sampler, 94
Universität Bonn Wintersemester 2009/2010
464 STICHWORTVERZEICHNIS
Gleichgewichte von Markov-Ketten, 89
Gleichgewichtsverteilung, 90
Konvergenz, 98
Gleichverteilung, 18
reellwertiger Zufallsvariablen, 72
Simulation, 29
Greensche Funktion, 383
Häufigkeitsverteilung der Anfangsziffern von Zah-
len, 22
harmonische Funktion, 378
harmonisches Maß, 380
Histogramm, 239
hypergeometrische Verteilung, 29, 50
Hypothese
Alternativ-, 310, 457
Null-, 310, 457
Hypothesen, 45
Hypothesentest, 311, 457
Importance Sampling, 86
Indikatorfunktion, 121
Indikatorfunktion einer Ereignisses, 37
Inverse
linksstetige verallgemeinerte -, 138
irreduzible stochastische Matrix, 99
kanonisches Modell, 180, 368
Kern, stochastischer, 52
Kolmogorov
-sche Rückwärtsgleichung, 418
-sche Vorwärtsgleichung, 418
Konfidenzintervall, 161, 307, 312
Konfidenzniveau, 161
Kongruenzgenerator, linearer, 30
konsistente Schätzfolge, 84
Konvergenz
- in Verteilung, 263
fast sicher -, 218
schnelle stochastische -, 220
schwache -, 263
stochastische -, 218
Konvergenz ins Gleichgewicht, 97, 98
Konvergenz, stochastische, 83
Konvergenzsatz für endliche Markov-Ketten, 101
Korrelationskoeffizient, 79
Korrelationskoeffizienten, 209
Kovarianz, 79, 209
Kullback-Leibler Information, 446
Kumulantenerzeugende Funktion, 259
kumulative Verteilungsfunktion, 72
L2-Raum von diskreten Zufallsvariablen, 78
L2-Skalarprodukt, 78
Lévy
-Prozess, 344
Lévys Inversionsformel, 254
Laplace-Modell, 18
Laplacetransformation, 251
Legendre-Fenchel-Transformation, 259
Lemma
- von Borel-Cantelli
1.Teil, 105
2.Teil, 106
- von Fatou, 194
Neyman-Pearson-, 459
Likelihood
Maximum-L.-Schätzer, 454
likelihood, 47
linearer Kongruenzgenerator, 30
Lyapunovbedingung, 284
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
STICHWORTVERZEICHNIS 465
Münzwurf, 10
abhängige Münzwürfe, 53
endlich viele faire Münzwürfe, 18
Markov-Kette, 91
zwei faire Münzwürfe, 57
Maß
harmonisches -, 380
invariantes -, 403
Markov
-prozess, 411
Markov-Kette, 52
bei einem Münzwurf, 91
Bewegungsgesetz, 52
Fluss, 90
Gesetz der großen Zahlen, 101
Gleichgewicht, 89
Konstruktion mit vorgegebenen Gleichge-
wichtsverteilungen, 93
Konvergenzsatz für endliche Markov-Ketten,
101
Metropolis-Kette, 94
Monte Carlo-Verfahren, 101
Simulation mit vorgegebenem Gleichgewicht,
96
Stationarität, 90
zeitlich homogene, 89
Markovprozess
Generator e. -, 415
Massenfunktion, 15, 123
einer diskreten Zufallsvariable, 23
eines mehrstufigen diskreten Modells, 48
Mastergleichung, 418
Matrix
stochastische / Übergangs-, 89
irreduzible stochastische, 99
stochastische, 52
Stochastische -, 289
Median, 137
mehrstufiges diskretes Modell, 48
Markov-Kette,sieheMarkov-Kette
Produktmodell, 51
Wahrscheinlichkeitsverteilung, 48
Menge aller möglichen Fälle, 9
messbar
-e Abbildung, 120
messbarer Raum, 115
Messraum, 115
Metropolis-Algorithmus, 96
Metropolis-Kette, 94
Konvergenz, 101
Minorisierungsbedingung, 98
Mischung, 290
Mittel
arithmetisches, 39
gewichtetes, 39
Mittelwerteigenschaft
verallgemeinerte -, 378
Modell
Bayes’sches -, 295
Ehrenfest-, 263
kanonisches -, 368
Moment
p-te -, 199
Momentenerzeugende Funktion
logarithmische -, 259
Reihenentwicklung der -, 253
momentenerzeugende Funktionen, 250
Monte Carlo-Schätzer, 76, 84
Universität Bonn Wintersemester 2009/2010
466 STICHWORTVERZEICHNIS
Approximationsfehler, 76
eines mehrdimensionalen Integrals, 85
erwartungstreuer, 76
für Wahrscheinlichkeiten, 85
mittlere quadratische Fehler, 76
Monte Carlo-Verfahren, 76
für Markov-Ketten, 101
Monte-Carlo
-Approximation, 268
Multinomialkoeffizient, 241
Nullmenge, 102
Ordnungsstatistik, 161, 173
P -fast sicher, 102
Paradoxon
Sankt-Petersburg-, 39
Simpson-, 46
Periode eines Zustands, 99
Periodizität, 327
Perkolation, 184
Permutationen
zufällige,sieheZufallspermutationen
Poisson
-prozess, 345
Poissonapproximation der Binomialverteilung,
27
Poissonverteilung, 28
Erwartungswert, 38
Produkt
- von Wahrscheinlichkeitsverteilungen, 179
Produkt von Wahrscheinlichkeitsverteilungen, 51
Produktmaß
endliches -, 163
Produktmodell, 51
Prozess
Autoregressiver -, 292
autoregressiver -, 215
Compound-Poisson-, 345
Diffusions-, 412
Lévy-, 344
Ornstein-Uhlenbeck-, 292
Poisson-, 301
Punkt-, 345
reversibler -, 398
stationärer -, 397
Pseudo-Zufallszahlengenerator, 29
QQ-Plot, 238
Quantil, 137
Stichproben-, 137
Quantil-Quantil-Plot, 238
Rückkehrzeit, 68
Rückwärtsgleichung, 418
Random Walk, 68, 229, 305
auf den ganzen Zahlen, 65
auf einem Gitter, 53
auf Graphen, 92
Bewegungsverlauf, 68
Rekurrenz, 183
Rekurrenz von -s, 182
symmetrischer, 68
Trefferzeit, 68
unbeschränkte Oszillation von -s, 183
Verteilung der Positionen zur Zeit n, 67
zyklischer, 91
Randverteilung, 163
reellwertige Zufallsvariable, 72
gleichverteilt, 72
Unabhängigkeit, 72
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
STICHWORTVERZEICHNIS 467
Reflektionsprinzip, 69
Rekurrenz
- eines Punktes, 385
Rekurrenzklassen, 395
relative Entropie, 446
Relative Kompaktheit, 275
renormierte Stichprobenvarianz, 236
Rucksackproblem, 95
Sankt-Petersburg-Paradoxon, 39
Satz
- vom iterierten Logarithmus, 230
- von Berry-Esséen, 281
- von Bochner, 254
- von Chernoff, 258
- von Fisher, Wilkes, Wold, 456
- von Fubini, 289
- von Helly-Bray, 273
- von Lebesgue, 195
- von Prohorov, 273
- von de Moivre/Laplace, 145
- von der majorisierten Konvergenz, 195
- von der monotonen Konvergenz, 193
0-1 - von Kolmogorov, 182
Eindeutigkeits-, 116
Formel von der totalen Wahrscheinlichkeit,
45
Fortsetzungs- von Carathéodory, 116
Konvergenz- von Lévy, 274
Lévys Inversionsformel, 254
Lemma von Fatou, 194
Neyman-Pearson-Lemma, 459
Quellenkodierungs- von Shannon, 248
Skorokhod - Darstellung, 269
Stetigkeits-, 274
Transformations-, 196
Eindimensionaler Dichte-, 134
Mehrdimensionaler Dichte-, 301
Zentraler Grenzwert-
L2-Version, 277
- von Lindeberg-Feller, 284
Multivariater -, 304
Schätzer, 161, 306
erwartungstreuer -, 307
konsistenter -, 307, 456
Maximum-Likelihood-, 454
Schätzfolge
konsistente, 84
Schwaches Gesetz der großen Zahlen, 83
Selbstbefruchtung von Pflanzen, 53
Shift-Register-Generatoren, 35
σ
-Additivität, 104
-Stetigkeit, 104
-Subadditivität, 105
σ-Additivität von Wahrscheinlichkeitsverteilun-
gen, 13
σ-Algebra
asymptotische -, 181
Borel’sche -, 114
die vonJ erzeugte -, 114
Produkt-, 115
σ-endlich, 203
Signalverarbeitung, 295
Simpson-Paradoxon, 46
Simulated Annealing, 96
Algorithmus, 97
Simulation
- exponentialverteilter ZVn, 125
Universität Bonn Wintersemester 2009/2010
468 STICHWORTVERZEICHNIS
Simulation einer diskreten Verteilung
direkt, 73
Simulation einer Markov-Kette mit vorgegebe-
nem Gleichgewicht, 96
Simulation von Gleichverteilungen, 29
Simulationsverfahren, 72
Acceptance-Rejection-Verfahren, 73
direktes Verfahren, 72
Standardabweichung, 77
starkes Gesetz der großen Zahlen, 83
Stationarität von Markov-Ketten, 90
Statistik, 161, 454
Stichprobe
-nquantil, 137
empirische Verteilung der -, 137
Stirlingsche Formel, 67, 144
stochastische Konvergenz, 83
stochastische Matrix, 52, 89
irreduzibel, 99
Stochastischer Kern, 288
stochastischer Kern, 52
Stoppzeit, 388
symmetrischer Random Walk, 68
Tail
event, 181
field, 181
Test
Gütefunktion eines -s, 312, 458
Hypothesen-, 312
Likelihood-Quotienten-, 459, 460
Macht eines -s, 312, 458
Niveau eines -s, 312, 458
t-, 311, 457
Transformationssatz, 38
Transienz
- eines Punktes, 385
Trefferzeit, 68, 388
Verteilung, 69
Übergangsmatrix, 89
unabhängige 0-1-Experimente, 41, 51
Unabhängige Zufallsvariablen, 64
Unabhängigkeit, 44
- von Mengensystemen, 153
- von Zufallsvariablen, 156
Ereignis
Verteilung, 58
reellwertiger Zufallsvariablen, 72
von Ereignissen, 56
Unabhängigkeit von diskreten Zufallsvariablen,
64, 65
Unabhängigkeit von Ereignissen, 26, 57
Ungleichung
Cebyšev-, 222
Cauchy-Schwarz-, 207, 210
Cebyšev-, 83, 221
ExponentielleCebyšev-Markov-, 222
Jensen’sche -, 223
Markov-, 221
Unimodalität, 455
Unkorreliertheit, 80
Vandermonde-Identität, 298
Varianz, 77
Definition, 204
der Binomialverteilung, 81
Reduktion durch Importance Sampling, 86
Stichproben-, 308
von Summen, 81
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
STICHWORTVERZEICHNIS 469
Variationsdistanz von Wahrscheinlichkeitsver-
teilungen, 97
Verteilung
α-stabile -, 283
- einer Zufallsvariablen, 122
-sfunktion, 123
bedingte, 44
bedingte -, 294
Beta-, 174
Cauchy-, 136
direkte Simulation einer diskreten Vertei-
lung, 73
empirische -, 237, 268
Exponential-, 124, 130, 206
für unabhängige Ereignisse, 58
Gamma-, 300
Gleich-, 130
invariante -, 292
Multinomial-, 241
Normal-, 131
Rand-, 163
Standardnormal-
mehrdimensionale -, 166
stationäre -, 292
stetige -, 129
Students-t-, 309
Uniforme -, 130
χ2-, 306
Verteilungsfunktion, kumulative, 72
Verwerfungsbereich, 311, 457
Vorwärtsgleichung, 418
Würfelwurf, 24
Wahrscheinlichkeit, 9
Akzeptanz-„ 73
bedingte, 44
Erfolgs-, 25
Wahrscheinlichkeits
-maß
Faltung von -en, 297
straffe Folge von -en, 272
Wahrscheinlichkeitsraum, 13
Wahrscheinlichkeitsverteilung, 13, 15, 122
einer diskreten Zufallsvariable, 23
der Anfangsziffern von Zahlen, 22
der Trefferzeiten, 69
des Maximums, 71
diskrete, 15
eines mehrstufigen diskreten Modells, 48
endliche Additivität, 13
gemeinsame, 64
geometrische, 58
Gleichverteilung / Laplace-Modell, 18
Produkt, 51
Variationsdistanz, 97
Warteschlange, 27
Wartezeit, 299
wesentlich, 246
Ziehen mit Zurücklegen,sieheBinomialvertei-
lung
Ziehen ohne Zurücklegen,siehehypergeome-
trische Verteilung
Zufallspermutationen, 36
Zufallsvariable, 10, 23, 120
asymptotische -, 185
austauschbare -n, 319
diskrete, 23
Elementare -n, 187
reellwertige, 38, 72
Universität Bonn Wintersemester 2009/2010
470 STICHWORTVERZEICHNIS
Standardabweichung, 77
unabhängige, 64
Varianz, 77
Zufallsvorgang, 9
diskreter, 11
Zufallszahlen aus [0,1), 36
Zufallszahlengenerator, 29, 72
Kombinationen, 36
zyklischer Random Walk, 91
Zylindermenge, 115
Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle
top related