exkurse zur wahrscheinlichkeitstheorie, linearen algebra ... · eine andere approximation, die auch...

V Die zentralen und nichtzentralen Chiquadrat-,t- und F-Verteilungen

Gerhard Osius

1 Die Chiquadrat-Verteilung

1.1 Die zentrale Chiquadrat-Verteilung1.2 Die nichtzentrale Chiquadrat-Verteilung1.3 Grenzwertsätze und Approximationen

2 Die t-Verteilung

2.1 Die zentrale t-Verteilung2.2 Die nichtzentrale t-Verteilung2.3 Approximationen der nichtzentralen t-Verteilung

3 Die F-Verteilung

3.1 Die zentrale F-Verteilung3.2 Die F-Verteilung mit reellen Freiheitsgraden3.3 Die nichtzentrale F-Verteilung3.4 Approximationen der nichtzentralen F-Verteilung

G. Osius: Die Chiquadrat-Verteilung

1 Die Chiquadrat-Verteilung

8.7.10 V1-1

1.1 Die zentrale Chiquadrat-Verteilung

U = (U1, ... , U

n) sei ein n-dimensionaler Zufallsvektor, dessen Komponenten unab

hängige reelle Zufallsvariablen mit Standard-Normalverteilung sind, d.h. L(U.)Z

N(O, 1) für alle i = 1, ..., n. Die Verteilung der Quadratsumme

heißt eine zentrale Chiquadrat-Verteilung mit n Freiheitsgraden, die mit dem Symbol

X2 bezeichnet wird:n

(2)

Da der Zufallsvektor U eine n-dimensionale Standard-Normalverteilung besitzt

(3)n

L(U) = N (0,11 ) = TI N(O, 1) ,n n . 1

Z=

läßt sich die X2 -Verteilung auch suggestiv schreiben als das Normquadrat der n-din

mensionalen Standard-Normalverteilung

(4)

Die X2-Verteilung besitzt eine Dichte cp , die nur auf den positiven Bereich (0,00)

n nkonzentriert ist, und dort gegeben ist durch:

(5) für x> 0,

wobei r die Eulersche Gamma/unktion ist:

00

(6) r(a) = jtcx-1e-tdt.o

Die Dichte cpn beschreibt auf (0,00) im Fall n <2 eine fallende Kurve und im Fall

n> 2 eine schiefe Glockenkurve mit der Maximalstelle in x = n- 2 und zwei Wende

punkten in x = (n- 2) ± J2(n - 2) also im Abstand J2(n - 2) von der Maximal

stelle.

G. Osius: Die Chiquadrat-Verteilung 8.7.10 Vl-2

Q)......cü(5

0.2

o.0 +-Ä---.---.--....--,:::::;::::::::;:==;=-.,..::::;:::::::;::=r=;;;;;:=M=;=""T"'".,....-~:::;::=;=:;=;

o 5 10 15 20 25

Dichten der X2 -Verteilung für die Freiheitsgrade m = 1,3,5 und 10.m

Die Verteilungsfunktion P der X2-Verteilung ist auf (0,00) streng monoton wach-n nsend und dort gegeben durch

(7)x

Pn(x) =P{x~<x} =J cpn(u)duo

für x> o.

Das (obere) a-Quantil x~. et der x~-Verteilung ist dann gegeben durch,

(8) X2 =p-1(1-a) bzw. p{X2 >X2 }=a fürO<a<1.ni et n n - ni et

Für den Freiheitsgrad n=l lassen sich P1 bzw. xi. et durch die Verteilungsfunktion

P bzw. das obere ~ -Quantil zet/2 = P-1(1_ ~)' der Standard-Normalverteilung

N(O,l) beschreiben:

(9)

(10)

1- 2P(-JX) für x> 0,

für 0< a< 1.

Der Erwartungswert von X2 ist der Freiheitsgrad n,und die Varianz ist der doppelten

Freiheitsgrad

(11)

G. Osius: Die Chiquadrat-Verteilung

Die Faltung von X2-Verteilungen ist wieder eine solche

8.7.10 Vl-3

(12) x2 und X2 stochastisch unabhängig ::::}m n

Für wachsenden Freiheitsgrad konvergiert die standardisierte X2-Verteilung nachn

Verteilung gegen die Standard-Normalverteilung

(13) (x~ - n)/y'2n ~ N(O,l) für n ---+ 00,

und es folgt

(14) x~/n p) 1 für n ---+ 00.

Die X2-Verteilung ist eine spezielle Gamma-Verteilungn

(15) X~ = Gam(~,2),

und hieraus kann man weitere (und teilweise auch obige) Eigenschaften der

X2-Verteilungen herleiten. Eine Gamma-Verteilung der Form Garn ( ~, 2) mit belie

bigem v> 0 wird daher auch als Chiquadrat-Verteilung mit Freiheitsgrad v be

zeichnet:

(16) Gam( ~,2) für v> o.

1.2 Die nichtzentrale Chiquadrat-Verteilung

U = (U1, ... , U

n) sei ein n-dimensionale Zufallsvektor, dessen Komponenten unabhän

gige reelle Zufallsvariablen mit folgneder Normalverteilung sind

(1) L(U.) = N(fL·,l)z zfür i = 1,...,n.

Dann hängt die Verteilung der Quadratsumme

nur noch über die sogenannte Nichtzentralität

vom Vektor Jl = (fLl' ... ,fLn ) der Erwartungswerte ab. Diese Verteilung

heißt die nichtzentrale X2-Verteilung mit n Freiheitsgraden und Nichtzentraltität 8. Da

der Zufallsvektor U n-dimensional normalverteilt ist mit Erwartungsvektor Jln

(5) cL'(U) = N (Jl,ll ) = TI N(Jlo,l) ,n n i=l z

läßt sich die X2(8)-Verteilung auch suggestiv schreiben alsn

(6) mit

Für 8 = °bzw. Jl = 0 liegt die zentrale X2-Verteilung vor:

(7)

Die Faltung von nichtzentralen X2-Verteilungen ist wieder eine solche mit der

Summe der Freiheitsgerade bzw. Nichtzentralitäten als Freiheitsgrad bzw. Nicht

zentralität:

Für den Freiheitsgrad n = 1 ist

und die Dichte <Pl6 bzw. Verteilungsjunktion P1 6 von X; (8) ergeben sich aus der, ,Dichte O,

(<p(JX-ß) +<p(-JX -J6))/2VX > ° fürx>O.

Für n> 1 läßt sich die X2 (8) als Faltung von X2l(8) mit der zentralen X2 l-Verteilungn n-

darstellen

(12) X; (8) und X~-l unabhängig =* xi(8) + X~-l = X~(8).

Hieraus ergibt sich für die Dichte 0 für x> 0, n > 1,, o '00

(14) Pn,6(x) J P1 6(x- y) . <Pn-l(y) dy für x> 0, n > 1.o '

Folglich ist <P s: auf (0,00) positiv, und für die Verteilungsfunktion P s: von X2 (8)n,u n,u nfolgt

(15) P s: ist streng wachsend auf (0,00).n,u

Die Verteilungsfunktion hängt von der Nichtzentralität wie folgt ab

(16) Pn 8(x) = P{X~(8) < x} ist streng wachsend in x> 0,und streng fallend in 8>0 für x> O.

Für 8 ---+ 00 ergeben sich - aus (9) für n= 1 und mit (11) für nE W - die Grenzwerte

(17)

(18) P (x) = 0n,oo

für 8 ---+ 00,

für x > o.

Das obere a-Quantil von X2(8) ist definiert durchn

(19)

und es gilt

X2 (8) = P-1s:(1-a) bzw. P{X2n > X2

n ,,,(8)} = an,et n,u ,u- für 0< a< 1,

(20) X2 (8) ist streng fallend in a und streng wachsend in 8n,et

sowie (vgl. z.B. Agresti 1990, p.98)

(21) Pn 8 (X~ et) = P{X~(8) < X~ et} ist streng wachsend in n., , ,Der Erwartungswert und die Varianz von X2(8) lauten

n

(22) Var{x2 (8)} = 2(n + 28) .n

o

0.1

o.0 ~r--T""---r--"'T"'""""""T---r-~.....----T----r----r--T"'"""""'T---':=:::;=::;:::=;:~~

o 5 10 15 20

Dichten der X2 (8)-Verteilung für n = 5 und Nichtzentralitäten 8 = 0, 1, 2 und 4.n


Allgemeiner ist die k-te Kumulante von X2 (8) gegeben durch (vgl. Johnson-Kotzn

1970-72, Chap. 28, Sec. 4):

Hieraus ergeben sich speziell die Kumulanten und zentralen Momente 3. und 4.

Ordnung zu

(24)

(25)

(26)

~3(X~( 8))

~iX~(8))

fL3(X~( 8))

fL3(X~( 8)) = 8 (n- 38) ,

48 (n- 48) ,

~4(X~(8)) + 3 (Var{x~(8)})2 48(n-48) + 12(n+28)2.

1.3 Grenzwertsätze und Approximationen

Die nichtzentrale X2(8)-Verteilung ist nach 1.3 (8) die n-fache Faltung vonn

X~(%)-Verteilungen. Hieraus ergibt sich mit dem Zentralen Grenzwertsatz die

asymptotische Normalverteilung der Standardisierung von X2(8) für n---+ 00n

X~(8) - (n+8) L(1) ) N(O, 1) ,

J2(n + 28) n-HX!

die für 8 = 0 zu 1.1 (13) reduziert. Für nicht zu kleines n erhält man hieraus die Nor

mal-Approximation von X2(8)n

(2) mit fL = n+8, a = J 2(n + 28) .

Eine andere Approximation, die auch für kleines n gilt, hat Patnaik (Biometrika 36,

1949, 202-232) vorgeschlagen. Hierbei wird die nichtzentrale Verteilung X2 (8) durchn

das Vielfache c· X2 einer zentralen Verteilung approximiert, wobei c> 0 und v> 0v

so gewählt werden, daß die ersten beiden Momente beider Verteilung übereinstim-

men (vgl. auch Johnson-Kotz 1970-72, Ch. 28, Sec. 8)

n+28 (n+8)2(3) c = n + 8 v = n + 28

Hieraus ergibt sich die Gamma-Approximation von X2(8)n

(4)

mit der sich die Dichte und Verteilungsfunktion von X2 (8) approximieren lassen.n

G. Osius: Die t-Verteilung

2 Die t-Verteilung

2.1 Die zentrale t-Verteilung

8.7.10 V2-1

Sind U und V unabhängige reelle Zufallsvariablen mit den Verteilungen

(1) L(U) = N(O, 1L L(V) = X2

!n

so heißt die Verteilung des Quotienten

(2) T=U

V1 Vn

eine zentrale t-Verteilung mit n Freiheitsgraden, die mit t bezeichnet wirdn

(3) tn : = L(T) = cL( U / V~ V ) .

Die t -Verteilung läßt sich suggestiv auch schreiben alsn

(4) t := N(O,l) /V1 X2n n n

für unabhängige N(O, 1) und X2.

n

(5)

Die t -Verteilung besitzt auf IR folgende Dichte epn n

( ) (x2 )-(n+ 1)/2

ep x = a 1 +- für x E IR ,n n n

wobei die Konstante a unter Verwendung der Eulerschen-Gammafunktion r defin

niert ist durch

(6) an r(n~1 ) / (r( ~ ) ;:;;;-).

Die Dichte ep beschreibt eine um x=o symmetrische Glockenkurve mit den Wenn

depunkten in x = ± Jn/(n+2) .

Die Verteilungs/unktion P mitn

x(7) Pn(x) =P{tn <x} = J epn(u)du

- 00

ist eine streng monoton wachsende sigmoide Kurve, die drehsymmetrisch im Punkt

(0, +) ist:

(8) P (-x) = 1- P (x).n n

Das obere a-Quantil t der t -Verteilung ist dann gegeben durchn,(X n

(9) t:= p-1 (1- a) bzw. P {t > t } = a für 0< a < 1.n,(X n n- n,(X

G. Osius: Die t-Verteilung 8.7.10 V2-2

432o

500

-1-2-3

0.1

o.0 ~"""""=;=::;::~T""'T"""T""T"""r-T""'1r-r-r"""T""'T""T""'T""T""T'""'T""T'""'T""T""T""'T"""T""'T"""T'""'T""'1r-r=:;==;=-r..,....;r::;

-4

0.2

0.3

004

Dichten der t -Verteilung für die Freiheitsgrade n = 1, 2, 5 und 500.n

Der Erwartungswert existiert nur für n> 1 und lautet

(10) E{t } = 0n für n> 1.

Und die Varianz existiert erst für n> 2 und ist dann

(11 ) Var {t } = n/ (n - 2) > 1n für n>2.

Für wachsenden Freiheitsgrad konvergiert die t Verteilung gegen die Standardn

Normalverteilung

(12) tn

cf) N(O,l) für n ---+ 00,

d.h. es gilt

(13) lim P (x) = P (x)n---+oo n

für alle x E IR

wobei P die Verteilungsfunktion von N(O,l) ist. Folglich konvergieren auch die zu

gehörigen Quantile

(14) lim t = zn---+oo n,(X (X

für alle O<a<l,

wobei z = p-1 (1- a) das obere a-Quantil von N(0,1) ist. Außerdem konvergieren(X

auch die Dichten cp punktweise gegen die Dichte cp von N(O,l):n

(15) lim cp (x) = cp(x)n---+oo n

für alle xE IR.


2.2 Die nichtzentrale t-Verteilung


(1) L(U) = Nb, 1),


(2) T=U

V1 Vn

eine doppelt nichtzentrale t-Verteilung mit n Freiheitsgraden und den Nichtzentralitäten

"( und 8, die mit t ("(,8) bezeichnet wirdn

(3) tn ("(,8):= L(T) = 4U / V~V).

Die t ("(,8)-Verteilung läßt sich suggestiv auch schreiben alsn

(4) für unabhängige N("( ,1) und X2 (8).n

Für 8= 0 ergibt sich die (einfach) nichtzentrale t b)-Verteilung mit Nichtzentralität "(n

(5) t ("() := t ("(,0) = Nb, 1) / V1 X2 für unabhängige N("( ,1) und X2.n n n n n

Und für "( = 8 = 0 erhält man die zentrale t -Verteilungn

(6) t = t (0) = t (0,0).n n n

0.4 0

0.2

2015105oo.0 -k::::'-r4-,...4.---'---'~'T"""""r"::::;::::'=r=-';::::;::::;==:;:=;==-~:::;::::;:::::;=;

-5

Dichten der t ("()-Verteilung für n = 5 und Nichtzentralitäten "( = 0, 2, 4 und 8.n


Die Dichte cp , von t ("(,8) läßt sich unter Verwendung der Dichten cp von N(0,1)n,1,v n

und cp ,von X2 (8) angeben:n,v n

00

(7) cp 8(x) = J 2nw2 .cp(wx-"().cp 8(nw2)dw > 0n,"(, 0 n,

Und die Verteilungsfunktion P , von t ("(,8) ergibt sichn,"(,v n

für xEIR.

(8)

für xEIR.

Im Zusammenhang mit Schärfebetrachtungen von Tests sind folgende Monotonie

Eigenschaften der Verteilungsfunktion von Interesse:

(9) Pn, "( , 8(x) ist streng monoton wachsend in x E IR,

(10) Pn,"(, 8(x) ist streng monoton fallend in "(E IR,

(11) Pn,"(, 8(x) ist für x> 0 streng monoton wachsend in 8> 0,

wobei sich für "( ---+ ± 00 bzw. 8 ---+ 00 folgende Grenzwerte ergeben

(12) P 8(x) = 1, P + 8(x)=0 für xE IRn,-oo, n, 00,

P (x) = 1 für x> 0n, "(,00

weil

(13)p

für "( ---+ ± 00,t ("(, 8) -------+ ± 00n

(14)p

für 8 ---+ 00.t ("(, 8) -------+ 0n

Ein Vorzeichenwechsel der Nichtzentralität "( bewirkt eine Spiegelung der Vertei

lung um Null

(15) t (-"(,8) = - t ("(,8),n n

und hieraus ergibt sich für die Verteilungsfunktion

(16) P ,(x) = 1-p ,(-x)n,-"(,v n, "(,v

für xEIR.

Erwartungswert und Varianz der einfach nichtzentralen Verteilung lauten

(17)

(18)

"( .fiif2 .r ( n;-l )/ r ( ~ )

(1 + "(2)n/(n-2) - E{t ("()}2n

für n> 1,

für n>2.

2.3 Approximationen der nichtzentralen t-Verteilung

Wir betrachten die doppelt-nichtzentral-t-verteilte Zufallsvariable

(1) Tn

U)1 Vn n

mit stochastisch unabhängigen

(2)

Für n ---+ 00 gilt

(3)

und somit

S := )1 Vn n n

P----+l 1

n---+ 00

(4) Tn

L l Nb,l)n---+ 00

bzw. t ('Y,8)n n---+ 00N( 'Y, 1)

Die zugehörigen Approximationen

(5) S ~ 1,n

für großes n

sind allerding relativ grob. Aus der asymptotischen Normalverteilung von Sn

(6)

(7)

mit

ergibt sich als Präzisierung von (3) die Normalapproximation

(8) mit f-L -----+ 1,na -----+ O.

n

Daraus erhält man folgende Approximation der doppelt-nicht-zentralen t-Vertei

lungsfunktion für nicht zu kleines n

(9) <!> ,(x) ~ <!>(u)n, "(,u

mit u

Für die einfach-nicht-zentrale t-Verteilung reduziert dies zur Approximation

(10) <!> o(x) ~ <!>(u)n, "{,

mitX-,

U =V 1+

x2

2n

die auf Johnson & Welch (1940, Biometrika 31, 362-389) zurückgeht, vgl. auch

Scheffe (1959, The Analysis 01 Variance) problem IV.4, p. 415) sowie Johnson & Kotz

1970-72, eh. 31, Sec. 6.

G. Osius: Die F-Verteilung 8.7.10 V3-1

3 Die F-Verteilung

3.1 Die zentrale F-Verteilung

Sind U und V unabhängige reelle Zufallsvariablen mit Chiquadrat-Verteilungen

(1) L(U) = X2

,m

L( V) = X2,

n


(2) FlUm

lVn

eine zentrale F-Verteilung mit Zähler-Freiheitsgrad m und Nenner-Freiheitsgrad n) die

mit F bezeichnet wirdm,n

(3) F = L(F) = L((lU)/(lV)).m,n m n

für unabhängige X2 und X2.m n

Fm,n

Die F -Verteilung läßt sich suggestiv auch schreiben alsm,n

1 2mXm12nXn

(4)

Die F -Verteilung besitzt eine Dichte cp ,die nur auf dem positiven Bereichm,n m,n

(0,00) von Null verschieden ist, und dort gegeben ist durch

(5)

(6)

(7)

cp (x) = d .~1 (mx + n)-(p+q) > °m,n m,n

p = ~ m, q = ~ n

_ p q r(p+q)dm,n - m n . r(p). r(q) ,

mit

und

wobei r die Eulersche Gammafunktion ist.

Die Dichte cpmn beschreibt für positive Argumente x im Fall m < 2 eine monoton,fallende Kurve und im Fall m> 2 eine schiefe "Glockenkurve" mit einem Maximum

f ·· - n(m-2) 1ur x - m(n+2) < .

Die Verteilungsfunktion P der F -Verteilung ist auf (0,00) streng monotonm,n m,n

wachsend und dort gegeben durchx

(8) P (x) =P{F <x} = J cp (u)du.m,n m,n m,noDas obere a-Quantil F der F -Verteilung ist dann gegeben durch

m,n;o: m,n

(9) F := p-l (1- a)m,n;Oi m,n

bzw. P{F >F }=amn- mn·Oi, , , für O<a<1.

Der Erwartungswert existiert nur für n> 2 und hängt nicht von m ab:

(10) E{F } = --.I!:-2 > 1m,n n-für n> 2.

Und die Varianz existiert erst für n> 4 und ist dann

(11)2n2 (m+n-2)

Var{F } = 2m,n m (n- 2) (n- 4)

für n>4.

Bei Vertauschen beider Freiheitsgrade ergibt sich

(12) Fn,m

1

Fm,n

(13) p (x)=l-P (1)n,m m,n X

für x > 0,

(14) Fn,m;Oi

1

Fm,n;l-Oi

für 0 < a< 1.

Für den Zähler-Freiheitsgrad m = 1 ergeben sich folgende Zusammenhänge zur zen

tralen t -Verteilung und deren Verteilungsfunktion P :n n

(15)

(16)

F = t2l,n n

Pl (x) = 1 - 2 P (- JX),n n

für x > 0,

432

m = 1, 4, 16, 64n=8

64

O-t-'-f'---r""--"""""'''''--'''''''''''--'--T"""""T"--r-T"""""T"--r-T""""T--r-.,.....,

o

0.5

432

m=8n = 1, 4, 16, 64

64

o...fL.r---.-T"""""T'"...,.....,---.-...,......,--.--,.......,...,..::;:::::;=:~;;;;=;;;;;;;;;;

o

0.5

Dichten der F -Verteilung für verschiedene Freiheitsgrade mund n.m,n

(17) F = t21,n;Ct n;Ct/2 für °< a< 1.

Für wachsenden Nenner-Freiheitsgrad n konvergiert die F -Verteilung gegen einem,n

skalierte X2-Verteilung:

(18) ci: 1 2F -------+ -·Xm,n m m

für n ---+ 00.

Im Zusammenhang mit der Konstruktion von Konfidenzintervallen ist noch fol

gende Monotonie der Quantile bzgl. des Zählerfreiheitsgrades von Interesse:

(19)

3.2

m· F ist für °< a< 1 streng monoton wachsend bzgl. mElN.m,n,Ct

Die F-Verteilung mit reellen Freiheitsgraden

Aus der Darstellung der Chiquadrat-Verteilung als Gamma-Verteilung

ergibt sich die zentrale F-Verteilung wie folgt

(2) Fm,n

1. Gam(:0 1)m 2'

1. Gam(!!:. 1)n 2'

für unabhängige Gam(!J], l)und Gam(%, 1).

Ersetzt man die natürlichen Zahlen m, n durch positive reelle Zahlen r, s > 0, so er

hält man die (zentrale) F -Verteilung mit reellen Freiheitsgraden r, sr,s

(3) Fr,s

1. Gam(I... 1)r 2'

1. Gam(~ 1)S 2'

für unabhängige Gam(~, l)und Gam(~,1).

Die F -Verteilung besitzt eine Dichte cp ,die nur auf dem positiven Bereichr~ r~

(0,00) von Null verschieden ist, und dort gegeben ist durch

(5) cpr/x ) d .~1 (rx + s)-(p+q)> ° mit, r,s

(6) r q=2.. undP=2' 2

(7) d = "p sq. r(p+q)r,s r(p)· r(q)

Die F-Verteilung läßt sich in eine Beta-Verteilung transformieren und umgekehrt.

Für die streng wachsende Funktion g: (0, (0) -----+ (0,1)

(8) g(x)rx 1

rx + s 1 + s/(rx)

ergibt sich

(9) g(Fr,s)rFrs 1

B(p, q) .,'""-'

r Frs + s 1 + s/(r Fr s), ,

Insbesondere läßt sich die Verteilungsfunktion x},

P{ B(p, q) < g(x)} = I(g(x) 1 p, q)

P{B(p,q) >g(x)} = I(l-g(x)lq,p)

mit 1(-1 p, q) als unvollständiger Beta-Quotienten-Funktion (vgl. Exkurs Beta-Vertei

lung).

3.3 Die nichtzentrale F-Verteilung


(1) L(U) = X2 (8),m


(2)lU

F = mlVn

eine (doppelt) nichtzentrale F-Verteilung mit dem Zähler- und Nenner-Freiheitsgrad m

und n, sowie den Zähler- und Nenner-Nichtzentralitäten 8 und c, die mit F (8, c) bem,n

zeichnet wird:

(3) F (8,c) = L(F) = L((lU)j(lV)).m,n m n

Die F (8, c)-Verteilung läßt sich suggestiv auch schreiben alsm,n

(4)1 2 (8)

F (8,c) = mX;:

m,n lX (c)n n

für unabhängige X2 (8) und X2 (c).m n

Speziell für c = 0 ergibt sich die (einfach) nichtzentrale F (8)-Verteilung mit derm,n

Nichtzentralität 8

(5) F (8) = F (8,0) =m,n m,n

für unabhängige X2 (8) und X2.m n

Und für 8 = c = 0 erhält man die zentrale F -Verteilungm,n

(6) F = F (0) = F (0,0).m,n m,n m,n

Die Dichte cp s: von F (8,c) läßt sich unter Verwendung der Dichten cp s: undm,n,u,e m,n m,u

cp von X2 (8) und X2(c) angeben:nf m n

(7)00

cp s: (x) = J mnv'cp s:(mvx)·cp (nv) dv > 0m,n,u,e m,u n,eofür x> O.

Und die Verteilungsjunktion P s: von F (8,c) ergibt sich mit der Verteilungs-m,n,u,e m,n

funktion P s: von X2 (8) zum,u m

(8) P (x)m,n,b,e P{ Fm n(8,c) <x},

00

J n·P b(mvx).cp (nv) dvo m, n,efür x> O.

Bei Vertauschen beider Freiheitsgrade und Nichtzentralitäten ergibt sich

(9)1

Fn ,m(c,8) = F (8 c)m,n '

(10) P (x)=l-P (1)n,m,e,b m,n,b,e x

für x > 0,

0.5

m=8n = 168 = 0, 1, 2, 4

321o.0 ~--r---r---r----r----r-----r-----r~---,-.----r--..----r--~--r---r---r----,

o

Dichten der F (8)-Verteilung jür m = 8) n = 16 und verschiedene Nichtzentralitäten 8.m,n


Für den Zähler-Freiheitsgrad m = 1 erhält man folgenden Zusammenhang zur

nichtzentralen t-Verteilung:

(11) F1

(8,c)=t2 (j6,c).,n n

Im Zusammenhang mit Schärfebetrachtungen von Tests sind folgende Monotonie

Eigenschaften der Verteilungsfunktion von Interesse:

(12) p s: (x) ist • streng wachsend in xE (0,00),m,n,u,c

• streng wachsend in c> 0

• streng fallend in 8 > 0

für x> 0,

für x> o.

(13) p s: (~) ist für x>O streng monoton fallend in mElN.m,n,u,c m

Für 8 ---+ 00 bzw. c ---+ 00 ergeben sich mit 1.2 (17) folgende Grenzwerte

(14)

(15)

PF (8,c) -------+ 00n,m

pF (8,c) -------+ 0

n,m

für 8 ---+ 00,

für c ---+ 00,

und somit insbesondere

(16) p s: (x) = 1m,n,u,oo

p (x) = 0m,n,oo,c

für x >0,

für x > O.

3.4 Approximationen der nichtzentralen F-Verteilung

Nach Severo & Zelen (1960, Biometrika 47, 411-416) läßt sich die Verteilungsfunktion

P s: der (einfach) nichtzentralen F (8)-Verteilung wie folgt durch die Vertei-m,n,u m,nlungsfunktion P von N(O,l) approximieren:

(1) Pm,n,D (x) ~ p(uIJV)

u = (1-~n)wl/3_(1-a),

2 (m + 28)a =

9(m+8)2 '

mit

v = a + 2 w 2/3

9n '

mxw =--

m+8

Tiku (1966, Biometrika 52, 415-427) gibt eine Approximation der (einfach) nichtzen

tralen F (8)-Verteilung durch eine zentrale F-Verteilungm,n

(2) [F (8) + c ] / b ~ Fm,n r,n (three-moment central-F approximation)!

wobei der reelle Freiheitsgrad r und die Parameter b, c so gewählt sind, daß die er

sten drei Momente der beiden Verteilungen in (2) übereinstimmen:

(3) r ~(n-2) h/1/(1-4K3IH2) -1],

(4) b =r·H n (b -1- 151m)

mitm K (2r + n - 2) ,

c =n-2

(5) H= 2(m + 8)3 + 3 (m + 8)(m + 28)(n- 2) + (m + 38)(n- 2)2 ,

K= (m + 8)2 +(n- 2)(m + 28) .

Die Three-moment central-F approximation ist nach Tiku (1966, Biometrika 53, 606-610)

genauer als die Normalapproximation (1). Aus (2) ergibt sich nach 3.2 (10) folgende

Approximation der nicht-zentralen F (8)-Verteilungsfunktion durch die Vertei-m,nlungsfunktion einer Beta-Verteilung bzw. durch die unvollständige Beta-

quotienten-Funktion I

(6) P D(x) = P{Fmn(8) < x} ,....., p{ B(%,%) < u} I(ul%,%) bzw.,.....,m,n, ,

P{Fmn(8) > x} ,....., p{ B(%,%) > u} I(l- u l%,%) mit,.....,,

(7)1 1

ul+ nbl(r[x+c]) ,

1- u1 + r[x+c]/(nb)

Beweise zu: Chiquadrat-Verteilung 11.8.06 B V 1-1

Beweise zu:1.1 Die zentrale Chiquadrat-Verteilung

Wir geben hier nur kurz die Beweisidee an, auf deren Grundlage man leicht einen

vollständigen Beweis erarbeiten kann. Die Reihenfolge entspricht hierbei aus be

weisökonomischen Gründen nicht der Darstellung im Text.

Die Aussagen

(9)

(12)

für x> 0,

x2 und X2 stochastisch unabhängig ::::}

m n

sind bereits als Spezialfälle für 8 = 0 im Abschnitt 1.2 enthalten als

1.2 (10) <P16

(x) = <p(JX-j6) - <p(-JX -)6) für x> 0,,

1.2 (8) X~(rr) und X~(8) unabhängig ::::} X~(rr) + X~(8) = X~+n(rr+8).

und werden dort bewiesen.

Beweis von:

(5) für x> 0,

Der Beweis erfolgt durch Induktion über den Freiheitsgrad n. Der Induktionsanfang

n = 1 ergibt sich durch Differenzieren von (9). Und der Induktionsschritt n 1----+ n+1

verwendet (12) für m = 1 und n +1 statt n.

Beweis von:

(10) 2X1· a, für 0< a< 1.

(10) folgt direkt aus (9).

Beweise zu: Chiquadrat-Verteilung

Beweis von:

11.8.06 B V 1- 2

(11)

Der Beweis erfolgt durch Induktion über den Freiheitsgrad n. Der Induktionsanfang

n = 1 verwendet das 2. und 4. Moment der Standard-Normalverteilung

E(N(O.1)2) = 1,

Und der Induktionsschritt ergibt sich aus (12) in Verbindung mit den Rechenregeln

über Erwartungswert und Varianz.

Beweis von:

(13)

(14)

(x~-n)/y'2n ~ N(O,l)

2/ PXn

n ) 1

für n ---+ 00,

für n ---+ 00.

(13) bzw. (14) folgen direkt aus der Darstellung (1) in Verbindung mit dem Zentra

len Grenzwert bzw. dem Gesetz der großen Zahlen.

Beweise zu: Chiquadrat-Verteilung 11.8.06 B V 1- 3

Beweise zu:1.2 Die nichtzentrale Chiquadrat-Verteilung

Beweis von:

Dann hängt die Verteilung der Quadratsumme

nur noch über die sogenannte Nichtzentralität

(3) 8 = 11 Jll1 2= JLi +...+ JL~

vom Vektor Jl = (JLl' ... ,JLn ) der Erwartungswerte ab.

Zu zeigen ist, daß cL'(IIU 11 2) nur über 8 von Jl = (JLl' ... ,JLn) abhängt, wobei für Jl = °

bzw. 8= 0 nichts zu zeigen ist. Sei also Jl:;= o. Wir zeigen erst, daß die Verteilung

von IIU 11 2 invariant ist gegenüber einer einer orthonormalen Transformation. Für

eine orthonormale Matrix C gilt

(i) CCT = 11n

d.h.

also

(ii)

IICUI1 2 = UTCTCU = UTU = IIUI1 2

cL'(IIU 11 2) = cL'(IICU 11 2

).

und somit

Es genügt daher ein geeignetes C anzugeben, für das die Verteilung von CU nur

noch über 8 von Jl abhängt. Hierzu ergänzen wir den normierten Vektor ji = IIJlII-1Jlzu einer Orthonormal-Basis des IRn und betrachten die orthonormale Matrix C de

ren Zeilen diese Orthonormal-Basis bilden. Da ji die erste Spalte von CT ist, folgt

für den ersten Einheitsvektor e1

= (1,0, ..., 0)

(iii) C - 1 CT -e= e=1I.1 1 rbzw.

Die zentrierten Variablen

(iv) z. = U. - Jl.z z z

mit cL'(z.) = N(O, 1),z

sind ebenfalls stochastisch unabhängig und daher gilt

(v) cL'(Z) = N (0,11) SOWIen n cL'(CZ) = N (0, CCT) = N (0,11 )n n n

Aus der Darstellung

(vi) vgl. (iii)

ergibt sich dann mit (v), daß cL'(CU) nur noch über IIJ-LII = J6 von J-L abhängt. D

Beweis von (8)

Für stochastisch unabhängige reelle Zufallsvariablen Vl' ... 'Vm' Ul'" .. ,Un mit

cL'(V.) = N('\.,l) für j = 1, ... ,m.] ]

cL'(U.) = N(J.L.,l) für i = 1, ... ,nz z

gilt nach Definition der X2-Verteilung

D

8 = 11J-L11 2,

'Y = 11'\11 2,

T = 11J-L11 2+ 11,\11 2

= '\+8.

mit

mit

mit

cL'(IIU 11 2) = X

2 (8)n

cL'(11 V11 2) = X

2 ('Y)m

cL'(IIU 11 2 + IIVI1 2) = X

2 + (T)m n

Da IIUI1 2 und IIVI1 2 stochastisch unabhängig sind, folgt hieraus (8).

Beweis von (10) (11)

(10)

(11)

P16(x) = p(JX-j6) - p(-JX -)6) für x>O,,<P16(x) = (<p(JX-ß)+<p(-JX-J6))/2VX >0 fürx<O.,

Für x>O gilt:

P{Xi(8)<x} = P{N(J6,l) 2 < x}

= P{IN(J6)) 1 < Jx}

= P{-JX <N(J6,l) < JX}

= P{ -JX-)6 <N(O,l) < Jx -)6}

= p(Jx -)6) - p (-JX -)6).

Also gilt (10), und (11) ergibt sich durch Differenzieren von (10) für x> 0

D

Beweis von:

(12) x~ (8) und X~-l unabhängig =* xi(8) + x~+1 = x~(8) .

Dies ist ein Spezialfall von (8). D

Beweis von:

für x> 0, n > 1.

für x> 0, n > 1,00

J r.p18(x-y)·r.pn_l(y)dy >0o '

00

J P1 8 (x- y) . r.pn-l (y) dyo '

Beide Integraldarstellungen folgen direkt aus der Faltungseigenschaft (12).

(14)

(13)

Die Ungleichung r.p ,> 0 auf dem Intervall (0,00) folgt aus den Ungleichungenn,u

vgl. (11), r.pn-l > 0, vgl. (15),

die ebenfalls beide auf dem Intervall (0,00) gelten. D

Beweis von:

(15 ) P ,ist streng wachsend auf (0,00).n,u

Die Behauptung folgt sofort aus r.p ,(x) >0 für x> 0, vgl. (13).n,u

D

Beweis von:

(16) Pn 8(x) = P{X~(8) < x} ist streng wachsend in x> 0,und streng fallend in 8>0 für x> o.

Der Beweis erfolgt durch Induktion über den Freiheitsgrad n.

InduktionsanJang: n = 1

Wegen Xi(8) = N(c,1)2 mit c = J6 ergibt sich für z = JX>O:

(i) Pn,8(z2) p{xi (8) < z2}

P{ -z < N(c,l) < z}

p(z-c) - p(-z-c).

Beweise zu: Chiquadrat-Verteilung

Differenzieren nach z bzw. c liefert mit cp = pI:

11.8.06 B V 1- 6

(ii)

(iii)

f)~ p 1,8(z2)

te P1,8(z2)

cp(z-c) + cp(z-c) > 0

- cp(z-c) + cp(-z-c)

- cp(lz-cl) + cp(lz+cl)

da cp> 0,

da cp symmetrisch.

Für c > 0 gilt

-(z+c) < Z-c <z+c und somit

wobei die Gleichheit genau für c = 0 gilt. Da cP auf der positiven Achse (0, (0)

streng monoton fallend ist, folgt

(iv) cp(lz+cl) <cp(lz-cl) bzw. te P18(z2)<0,wobei die Gleichheit genau für c = 0 gilt. Folglich ist P1 6(z2) fallend für c > 0, und

sogar streng fallend für c> 0, also auch streng fallend in c>0 und in 8 = c2.

Und wegen (ii) ist P1 6(z2) streng wachsend in z> 0, also auch in x = z2 .,Induktionsschritt: n f-----t n+ 1

Da x~+1(8) die Faltung von xi(8) und x~ ist, gilt folgende Darstellung

(v) Pn+1, i x) = P{U +V < x} = P{U < x- V} ,

wobei U, V stochastisch unabhängige Zufallsvariablen sind mit

cL'(V) = X2.n

Die Dichte cp von V ist nach Induktionsvoraussetzung (für 8 = 0) positiv auf (0,00),n

und es gilt

P{U< x-V}xJ cpn(v) . P{U<x-v} dvoxJ cpn(v) . P1,8(x-v) dv.o

Der Integrand ist für 0 < v < x positiv und nach Induktionsanfang streng wach-

send in x > 0 und streng fallend in 8 > o. Damit ist auch das Integral streng wach

send in x > 0 und streng fallend in 8 > 0, und (16) ist für n +1gezeigt. D


Beweise zu:1.3 Grenzwertsätze und Approximationen

Beweis von:

(1)J2(n + 28) n---+ 00

N(O, 1) ,

Anwendung des Zentralen Grenzwertsatzes auf die zentrierte Dreiecksfolge Xnk

mit

k = 1, ..., n.

Wegen

und

X nk iid xi( %) - (1 +%) für

0-2

:= Var(X ) = 2(1+21 ) ) 2n nl n n---+ 00

E(X~l) = 48(n-4%) + 12(n+2%)2 n---+oo) 48n + 12 n2

ist die Ljapunov-Bedingung erfüllt (vgl. Exkurs Der Zentrale Grenzwertsatz jür reelle

Zujallsvariablen, 2. Kriterium 2) und somit folgt (1), weil

Beweis von:

Var(Xn+) = 2(n + 28) . D

(3) c = n + 28

n+8v =

(n + 8)2

n + 28

Gleichsetzen der ersten beiden Momente von x~ (8) und Garn ( ~, 2c) liefert:

(i)

(ii)

E{X~(8)} = n+8

Var{x~(8)} = 2(n + 28)

c v E{Garn ( ~ ,2c)} ,

2vc2 = Var{Gam( ~,2c)}.

Einsetzen von (i) in (ii) ergibt 2(n + 28) = 2 (n+8) c und somit c aus (1). Aus (i)

ergibt sich weiter v = (n+8)/c und somit v aus (1). D

Beweise zu: t-Verteilung

Beweise zu:2.1 Die zentrale t-Verteilung

Beweis von:

8.7.10 B V 2-1

(15) Ern cp (x) = cp(x)n---+oo n

für alle xE IR.

Für festes x E IR ist für n ---+ 00 zu zeigen

Nun ist

cp (x)n

bn

cn

dn

(27f)-1/2 . b (c d )-1/2n n n

r ( n~1 ) [ r ( ~ ) .~]-1

(1 + ~x2r

(1 + ~ x2

).

mit

Aus

folgt

c ---+ exp {x2

}, d ---+ 1n n

(c d )-1/2 -------+ exp {- 12

x2 },n n

für n ---+ 00

und für (i) bleibt nur noch zu zeigen

(ii) b -----+ 1n

für n ---+ 00.

Setzen wir z = ~ , so ist

Wir zeigen jetzt allgemeiner

(iii) log r(z + ~ ) - log r(z) - ~ log(z) -------+ 0 für z ---+ 00

woraus sich sofort log b ---+ 0 und somit (ii) ergibt. Der Nachweis von (iii) verwenn

det folgende Variante der Stirlingschen Formel- vgl. z.B. Abramowitz & Stegun (1970),

Handbook 01 Mathematical Funetions, 6.1.40, p. 257) für z ---+ 00:

(iv) log r(z) = (z - ~) log(z) - z + ~ 10g(27f) + 0(1).

Entsprechend ist

und somit folgt

8.7.10 B V 2- 2

log r(z + ~) - log r(z) - ~log(z) =

z [log (z + ~) - log (z)] - ~ + 0 (1 )

und für (iii) bleibt zu zeigen

(v) z[log(z + ~) -log(z)] -------+ ~ für z ---+ 00.

Nach dem Mittelwertsatz gibt es zu jedem z ein ~(z) E (z, z + ~) so daß

(vi) log(z + ~) -log(z) = ~ . ~~z) .

Wegen z < ~(z) < z + ~

folgt z < _z- < ~ 1.z +1/2 ~ (z) z

Zusammen mit (vi) ergibt sich daher

1.. . z / < z (log (z + 12

) - log(z)) < 12

.2 z+ 1 2

Wegen

z

z +1/2folgt hieraus (v).

für z ---+ 00

D

Beweise zu: t-Verteilung 8.7.10 B V 2- 3

Beweise zu:2.2 Die nichtzentrale t-Verteilung

Beweis von:

(7)

(8)

cpn,1,8 (x)

Pn,1,8(x)

00

J 2nw2 . cp(wx - yr) . cp (nw2) dw > 0o n,cp

P{tn ( yr, 8) < x}00

J 2nw· p(wx - yr) . cp (nw2) dwo n,cp

für xEIR.

für xEIR.

Die Verteilungsfunktion von W = jv/ n ergibt sich aus der von V bzw. X2 (8) mitn

pw(w) = P{W<w} = P{V<nw2} = px;(nw2)

und für die Dichte von W folgt

für w>O,

(i) für w> o.

Zusammen mit der Dichte von U

(ii) für uEIR,

ergibt sich daher die Dichte des Quotienten T= U/W (vgl. z. B. Skripte zur Stochastik

6.3 oder zur Maß- und Wahrscheinlichkeitstheorie 14)00

CPT(x) = J w·cpu(wx) ·cpw(w) dw.o

Mit (i) und (ii) ergibt sich hieraus (7), und (8) erhält man aus (7) wie folgt:x

Pn,1,8(x) = J CPn,1,8(t) dt-00

x 00

J J 2nw2. cp(wt - yr) . cP (nw2) dw dtO

n,cp-00

12nw2.( JCP(wt-yr)dt).cp (nw2)dwO

n,cp-00

12nw2.(w-lp(wX-yr)).cp (nw2)dwo n,cp

D

Beweise von:

8.7.10 B V2-4

(9) Pn,'"'{, 8(x) ist streng monoton wachsend in xE IR,

(10) Pn, '"'{ ,8(x) ist streng monoton Jallend in ')' E IR,

(11) Pn,'"'{, 8(x) ist für x> 0 streng monoton wachsend in 8> 0,

Nach Definition der t (')',8)-Verteilung gilt folgende Darstellungn

(i) P ,(x) =P{t (')',8) <x}n,'"'{,u n

=P{Z+')'<Vx},

wobei Z, V stochastisch unabhängige Zufallsvariable sind mit

L(Z) = N(O))

Mit den Dichten ep bzw. Jvon Z bzw. Vergibt sich daher

(ii) P ,(x) =P{Z<Vx-')'}n,'"'{,u

J J(v)·ep(z)d(v,z){z:::;vx-'"'{}00 VX-'"'{

= J(J(v). J ep(z)dz)dvo -00

00

= J (J(v).p(vx-')'))dv.o

ad (9-10): Der Integrand J(v) .P(vx- ')') ist für jedes v> 0 positiv und

• streng wachsend in x,

• streng fallend in ')',

weil P streng wachsend ist. Damit hat auch das Integral P ,(x) dieselben Mono-n,'"'{,u

tonie-Eigenschaften, d.h. (9) und (10) gelten.

ad (11): Wir integrieren wir in (ii) erst über z und dann über v

(iii)00

J ep(z).( J J(v)· dv)dz-00 {z:::;vx-'"'{}

00

J ep(z) ·P{z<Vx-')'} dz-00

Nun ist für z >- r bzw. z +r> 0

8.7.10 B V 2-5

mit

P{z<VX-r} = P{V>(z+r)jx}

= P{ nV 2> n(z + r)2j x2}

= P{X~(8) > n(z + r)2j x2}

= 1-p ,(h(z))n,u

h(z) = n(z+r)2jx2

für z>-r

und P ,als Verteilungsfunktion von X2(8).n,u n

Und für z <- r bzw. z +r< 0 ist

P{z<VX-r} = P{V>(z+r)jx}

Damit ergibt sich aus (iii)

1 für z<- yr.

-1P ,(x) = J <p(z) dz +

n,1,u-00

00

J <p(z) .(1-Pn ,8(h(z))) dz-1

p(-r)00

+ J <p(z) .(1-Pn ,8(h(z))) dz!-1

und für (11) bleibt nur zu zeigen, daß das Integral00

J <p(z) .(1-Pn ,8(h(z))) dz-1

für x> 0 streng wachsend in 8 ist. Un dies ergibt sich daraus, daß der (positive) In-

tegrand <p(z) .(l-P ,(h(z))) für z>-8 und somit h(z) >0 nach 1.2 (16) strengn,u

wachsend in 8 ist. D

Beweise von:

(13)

(14)

Pt (r, 8) -------+ ± 00 für r ---+ ± 00,n

t (r,8) ~ 0 für 8 ---+ 00.n

Die Behauptungen ergeben sich mit Exkurs KV 11 (1) und (5) aus

N(r,l)~ ± 00

X2 (8)~ 00n

für r ---+ ± 00

für 8 ---+ 00, vgl. 1.2 (17). D

Beweise zu: t-Verteilung 807010 B V 2- 6

Beweise zu:2.3 Approximationen der nichtzentralen t-Verteilung

Beweis von:

(3) 5 0- J1v P 1- )

n n n n---+ 00

(6) (5 -!-L )/17 cf N(O,l) mit)

n n n n---+ 00

(7) = (1+~l/2 2 - l(l +1)!-Ln n' 17 -

n n 2 n

Ausgangspunkt für (6) ist die asymptotische Normalverteilung von

(i)n---+ 00

N(O,l)

doho (vgl. 1.3 (1))

mit

Zn E(5~) ~(n+8) 1+% n---+oo) 1,

cn = Var(5~r1/2 n (2n + 48r1/2 = Vii (2 + ~8r1/2 n---+oo) 00

Für die Transformation F(x) = x1/2 mit F'(x) = ~ x-1/2 ergibt sich aus (i) mit der

Delta-Methode (vgl. Exkurs Konvergenz nach Verteilung in euklidischen Räumen, Ab

schnitt 14)

(ii) c (5-!-L) cf) F'(l) oN(O,l)n n n n---+ 00

!-L = z1/2 = (1 +1)1/2 0

n n n

N(O, ~) mit

Hieraus erhält man (6) mit

Aus (ii) folgt mit c ---+ 00 und!-L ---+ 1 auch (3)0n n

D

Beweis von:

8.7.10 B V 2-7

(9) mit u

Für W '""" N(p, )a 2) stochastisch unabhängig von u'""" Nb, 1) ergibt sichn n n

(i)

Wegen

<!> ,(x) = p{ U / s < x}n, "(,u n

~ p{U/Wn<x} vgl.(8)

= p{ U < xWn } = p{ U - xWn < O}

U - xW '""" Nb,l) -N(xp, )x2a 2) N(b-xp, ))(I+x2a 2

))n n n n n

folgt P { U - x Wn < O} = <!>(u)

XP,n - "( xlI + ~ - "(u =

)1 + x2a~ ) 1+~ (~ + ~)

Mit (i) ergibt sich (9).

wobei

D

Beweise zu: F-Verteilung

Beweise zu:3.1 Die zentrale F-Verteilung

Beweise von:

8.7.10 B V 3-1

(5)

(6)

(7)

cp (x) d .~l (mx + n)-(p+q) > 0m,n m,n

1 1P =2"m, q=2"n

_ p q r(p+q)dm,n - m n . r(p). r(q) .

mit

und

Vgl. den Beweis von 3.2 (5) für r = mund s = n.

Beweise von (10)-(18 ) fehlen noch!!!

Beweis von (19) unter Verwendung von 3.3 (13)

D

(19) m . F ist für 0 < a < 1 streng monoton wachsend bzgl. mE lN.m,n;o:

Für 1< k < m ist zu zeigen

(i) k·F <m·F .k,n;o: m,n;o:

Mit x = m . F > 0 ergibt sichm,n;o:

1 - a = P (F ) P ( x )mn m n·o: mn -:;;:;, , , ,

< Pkn(Z), nach 3.3 (13) mit 6=c=O.

Da mit Pk

auch Pk- 1 streng monoton wachsend ist, folgt weiter

,n ,n

Fk

. = p-k1 (1- a) < ;; d.h. (i) gilt.

,n,O: ,n r;;D

Beweise zu: F-Verteilung 8.7.10 B V 3- 2

Beweise zu:3.2 Die F-Verteilung mit reellen Freiheitsgraden

Beweise von:

(5)

(6)

(7)

cp (x) = d .~1 (rx + s)-(p+q) > 0T,S T,S

P = ~ r, q = ~ s

_ TJ q r(p +q)dT,s - 'I S . r(p) . r(q) ,

mit

und

Für stochastisch unabhängige X '" Gam(p, l) und y", Gam(q, l) mit Dichten

(i) f ( ) - 1 p-1 -x f ( ) _ 1 q-1-yx x - r(p) xe, y Y - r(q) y e ,

ergibt sich die Dichte des Quotienten Z = X/ Y zu (vgl. Skript ,,stochastik", Kap. 6.3)00

u = y(l+z)

Y = (1+zr1u

dy = (1+zr1du

Substitution:

für z > 0 .

fiz) = J Y -fx(zy) -fiY) dyo

00

1 p-1 J p+q-1 -y(l+z) dr(p) . r(q) z 0 y e y

00

1 p-1 ( )-p-q J p+q-1 -u dr(p) . r(q) z 1+ z 0 u e u

r(p+ q) zp-1 (1 + zr(p+q)r(p)· r(q)

Die Dichte von F = (X/p)/(Y/q)) = qp-1 Z ist daher (vgl. z.B. Skript ,,stochastik",T,S

Kap. 4.4)

cp (x) = pq-1.j(pq-1x)T,S

r(p +q) -1 ( -1 )p-1 (1 + -1 )-(p+q)r(p) . r(q) p q . p q x p q x

r(p+q) JJ -p. xP-1( -1( + ))-(p+q)r(p) . r(q) y q q q p x

r(p +q) JJ q. xP-1( + ) -(p+q)r(p) . r(q) y q q p x

r(p +q) (2p)P (2q)q. xP-1(2q + 2p x) -(p+q)r(p)· r(q)

da r = 2p, s = 2q. D


Beweise von:

8.7.10 B V 3-3

(9) 9(Fr ,s)rFrs 1

B(p, q) .,'""-'

r Frs + S 1 + s/(r Fr s), ,

Wir knüpfen an den Beweis von (5) an.

Aus X/Y = Z = pF /q rF / sr,s r,s

folgt 9(Fr ,s)1 1 X

B(p, q) .'""-' D1 + s/(r Fr s) 1+ Y/X X+Y,

Beweise zu: F-Verteilung 8.7.10 B V 3-4

Beweise zu:3.3 Die nicht-zentrale F-Verteilung

Beweise von:

(7)00

cP (x) = J mn v· cP ,(m v x) . cP (n v) dv > 0mn bc m,u n,c, , , 0für x> o.

P (x)m,n,b,c(8)

(9)

P{ Fm n(8,c) <x},00

J n·P b(mvx).cp (nv) dvo m, n,c

1F (c,8) = (8 )n,m F c

m,n '

für x> o.

(10)

(11)

P (x)=l-P (1)n,m,c,b m,n,b,c x

F1

(8,c)=t2 (j6,c).,n n

für x > 0,

Die Dichte und Verteilungsfunktion von X =.1 U und Y =.1 Vergeben sich aus (1):m n

(i) fx(x) = m CPm,im x),

fy(Y) = nCPnc(ny),,

Fx(x) = Pm,im x)

Fy(Y) = P (n y)n,c

für x> 0,

für y> o.

Hieraus erhält man die Dichte und Verteilungsfunktion des Quotienten F=X/Y

(vgl. z.B. Skript zur Stochastik 6.3)00

(ii) für x> 0

(iii) P (x)m,n,b,c

x 00

J J v-fjvw) -fy(v) dv dwo 0

1"''[/ fxCv w) v dW] fy(v) dv00

J Fjvx) -fy(v) dvo

für x> 0

Mit (i) ergeben sich (7) und (8) aus (ii) und (iii). (9) ergibt sich aus (4). (10) folgt aus

(9), da g(x) = I/x eine streng fallende Funktion in x> 0 ist. Und (11) ergibt sich durch

quadrieren aus 2.2 (4). D

Beweise von:

8.7.10 B V 3-5

(12) p s: (x) istm,n,u,c

• streng wachsend in

• streng wachsend in

• streng fallend in

xE (0,00),

c>O für x> 0,

8 >0 für x> o.

Nach Definition der F (8,c)-Verteilung gilt für x> 0 folgende Darstellungm,n

p s: (x) = P{F (8,c) < x} = P{U < Vx},m,n,u,c m,n

wobei U, V stochastisch unabhängige Zufallsvariable sind cL'( U)

cL'( ~ V) = X~(c). Mit der Dichte f von Vergibt sich00

p (x) = J f(v) . P{U<vx}· dvm,n,b,c o

00 2J f(v) . P{Xm(8) < vx} . dv.o

X2 (8) undm

Für v> 0 ist f(v) > 0 nach 1.2 (13) und somit ist auch der Integrand> 0 . Nach 1.2

(16) ist der Integrand f( v) .P{X2 (8) < vx} und damit auch das Integral P s: (x)m m,n,u,c

streng wachsend in x> 0 und streng fallend in 8.

Die Monotonie von P s: (x) bzgl. c folgt mit (10) aus der eben gezeigten Monoto-m,n,u,c

nie bzgl. 8. D

Beweise zu: F-Verteilung 8.7.10 B V 3-6

Beweis von:

(13) P (~)m,n,8,e m

ist für x> 0 streng monoton fallend in mE W.

Für 1< k < m und x> 0 ist zu zeigen

(i) P (~)<P (~).m,n,8,e m k,n,8,e k

Seien U, V, W stochastisch unabhängige Zufallsvariable mit folgenden Verteilungen

(ii) cL'( U) = X~(8), cL'(V) = X~-k' cL'(W) = x~(c)/n.

Wir setzen

(iii) X Ulk mit cL'(X) = Fk 8 'W ,n, ,e

(iv) Y (U+V)/mmit cL'(Y) =F 8.W m,n, ,e

Dann gilt

P (~)k,n,8,e k

(v)

(vi)

P{kX <x}

P{U*<x}

P s: (~) = P{mY<x}m,n,u,e m

mit U*:= U/W,

= P{U*+ V*<x} mit V*:=V/W.

Die Zufallsvariable U* hat auf (0,00) eine Dichte f> 0 mit

nach (v),

und somit gilt

für O<u<x,P (_X) < 1m-knOe m-k, , ,

(vii)x

P{U* + V* < x} = f f( u) .P{V* < x- u} du.o

Wegen cL'(V*/(m-k)) = F -k 0 giltm ,n"e

(viii) P{V* < x- u} < P{V* < x}

und somit folgt aus (vii) weiterx

P{U*+V*<x} < P{V*<x} ff(u)du = P{V*<x}P{U*<x} < P{U*<x}.o

Zusammen mit (v), (vi) und (viii) ergibt sich jetzt (i) aus

(ix) Pm,n,8,e ( ~) < Pm-k,n,o,e(m~k) . Pk,n,8,e ( :) < Pk,n,8,e ( : ) . D

G Die Gamma-Verteilung

Gerhard Osius

1. Definition

2. Momente und Kumulanten

3. Weitere Eigenschaften

4. Zusammenhang mit der Chiquadrat-Verteilung

5. Spezialfall: Exponentialverteilung

6. Gamma-Verteilungen mit Shift

7. Elementare Eigenschaften der Gamma-Funktion

G. Osius: Die Gamma-Verteilung 22.12.05 G-2

1. Definition

Die Gamma-Verteilung Gam( a,ß) mit den Parametern aß> 0 ist auf den Bereich

(0,00) C IR konzentriert, und besitzt dort die Dichte (vgl. Abb. 1)

(1) j(xla,ß) = r(Q)·ß-QxQ-1exp(-~) fürx>O.

Hierbei ist r die Eulersche Gamma-Funktion (vgl. Abb. 2 und Abschnitt 7)

00

(2) r(a) = jtQ

- 1 e- t dt.o

Durch Substitution t = ~ ergibt sich die fundamentale Dichte-Eigenschaft

00

j j(xla,ß) dx = 1.o

Der Parameter ß ist lediglich ein Skalierungsjaktor) weil

(3) Gam( aß) = ß· Gam( a,l)

cL'(X) = Gam( a,l) =*

bzw.

cL'(ß ·X) = Gam( aß)

und allgemeiner

(4) c· Gam( aß) Gam( a,cß) für c>O .

r In r12

100000

1010000

8

1000

6

1004

10 2

0

2ß 3ß 4ß 5ß 0 1 2 3 4 5 6 7 8 9 10

Die Dichte j(-I a,ß) von Gam(a,ß) für einige a. Man beachte, daßdie Darstellung (wegen der Achsenskalierung) für jedes ß gilt.Die Eulersche Gamma-Funktion r (linke Skala) bzw. die LogGamma-Funktion ln r (rechte Skala).

0,5

1/ß

o+-."'T""""T"""'T""""T"".,......,.,......,T"""T"".;::;:::;:::r=~?:F~~~

o ß

Abb. 1 (links):

Abb. 2 (rechts):

Für ß= 1 ergibt sich die Standard-Gamma-Verteilung Gam ( a) := Gam (a, 1) mit der

Dichte

(5) ( ) ( I) 1 a-1-zfa Z = f z a,l = r(a) . z e für z>O .

Der Parameter a bestimmt die Form der Dichte (vgl. Abb. 1) und wird deshalb als

Formparameter bezeichnet. Wegen

(6) f~ (z) = fa(z) . [(a-l) z-1_ 1] für z> 0

beschreibt die Dichte fa. für a < 1 eine streng fallende Kurve und für a> 1 eine

schiefe Glockenkurve mit einem Maximum in z = a-l. Die allgemeine Dichtemax

(7) f( x Iaß)

für x>O

ist von derselben Form wie f und hat für a> 1 ihre Maximalstelle ma

x = ß(a-l), vgl. Abb. 1.max

Unter Verwendung der unvollständigen Gammafunktion

(8)z

rz(a) = fta-1e-tdto

für z> 0

mit r( a) = r oo(a) läßt sich die Verteilungsfunktion Fa der Standard-Gammaver

teilung Gam ( a) schreiben alsz

(9) Fa (z) = f fa (u) du = r(a) . r z(a) .o

Und die Verteilungsfunktion der allgemeinen Gammaverteilung Gam ( a, ß) ergibt

sich zu

(10)x

F(xla,ß) = ff(ulaß)duo

G. Osius: Die Gamma-Verteilung

2. Momente und Kumulanten

22.12.05 G-4

Ist Zeine Zufallsvariable mit Standard-Gammaverteilung Gam(a), so ist die Mo

ment-erzeugende Funktion MZ von Z im Intervall (-00,1) endlich und dort gegeben

durch

(1) für t< 1.

Aus der Kumulanten-erzeugenden Funktion

(2) KZ(t) = -a 10g(1-t) für t<l

und ihren Ableitungen für rE W

(3) für t< 1

ergeben sich die Kumulanten von Z zu

und speziell

(5) E(Z) = a , Yar(Z) = a.

Für X = ßZ mit Gam(a,ß)-Yerteilung erhält man dann

0-2

:= Yar(X) = aß2 .

(6)

(7)

(8)

(9)

(10)

Mx( t) = MZ(ßt) = (l-ßt)-ex

KX(t) = KZ(ßt) = -alog(l-ßt)

DTKX(t) = (r-1)! a (ß-1- t)-T

K, (X) = ßT K, (Z) (r-1)! aßT,r r

tt := E(X) = aß ,

für t<ß-1 ,

für t<ß-1 ,

für t<ß-1 ,

Die Parameter a,ß lassen sich daher aus tt, 0-2 bestimmen zu

(11 ) 2/ 2a = tt 0-,

G. Osius: Die Gamma-Verteilung

3. Weitere Eigenschaften

22.12.05 G-5

Die Faltung von Gammaverteilungen mit gleichem Skalenparameter ist wieder eine

Gamma-Verteilung

(1)* Für stochastisch unabhängige Zufallsvariablen Xl und X2

gilt

cL'(X1

) = Gam (a1,ß), cL'(X

2) = Gam( a

2,ß) =*

cL'(X1+X

2)= Gam([a

1+ a

2],ß)

Für a ---+ 00 konvergiert die standardisierte Gamma-Verteilung gegen die Standard

Normalverteilung

(2)Gam( a,ß) - aß

ß~_cL'_---+) N ( 0,1) für a ---+ 00 .

4. Zusammenhang mit der Chiquadrat-Verteilung

Die zentrale X2-Verteilung mit Freiheitsgrad vE W ist eine Gamma-Verteilungv

(1) x2 = Gam( a,2)v

mit a = v/2.

Allgemein bezeichnet man jede Gam( a,2)-Verteilung, auch bei nicht-notwendig

ganzzahligem Freiheitsgrad v = 2a, als eine X2-Verteilung, d.h. man definiert diev

Verteilung X2 für beliebiges v>O durch (1). In diesem Sinn ist jede Gamma-Verteiv

lung eine umskalalierte X2-Verteilung

(2) ß 2Gam(a,ß) = 2· X2a .


5. Spezialfall: Exponentialverteilung

Für a = 1 ist Gam (1,ß) eine Exponentialverteilung Expo (,u) mit Erwartungswert

,u = ß· Die Dichte vereinfacht sich dann zu (man beachte r (1) = 1):

(1) für x>O,

und die Verteilungsfunktion ergibt sich hieraus zu

(2) für x>O.

Der reziproke Erwartungswert A :=,u-1 wird auch als Hazard bezeichnet.

6. Gamma-Verteilungen mit Shift

Ist X Gam(a,ß)-verteilt und 'Y E IR, so heißt die auf den Bereich b, (0) C IR konzen

trierte Verteilung von Y = X + 'Y eine Gamma-Verteilung mit Shift 'Y, die wir hier wie

folgt bezeichnen wollen

(1) Gam(a,ß,'Y) := Gam(a,ß) + ')'.

Diese Verteilung ist durch Erwartungswert, Varianz und Schiefe (standardisierte 3.

Kumlante) eindeutig bestimmt

(2) ,u = E(Y) aß + 'Y ,

(3) 0-2 = Var(Y) 2aß ,

(4) K;iY )3 bzw.K; = 2aß,3

(5) fl = fliY ) K;3(Y) . Var(Yf3/2 = 2/ JCx (Schiefe).3

Sind Erwartungswert ,u, Varianz 0-2 und Schiefe fl3 vorgegeben, so ergeben sich die

Parameter a, ß und 'Y wie folgt

(6)

Für vorgegebene Schiefe fl3

ergeben sich insbesondere die Parameter der zugehörigen

standardisierten Gamma-Verteilung Gam(a ,ß ,'Y) mit Erwartungswert ,u = 0 unds s s s

Varianz 0-2 = 1 zus

(7) ßs = ~ fl 3 = 2/ JCxs' 'Y = - 2/fl = - JCx .s 3 s


Die Familie der Gamma-Verteilungen mit Shift ist abgeschlossen gegenüber

streng-monotonen linearen Transformation F(y) = c y +d mit c> 0, genauer gilt

(8) c·Gam(a,ßty) +d = Gam(a,(cß),(cyr+d)) für c> 0, d E IR.

Insbesondere läßt sich jede Verteilung Gam(a,ß,yr) aus der zugehörigen standardi

sierten Gamma-Verteilung gleicher Schiefe durch Anwendung der Transformation

F(y) = a y + !-L gewinnen.

7. Elementare Eigenschaften der Gamma-Funktion

Wir stellen jetzt noch einige Eigenschaften Gamma-Funktion

(1)00

r(x) = J t x - 1 e- t dto

für x> 0

zusammen. Zunächst ergibt sich durch partielle Integration die Rekursionsformel

(2) r(x+1) = x· r(x) für x> o.

Zusammen mit

(3) T(l) = 1

erhält man die Darstellung von Fakultäten

(4) n! = r(n+1)

und folglich "interpoliert" die Gammafunktion die Fakultäten. Aus der (nicht ganz

elementar herleitbaren) Beziehung

(5) r(~) = V;

lassen sich mit der Rekursionsformel die Werte rG) für alle ungeraden nE W be

stimmen (für gerades n ergibt sich mit (4) die Fakultät ~ !).

W Die W eibull-Verteilung

Gerhard Osius

1. Definition

2. Anwendung und Eigenschaften

3. Momente

B. Beweise

G. Osius: Die Weibull-Verteilung 22.12.05 W-2

1. Definition

Die Weibull-Verteilung W(aß) mit Parametern aß> 0 ist definiert als

(1) W(aß) := a .Expo(l) 1/ß

d.h. eine reelle Zufallsvariable X hat genau dann eine Weibullverteilung W(aß),

wenn die transformierte Zufallsvariable (~)ß eine Exponential-Verteilung Expo(l)

mit Erwartungswert 1 besitzt

(2) X ~ W(aß) (~)ß ~ Expo(l).

Die Verteilung W(aß) ist auf den Träger (0,00) konzentriert und besitzt dort die

Verteilungsfunktion

(3) F(x 1 a,ß) = 1- exp{-(~l} für x>O,

und die Lebesgue-Dichte

(4) für x>O.

Der Parameter ß bestimmt die Form der Dichte (vgl. Abb. 1), während a nur ein

Skalierungsparameter ist.

3a2aa

Hazard

o+-.,.....,----.---.--.--..,......,;--r----.---.--....---,---,----,---,o

1 / a +---\---,-/--------------

2/a

3a2a

Dichte

a

0.5

o+-.,.....,----.---.--.--..,......,;--r----.---.--....---,---,----,-C::::;o

1/a

Abb. 1: Die Dichte 1(-1 aß) und der Hazard ,\(-1 aß) von W(aß) für ß = 0.5, 1, 1.5.Man beachte, daß die Graphik so skaliert ist, daß sie für jedes a gilt.

G. Osius: Die Weibull-Verteilung


Wegen des Zusammenhangs

22.12.05 W-3

(1) x ~ W(a,ß)

ist die Weibull-Verteilung eine Verallgemeinerung der Exponential-Verteilung und

wird daher auch als Modell für die Verteilung einer Wartezeit (z.B. eine Lebensdauer)

eingesetzt. Die Verallgemeinerung liegt darin, daß sich erst nach Anwendung der

streng monotonen Zeittransformation g(t) = tß eine Exponentialverteilung ergibt.

Aus der für eine exponential-verteilte Wartezeit Y charakteristische "Gedächtnislo

sigkeit" (bzw. "kein Altern" bei einer Lebensdauer)

(2) P{Y>t+s I Y>t} = P{Y>s} für s, t> 0

ergibt daher bei einer W(a,ß)-verteilten Zufallsvariablen X

(3) ß<l ::::} P{X>t+s I X>t} > P{Y>s} für s, t> 0,

(4) ß=l ::::} P{X>t+s I X>t} P{Y>s} für s, t> 0,

(5) ß>l ::::} P{X>t+s I X>t} < P{Y>s} für s, t> O.

Wenn X eine Lebensdauer ist, so beschreibt die Folgerung in (3) bzw. (5) einen ,,Al

terungsprozeß" und zwar ,,(positives) Altern" für ß> 1 und "negatives Altern" für ß< 1.

Eine präzisere Quantifizierung ergibt sich mit der sogenannten Hazard-Funktion

).. = f /(l-F) von X bzw. W(a,ß)

(6) )..(tl a,ß) := lim P { t :S X < t +s IX ~ t}8---+0 S

= ßa-1(~l-1

f(t Ia,ß)

1-F(t Ia,ß)

für t>O.

Bei einer Wartezeit X (z.B. einer Lebenszeit) ist der Hazard )..(t Iaß) die "spontane

Rate" dafür, daß das Zielereignis (z.B. das Lebensende) zum Zeitpunkt t eintritt. Für

ß< 1 ist der Hazard )..(tl a,ß) streng fallend in t, aber für ß> 1 ist er streng wachsend

in t. Und für ß=l (also für die Exponential-Verteilung) ist )..(tla,ß)=a-1konstant

bzgl. t (vgl. Abb. 1).

G. Osius: Die Weibull-Verteilung

3. Momente

Für X'""-' W(aß) ergibt sich das r-te Moment zu

22.12.05 W-4

(1) für r> o.

Und es folgt

(2)

(3)

(4)

p, = E(X)

0-2 = Var(X)

P,3 = E([X - p,] 3)

a.r(l+~)

2 ( 2) 2a .r1+ß -p,

a 3 . r(l +~) - p, (30-2+ p,2)

Beweise zu: Die Weibull-Verteilung

Beweise zu:W Die Weibull-Verteilung

1. Definition

Beweise zu:

22.12.05 WB-1

(1)

(3)

(4)

W(aß) := a .Expo(l) 1/ß

F(x Ia,ß) = 1- exp{_(~ )ß}

f(x Ia,ß) = ß a-1 (~l-1 exp{-(~l}

für x>O,

für x>O.

Transformiert man Y '" Expo(l) mit g(y) = a ·llß, so ist X = g(Y)'" W(aß). Aus

der Verteilungsfunktion F y und Dichte f y von Y

und

F/y) = 1- exp(-y) ,

g-1(x) = (~)ß ,

'( ) ß-1 (1/ß)-1gy=a·y ,

f/Y) = exp(-y), y>O

x>O

ergeben sich die Verteilungsfunktion Fx und Dichte fx von X = g(Y) zu

F)x) = Fy(g- \ x)) = 1 - exp {- (~ l}f (x) = fy(g-\x)) = ßa-1(~)ß-1exp{_(~)ß}x g'(g-1(x)) CA CA

x>O. D

Beweise zu: Die Weibull-Verteilung


Beweise zu:

22.12.05 WB-2

(3) ß<l ::::} P{X>t+s I X>t} > P{Y>s} für s, t> 0,

(4) ß=l ::::} P{X>t+s I X>t} = P{Y>s} für s, t> 0,

(5) ß>l ::::} P{X>t+s I X>t} < P{Y>s} für s, t> O.

Nach (1) und (2) gilt für s, t> 0

(i)

P{Xß > tß+ i I Xß > tß} = P{Xß > i}

P{X > (tß+i)1/ß IX > t} = P{X > s} .

bzw.

Wie wir gleich noch zeigen werden gilt

(ii)

(iii)

ß<l

ß>l

(tß+i)1/ß> t + s

(tß+i)1/ß< t + s

für s, t> 0,

für s, t> O.

Für x> t ist P{X > x I X > t} = P{X > x} / P{X > t}

streng fallend in x (da die Dichte von X positiv ist). Somit folgt für ß < 1 aus (i), (ii)

P{X > s} = P{X > (tß+i)1/ß IX > t} < P{X > t +s IX > t},

d.h. (3) gilt. Für ß > 1 ergibt sich (5) analog aus

P{X > s} = P{X > (tß+i)1/ß IX > t} > P{X > t +s IX > t}.

Und (4) ist klar, weil dann X '" Expo(a-1) nach (1) gilt.

ad (ii): O.B.d.A sei s<t. Für die Funktion h:(o,oo)-----t(O,oo) mit h(x) =Xß ist

(iv)

(v)

h'(x) = ßxß-1 ,

h"(x) = ß(ß-1) xß-2 < 0 für ß< 1.

Also ist h' streng Jallend. Nach dem Mittelwertsatz gibt es x mit s< t < x< t + sund

(vi) h(t+s)-h(t) = h'(x)·s < h'(s)·s = ß·i < i = h(s)

Also h(t + s) < h(t) + h(s) d.h. (ii) gilt.

Beweise zu: Die Weibull-Verteilung 22.12.05 WB-3

ad (iii): Wir geben zwei Beweise. Anwenden von (ii) auf l/ß< 1 liefert sofort

bzw.

Alternativ ist h' für ß> 1 streng wachsend und für s< t folgt analog (vi)

h(t + s) - h(t) = h'(x)· s > h'(s)· s = ß· i > i = h(s) ,

also h(t + s) > h(t) + h(s) d.h. (iii) gilt. D

3. Momente

Beweis von:

(1) E(XT) = ot· r(l +~) für r> o.

O.B.d.A. sei X = a y 1/ß mit Y rv Expo(l), also XT = a TyS mit s = ~ und somit

00

E(XT) = a T E(Y) = a T J yS. e-Y dy = a T

. r(l + s) . Do

M Die Multinomialverteilung

Gerhard Osius

1. Definition

2. Auftreten

3. Randverteilungen, Erwartungswert, Covarianz

4. Erzeugende Funktionen

5. Multinomial-Grenzwertsatz

6. Darstellung als bedingte Poisson-Verteilung

G. Osius: Die Multinomial-Verteilung

1. Definition

3.6.10 M-2

Die Multinomial-Verteilung MK(N,p) mit K Klassen (wobei KE W, K> 1) vom Umfang

NE W und dem K-dimensionalen Wahrscheinlichkeitsvektor pE (0, l)K, d.h. p+= 1, ist

eine K-dimensionale diskrete Verteilung auf dem (von p unabhängigen) Träger

(1) TN = {XEW~ I x+=N}

und der Zähldichte

(2)K 1 x

N! TI -,.p kk=1 xk· k

Speziell für N = 1 besteht der Träger Tl genau aus den K Einheitsvektoren

(3)

(4)

Tl = { e l , ..., eK }

ek

= (ekl

) E IRK mit

wobei

ekl

= 6kl

für alle k, l

( 6 = Kronecker-Symbol)

und die Zähldichte vereinfacht sich zu

(5) für alle k = 1, ..., K.

Unter Verwendung der MK

(l,p)-Verteilung vom Umfang 1 läßt sich die Verteilung

MK(N, p) für beliebiges N> 1 auch rekursiv über den Umfang N definieren als Fal

tung von MK(N-l,p) und MK(l,p), d.h. es gilt

(6) MK(N,p) = MK(N-l,p) *MK(l,p),

wobei * den Faltungs-Operator bezeichnet.

Insbesondere ist MK(N,p) die N-fache Faltung von MK(l,p).


2. Auftreten

3.6.10 M-3

Bei einem Zufallsexperiment betrachten wir eine Zerlegung des Ergebnisraumes .ain K disjunkte Ereignisse Al' ... , AK

K(1) .a = UAk ,

k=lmit positiven Wahrscheinlichkeiten

Für N unabhängige Wiederholungen des Zufallsexperiments bezeichne X k die An

zahl der Wiederholungen, bei denen das Ereignis Ak

eingetreten ist. Dann bilden

diese Anzahlen einen K-dimensionalen Zufallsvektor X = (Xl'" ..,xK) mit einer Mul

tinomial-Verteilung

und dem Wahrscheinlichkeitsvektor P = (pl' ..., P

K)·

3. Randverteilungen, Erwartungswert, Covarianz

Die Eigenschaften der Multinomialverteilung formulieren wir unter Verwendung

von Zufallsvariablen, d.h. wir betrachten einen K-dimensionalen Zufallsvektor

X = (Xl,···,xK) mit der Multinomial-Verteilung

Die Randverteilung einer Komponente von X ist binomial-verteilt

(2) für jedes k.

Speziell für K = 2 ist X 2 = N - Xl (P-fast-sicher) und somit ist X bereits durch seine

erste (binomialverteilte) Komponente Xl eindeutig bestimmt. In diesem Sinn ent

spricht eine Multinomialverteilung mit K = 2 Klassen stets einer Binomialvertei

lung.

Der Erwartungsvektor und die KxK Covarianzmatrix von X lauten

G. Osius: Die Multinomial-Verteilung 3.6.10 M-4

(3)

(4)

Jl:= E (X)p

Ep(Xk)

E:= Cov (X)p

Covp(Xk,Xz)

Covp(Xk,Xk)

Np

NPk'

N (Diag{p} _ p pT)

bzw.

bzw.

für k;= l

Insbesondere sind Xl' ..., XK nicht stochastisch unabhängig, es besteht sogarein line

arer funktionaler Zusammenhang

(5) Xt:=Xl+···+XK=N (P-fast sicher).

Zur weiteren Untersuchung der Covarianzmatrix wollen wir diese zuerst anders

darstellen. Bezeichnet

den Diagonalraum (der aus allen konstanten Vektoren besteht) und

(7) D = Diag {Jl} = N· Diag {p}

die Diagonalmatrix des Erwartungsvektors, so läßt sich die Covarianzmatrix unter

Verwendung der D-orthogonalen Projektion p~ schreiben als

(8) E = D . (llK - p~)

-D·pD- -65 mit

Hieraus ergibt sich insbesondere der Rang der Covarianzmatrix zu

(9) Rang E= K -1,

was im Hinblick auf (5) nicht überrascht.

Der Spaltenraum von E ist das (übliche) orthogonale Komplement von qz;

Eine (symmetrische) generalisierte Inverse von E ist gegeben durch

(11)

und die Moore-Penrose-Inverse von E lautet (nach Tanabe und Sagae, 1. Royal Stati

stical Society Bi 54, 1992, p. 211-219)


(12)

wobei

(13)

4. Erzeugende Funktionen

Für einen Zufallsvektor X = (Xl'" ..,xK) mit Multinomial-Verteilung MK(N, p) ist die

charakteristische Funktion CPx gegeben durch

Analog ist die Moment-erzeugende Funktion MX von X gegeben durch

(2)

und hieraus ergibt sich die Kumulanten-erzeugende Funktion KX von X zu

(3) = N . log (pTexp(t))

Die Ableitungen der Kumulant-erzeugenden Funktion lauten

(4)

(5)

DKX(t)

V KX(t)

D2KX(t)

N ( pTexp {t })-1 . pT. Diag {exp (t)} bzw.

N (pTexp{ t} )-1. Diag {p} . exp(t) für tE IRK,

N (pTexp{ t} )-1. Diag {p} . Diag {exp(t)} -

N (pTexp{ t}r 2. pT. Dial {exp(t)} . p für tE IRK.

Und für t = 0 ergeben sich der Erwartungswert und die Covarianzmatix von X (in

Übereinstimmung mit 3 (3-4):

(6)

(7)

Ep(X)

Cov (X)p

VKX(O) = Np,

D2KX (0) = N (Diag{p} _ p pT) .


5. Multinomial-Grenzwertsatz

3.6.10 M-6

Für eine Folge X = (X 1'···,x K) von Zufallsvektoren mitn n n

(1) cL'(X ) = MK(N ,p )n n n

gelte für n ---+ 00

(2)

(3)

N -------+ 00n

(wachsende Umfänge)

Dann ist X asymptotisch (multivariat) normalverteilt, genauer gilt der Multinon

mial-Grenzwertsatz

(4)

(5) E = Diag{p } _ p pT.00 00 00 00

mit

Hierbei ist E nach 3 die Covarianz-Matrix der Multinomialverteilung MK

(l, p )00 00

und läßt sich daher auch darstellen als

(6)

(7)

E = D . (11 _ pDoo )00 00 K !Jl)

D = Diag{p }.00 00

mit

Die Verteilungskonvergenz (3) läßt sich noch wesentlich verschärfen. Es konvergie

ren sogar die zugehörigen Moment-erzeugenden Funktionen MV von U punkt-n n

weise gegen die Moment-erzeugende Funktion MVvon U

(8) für alle t E IRK.


6. Darstellung als bedingte Poisson-Verteilung

Die Multinomialverteilungen läßt sich auch als bedingte Poisson-Verteilungen wie

folgt darstellen. Genauer gilt für einen Zufallsvektor X = (Xl'" ..,xK)

(1) Sind Xl' ..., XK stochastisch unabhängig und Poisson-verteilt, d.h.

cL'(X) = Pois(J-L) mit

so ist für jedes NE W die auf X+= N bedingte Verteilung von X eine

Multinomialverteilung

1 KcL'(X IX+=N) = MK(N, p) mit p = -J-L E (0,1) .

11+Damit läßt sich jede Multinomialverteilung MK(N, p) als bedingte Poisson-Vertei-

lung darstellen - indem man (1) auf J-L = N panwendet - und dies ermöglicht es, Re

sultate über Multinomialverteilungen zu zeigen, indem man die Resultate für die zu

gehörigen bedingten Poissonverteilungen zeigt.

Umgekehrt kann man aus einer Multinomialverteilung MK(N, p) auch wieder unab

hängige Poissonverteilungen erhalten, indem man den Umfang N = X+gemäß einer

Poissonverteilungen variieren läßt. Genauer gilt für den Zufallsvektor X folgende

"Umkehrung" von (1)

(2) Ist für jedes NE W die auf X+= N bedingte Verteilung von X eine Multi

nomialverteilung, d.h.

cL'(X IX+=N) = MK(N, p)

wobei p E (O,l)K nicht von N abhängt, und ist zusätzlich die Summe X+Poissonverteilt, d.h.

cL'(X+) = Pois(A) mit AE(O,oo),

so sind Xl' ..., XK stochastisch unabhängig und Poisson-verteilt, d.h.


Beweise: Die Multinomial-Verteilung 3.6.10 MB-1

Beweise zu3. Randverteilungen, Erwartungswert, Covarianz

Beweis von

(2) für jedes k.

Der Beweis erfolgt durch Induktion über N. Für N = 1 folgt die Behauptung wegen

Xk

E{O, I} aus

P{Xk=l} = P{X=ek} = Pk·

Der Induktionsschritt N f-----t N +1 ergibt sich aus den Faltungseigenschaften

(i)

(ii)

MK(N + 1,p) = MK(N,p) * MK(l,p),

B(N + 1,p) = B(N,p) * B(l,p). D

Beweis von

(3)

(4)

Jl := E (X) = Npp

Ep(Xk) = N Pk '

E:= COV (X) = N (Diag(p) _ p pT)P

Covp(Xk,XZ) = -NpkPZ

Covp(Xk,Xk) = N Pk (1- Pk) )

bzw.

bzw.

für k;= l

6 = Kronecker-Symbol

vgl. (2)

E(Xk .XZ) - E(Xk ) . E(XZ)

6k Z· E(Xk .Xk) - E(Xk ) . E(XZ)'

6k Z· E(Xk ) - E(Xk ) . E(XZ)

Der Beweis erfolgt durch Induktion über N. Für N = 1 folgt die Behauptung wegen

Xk ,XZ E {O, I} aus

(i) E(Xk) = Pk'

(ii) Cov(Xk,XZ)

vgl. (i)

Der Induktionsschritt N f-----t N +1 ergibt sich aus der Faltungseigenschaft

Beweise: Die Multinomial-Verteilung

und den Rechenregeln

3.6.10 MB-2

(iv)

(v)

E(X+ Y)

Cov(X+ Y)

E(X) + E(Y)

Cov(X) + Cov(Y) + 2 Cov(X, Y)

Cov(X) + Cov(Y) falls X, Y st. unabhängig. D

Beweis von

(8) E = D . (llK - P~).

Wegen E = N (Diag{p} _ p pT)

D -1 T= -f-L+f-Lf-L 1

ist daher zu zeigen

vgl. (4)

da N = f-L+

(i)

Nun ist

-1 Tf-L+ f-L f-L

e+(e~D e+r1e~D, vgl. Exkurs SP 3 (3)

e+(f-L+r1e~D

-1 TD0+ e+e+

und somit bleibt für (i) noch zu zeigen

(ii)

und dies folgt sofort aus D e+= f-L. D

Beweise: Die Multinornial-Verteilung

Beweis von

(9) Rang E= K -1,

3.6.10 MB-3

vgl. (8)

(10)

Es ist

(i)

Also ist

E -D·pD- -65

DRang E = Rang P-65 = Dirn ß = K - Dirn qz; = K - 1,

d.h. (9) gilt.

Aus ß = D-1 [qz;1-] vgl.Exkurs SP 2 (10)

folgt Bild E = D [ Bild P1] vgl. (i)

D[ß]

D [D-1[qz;~]J

d.h. (10) gilt.

Beweis von

D

(11)

Die Behauptung folgt aus

E·D-1 ·E D. pD. D-1 . D. pD-65 -65

D·pD.pD-65 -65

D·pD = E.-65

vgl. (8)

D


Beweis von

3.6.10 MB-4

(12)

Für

(0)

(i)

E - D·pD- -65

E+= P~...L.D-1.p~...L

ß= ~J-D=D-1[~-l]

mit

vgl. Exkurs SP 2 (10)

ist (nach Definition der Moore-Penrose-Inversen, vgl. Exkurs GI) zu zeigen

(ii) ~·E ist symmetrisch

(iii) E·~ ist symmetrisch

(iv) E·~·E =E ,

(v) ~·E·~=~.

Der folgende Beweis verwendet nicht die spezielle Struktur von D und ~ sondern

gilt für jede positiv-definite Matrix D und jeden Teilraum ~, wenn E und E+

durch (0) definiert sind.

ad (ii):

(vi) P~...L.D-1.p~...L.E

P ·D-1 ·E~...L

DP~...L . P-65

(11- P~ )(11- P~)

D DIr - P~- P~ + P~P~

D D11 - P~ - P~ + P~

Ir - P~

da Bild(E) = D [ß] = ~-l


da Bild(P~)= ~

also gilt (ii).


ad (iii): Zunächst ergibt sich - analog (vi) -

3.6.10 MB-5

(vii) (11- P~)(l1- Pq;)

D DII - Pq; - Pq; + Pq; Pq;

D11- Pq; - Pq; + Pq;

II- pDq;


und hiermit folgt

(vi) D· pJ. Pq;-L' D-1. Pq;-L

D·pD·D-1·P-65 q;-L

D· D-1. Pq;-L da Bild(D-1 . Pq;-L) = -0' nach (i)

also gilt (iii).

ad (iv): E ·E+·E

E

vgl. (vi)

da Bild(E) = D [-0'] = q;-l

ad (v): E+ .E· E+ = E+· Pq;-L vgl. (vi)

Pq;-L . D-1. Pq;-L . Pq;-L

Pq;-L . D-1. Pq;-L

17+.

Beweis von

D

(13)

Wegen q; = span{e+} ergibt sich mit Exkurs SP 2 (3)

P e (e Te )-leT b .q; = + + + + wo el

Te+e+=K. D


Beweise zu4. Erzeugende Funktionen

3.6.10 MB-6

Beweise von

K(1) 'PX (t) E(exp (i .tTX)) [ 2:= Pk exp (i tk) ]N

k=l

( pTexp (i t) )N

K(2) Mx(t) E(exp (tTX)) [ 2:= Pk exp (tk) ]N

k=l

(pTexp (t))N

(3) Kx(t) = logMx(t) = N . log (pTexp(t))

für tEIRK,

für tEIRK.

Da MK(N,p) die N-fache Faltung von MK(l,p) ist, genügt es, die Behauptungen für

N = 1 zu zeigen. Für N = 1 gilt (1) wegen

K'Px(t) = E(exp(i.tTX)) 2:= Pkexp{itTek}

k=lK

= 2:= Pk exp { i tk}k=l

(2) folgt analog (ohne "i") für N = 1, und (3) ergibt sich aus (2). D


Beweise von

3.6.10 MB-7

(4)

(5)

DKX(t)

\7KX(t)

D2KX (t)

N (pTexp{ t} )-1. pT. Diag {exp(t)} bzw.

N ( pTexp {t })-1 . Diag {p} . exp (t)

N ( pTexp {t })-1 . Diag {p} . Diag {exp (t)}

N (pTexp{ t} )-2. pT. Diag2 {exp(t)} . p

Die erste Gleichung in (4) ergibt sich durch Differenzieren von (3), und die zweite

Gleichung ergibt sich mit der Identität

(i) für a, bE IRK.

Erneutes Differenzieren liefert

(ii) D2KX (t) = D \7 KX(t)

= N ( pTexp {t}r 1 . Diag {p} . Diag {exp (t)} -

N (pTexp{ t}r 2 . pT. Diag {exp(t)} . Diag {p} . exp(t)

und hireraus ergibt sich (5) mit

Diag{p}· exp(t) = Diag{exp(t)}· p, vgl. (i). D


Beweise zu5. M ultinomial-Grenzwertsatz

Beweise von

3.6.10 MB-8

(4) U n := ~ ( ; X n - Pn) L) NK(O, 17cx:J =:Un

mit

(5)

(8)

17 = Diag{p } _ pT p .00 00 00 00

MU (t) ) Mu(t) = exp { ~ tT1700

t}n

für alle t E IRK.

Da die Verteilungskonvergenz (4) mit dem Stetigkeitssatz für Moment-erzeugende

Funktionen (vgl. Exkurs KV 8) aus (8) folgt, genügt es (8) zu zeigen bzw.

(i) KU (t) = log MU (t)n n

für alle t E IRK.

Bezeichnet K(-I p) die Kumulanten-erzeugende Funktion von MK(l, p), d.h.

(ii) K(tlp) = 10g(pTexp(t)) für alle tEIRK,

so läßt sich die Kumulanten-erzeugende Fubktion von

(iii)

wie folgt darstellen

(iv) KU (t) = KX

(~1/2 t) - ~ .p! tn n

= Nn · K(~1/2t IPn) - ~ .p! t

vgl. Exkurs CV 4

vgl. 4 (3)

Nach der Taylor-Formel (vgl. z.B. Dieudonne, 1960, 8.14.3) gilt dann die Entwik

klung 2. Ordnung von K(s Ip) im Punkt 0:

(v) K(s Ip) = K(0 Ip) + D K(0 Ip) . s + ~ sT . D2K(0 Ip) . s + R(s Ip)

mit dem Restglied1

(vi) R(slp) = (J~(1-T)2.D3K(Tslp)dT).(s,s,s).o

Wegen K(O Ip) = 0

DK(Olp) = pT

D2K(O Ip) = Diag{p} _ p pT

vgl. 4 (6)

vgl. 4 (7)

reduziert (v) zu

3.6.10 MB-9

Zusammen mit (iv) ergibt sich daher

(viii)

Wegen

KU (t) = N . Ki(!V1/2 t Ip ) - ~ .pJ tn n n n n

= N . [!V1/2 pTt + 12

!V1 tT(Diag{p } _ p pT) t+ R(!V1/2 tl p )]n n n n n nn n n

-/ir .pT tn n

= 12 tT(Diag{p }-p pT)t+N .R(!V1/2t l p ).n n n n n n

bleibt für (i) nur noch zu zeigen

(ix) N .R(!V1/2 tl p ) ) °.n n n

Da die Funktion D3K(TS Ip) stetig ist bzgl. TE [0,1] und pE (0, l)K, folgt

(x) C(S) = sup{IID3K(TSlp )IIITE[O,l],nEW} < 00,n

und man erhält die Restglied-Abschätzung

(xi)1

< I(J ~(1-T)2.D3K(T~1/2tIPn) dT )1·11~1/2tI13.o1

< (J ~ IID3K(T~1/2t IPn)11 dT ) .~3/2 ·11 tl1 3 .o

< ~ C(t)· ~3/2 .11 t11 3!

aus der sich (ix) ergibt. D

Beweise: Die Multinomial-Verteilung 3.6.10 MB-lO

Beweise zu6. Darstellung als bedingte Poisson-Verteilung

Beweise von

(1) Sind Xl' ..., XK stochastisch unabhängig und Poisson-verteilt, d.h.


so ist für jedes NE lN" die auf X+= N bedingte Verteilung von X eine

Multinomialverteilung

1 KcL'(X IX+=N) = MK(N, p) mit p = -J-L E (0,1) .

11+(2) Ist für jedes NE lN" die auf X+= N bedingte Verteilung von X eine Multi-

nomialverteilung, d.h.

cL'(X IX+=N) = MK(N, p)

wobei p E (O,l)K nicht von N abhängt, und ist zusätzlich die Summe X+Poissonverteilt, d.h.

cL'(X+) = Pois(A) mit AE(O,oo),

so sind Xl' ..., XK stochastisch unabhängig und Poisson-verteilt, d.h.


Bemerkung: Man kann in (1) und (2) auch NE lN"0 zulassen, wenn man MK(O,p)

als Einpunkt-Verteilung in 0 ETa = {O} interpretiert.

Da die Faltung von Poisson-Verteilungen wieder eine solche ist, ergibt sich aus den

Voraussetzungen in (1) sofort

(i) cL'(X+) = Pois(A) mit AE (0,00),

wobei A= J.L+ ist. Da (i) in (2) sogar vorausgesetzt wird, genügt es für (1) und (2) un

ter der Voraussetzung (i) die Äquivalenz der beiden Aussagen für beliebiges p

E (0, l)K zu zeigen:

(P)

(M)


für jedes NE lN".


Für jedes x E W~ gilt trivialerweise

3.6.10 MB-lI

(ii) P{X=x} = P{X=xIX =x } P{X =x }+ + + +'weil P{X+= x+} > 0 nach (i). Zwischen der Dichte von MK(N, p)

(iii) fJx 1p) = NI. TI p:k/xk! für x = (xF··,xK) E TN"k

und der Dichte von Pois(J-L)

(iv) f ·· 1I..TKur x E lr~o

wobei Pl( -I A) die Dichte von Pois(A) ist. Wir zeigen jetzt (P) {} (M).

ad (P) => (M): Für jedes NE W und xE TN gilt

P{X=xIX+ =x+} = P{X=x}/P{X+ =x+}

= PK(x 1 J-L) / P1(NI A)

= fN(xlp)

Also gilt (M).

ad (M) => (P): Für jedes NE W und xE TN gilt

vgl. (P), (i)

vgl. (v)

(vi) P{X=x} = P{X=xIX+ =X+}. P{X+ =x+},

= fN(xlp)· P1(NIA)

= PK(x 1 J-L)

vgl. (M), (i)

Und für x = 0 gilt

Beweise: Die Multinomial-Verteilung 3.6.10 MB-12

(vii) P{X=O} exp(-A)

TI exp(p,k)k

= PK(O 1 J-L)

Folglich stimmt die Dichte von X mit PK(-I J-L) überein auf

W~ = {O} U U TN' d.h. (P) gilt.NEJN

D

G. Osius: Stetigkeit und Differenzierbarkeit von Parameter-Integralen 12.8.05 1

PI Stetigkeit und Differenzierbarkeit von ParameterIntegralen

(n, d, p,) sei ein Meßraum, I C IRk sei eine offene Menge und j: n x I -----+ IRk sei eine

Funktion, sodaß j (-, t) :n -----+ IRk für jedes tEl meßbar ist.

Stetigkeit des Integrals: Es sei vorausgesetzt

(1) Die Funktion j(w,-) :I -----+ IRn ist für jedes wEn im Punkt to

E I stetig.

(2) Es gibt eine integrierbare Funktion g: n ---+ IR mit

1 j (w, t) 1 < g(w) für alle wEn, tEl.

Dann ist die Funktion j(-, t) :n -----+ IRn für jedes tEl integrierbar und das Integral

(3) P(t) = fj(w,t)dp,(w) für tEl

ist im Punkt to

stetig.

Differenzierbarkeit des Integrals: Es sei vorausgesetzt:

(4) Für jedes wEn existiert die partielle Ableitung

l' (w, t) = gt j (w, t) für jedes tEl

(5) Es gibt eine integrierbare Funktion h: n ---+ IR mit

11' (w, t) 1< h (w) für alle wEn, tEl.

Falls die Funktionj(-,t):n-----+IRn für jedes tElintegrierbar ist, so ist das Integral

(3) auch auf I nach t differenzierbar mit der Ableitung:

(6) P'(t) = f j'(w,t) dp,(w) für tEl.

Wird zusätzlich noch vorausgesetzt

(7) Die Ableitungj'(w,-) :I-----+IRn ist für jedes wEn im Punkt toEI stetig.

so folgt weiter

(8) P' ist im Punkt toEI stetig.

Literatur: P. Billingsley(1979, 1986), Probability and Measure, Theorem 16.8.

G. Osius: Quantile von Verteilungen

Q Quantile von Verteilungen

Gerhard Osius

9.7.10 Q-l

1 Definition und elementare Eigenschaften

1.1 Binomialverteilung

1.2 Poisson-Verteilung

2 Verteilungskonvergenz und Quantile

G. Osius: Quantile von Verteilungen 9.7.10 Q-2

1 Definition und elementare Eigenschaften

X sei eine reelle Zufallsvariable mit Verteilungsfunktion F: IR -----+ [ 0,1]. Für vorge

benes 0< p < 1 heißt ~E IR ein unteres p-Quantil oder oberes (1- p)-Quantil der Vertei

lung cL'(X) bzw. Verteilungsjunktion F, falls gilt

(1)

Hierbei ist

P{ X <~} < P < P{ X < ~} bzw. F(~-) < P< F(~) .

F(~-) = sup {F(x) Ix <~} = P{ X <~}

der linksseitige Limes von F im Punkt ~. Falls F in ~ stetig ist, so ist (1) äquivalent

zu p = F(~).

Ist F stetig und injektiv) so ist das untere p-Quantil eindeutig bestimmt und gegeben

durch F-\p)s.

Für beliebiges F dagegen ist die Menge der p-Quantile ein Intervall, dessen Rand

punkte wir bestimmen. Hierzu betrachten wir die links- bzw. rechts-stetige (Quasi-)

Inverse F-: (0,1) -----+ IR bzw. F :(0,1) -----+ IR von F, die definiert sind durch

(2)

(3)

F-(p) := inf{xEIR Ip::;F(x)}

F_(p) := sup {xE IR IF(x)::;p }

(links-stetige Inverse))

(rechts-stetige Inverse).

Für jesdes xE IR gelten dann die grundlegenden Eigenschaften

(4) F(Fjp)-) < P < F(F-(p)) ,

(5) F-(p) < x {} P ::; F(x) ,

(6) x < F_(p) {} F(x-) < p.

Hieraus erhält man die Darstellungen

(7) F-(p) Min {XEIR Ip ::; F(x)} = Min{ xEIR Ip::; P{X<x}} ,

(8) F_(p) Max{ xEIR IF(x-) ::; p} = Max { x E IR IP{ X < x} ::; p} .

und die folgende Charakterisierung von Quantilen:

(9) ~ ist ein p-Quantil von F

Folglich ist F-(p) das kleinste und Fjp) das größte p-Quantil von F.

G. Osius: Quantile von Verteilungen 9.7.10 Q-3

Ist Y = a+bX mit a, bE IR und b:;= 0 eine (nichttriviale) lineare Transformation von

X, so ergeben sich die Quantile von Y aus denen von X wie folgt:

(10) ~ ist ein p-Quantil von cL'(X)

{(a + b~) ist ein p-Quantil von cL'(a+ bX)

(a + b~) ist ein (1- p)-Quantil von cL'(a+ bX)

falls

fallsb> 0 }.b<O

Ein p-Quantil für p = ~ wird auch als Median bezeichnet, d.h. ~ ist ein Median von

cL'(X) bzw. von F, falls gilt

(11) P{ X <~} < ~ < P{ X <~} bzw. F(~-) < ~ < F(~) .

Der (genauer: ein) Median ist ein Lokationsparameter, weil nach (10) für b :;= 0 gilt

(12) ~ ist ein Median von cL'(X) =*(a +b~) ist ein Median von cL'(a +bX) .

Im Gegensatz zum Erwartungswert ist der Median (selbst wenn er eindeutig be

stimmt ist) nicht jaltungskompatibel, d.h. für unabhängige Zufallsvariablen Xl' X2

ist

der Median von Xl +X2

im allgemeinen nicht die Summe der Mediane von Xl und

X 2· Als Beispiel seien Xl' X 2 jeweils x;-verteilt mit Median ~1 = ~2 = Xi;50% ~ 0,455.

Dann ist Xl +X2 x;-verteilt mit Median X;.50% ~ 1,386. Ein weitereres Beispiel für,diskrete Zufallsvariablen findet sich in 1.1.

Falls X integrierbar ist, so hat jeder Median von X die Minimimierungseigenschaft

(13) ~ ist ein Median von cL'(X) E(IX-~I) = Min E(IX-cl),cE lR

woraus insbesondere folgt

(14) ~ l' ~2 sind Mediane von cL'(X) =*

Falls X nicht integrierbar ist, so gilt (13) immer noch, ist aber uninteressant, weil

dann alle Erwartungswerte in (13) unendlich sind.

1.1 Binomialverteilung

9.7.10 Q-4

Für cL'(X) = B(n, 7r) ergeben sich für 0< p < 1 die Werte der beiden Inversen von F zu

(1)

(2)

Min {kE{O, ,n} Ip ~ P{X<k}},

Max{kE{O, ,n} IP{X<k} ~p}.

Die Werte F-(p) und Fjp) liegen also im Träger TX = {O, ..., n} von X und sind cha

rakterisiert durch (man beachte den Wechsel von < und <)

(3)

(4)

P{X<F-(p)-l} < P

p{X< Fjp)-l} < P

< P{X<F-(p)})

< P{X< Fjp)} .

Falls p nicht im Bild der Verteilungsfunktion F liegt, so stimmen F-(p) und F (p)

überein

(5) p ;= P{ X <k} für alle kE{O, ...,n}

und andernfalls unterscheiden sie sich um den Wert 1

(6) p=P{X<k} für ein kE{O, ...,n}

(1) - (6) gelten sogar für eine beliebige Verteilung cL'(X) mit Träger TX={O, ..., n}.

Beispiele: Der Median von X für 7r = 0,4.

Für n = 1 ist F-(~) =F)~) = °der eindeutig bestimmte Median von X.

Und für n = 2 ist wegen F(O) = 0,36 und F(l) = 0,84 der eindeutig bestimmte Median

F-(~) =F)~) = 1. Dieser stimmt nicht mit der Summe der Mediane von B(l,p) über

ein, was ein weiteres Beispiel zur Faltungs-Inkompatibilität des Medians liefert.

9.7.10 Q-5

Für cL'(X) = Pois(p,) ergeben sich für 0< p < 1 die Werte der beiden Inversen von P

zu

(1)

(2)

Min {k E Wo Ip ~ P{ X <k} } ,

Max { kE Wo IP{ X <k} ~ p } .

Die Werte P-(p) und Pjp) liegen also im Träger TX = Wo von X und sind charak

terisiert durch (man beachte den Wechsel von < und <)

(3)

(4)

p{X<P-(p)-l} < P

p{X<Pjp)-l} < P

< p{X<P-(p)})

< p{X<Pjp)}.

Falls p nicht im Bild der Verteilungsfunktion P liegt, so stimmen P-(p) und P (p)

überein

(5) p ;= P{ X <k} für alle kE Wo

und andernfalls unterscheiden sie sich um den Wert 1

(6) p = P{ X <k} für ein kE Wo

(1) - (6) gelten sogar für eine beliebige Verteilung cL'(X) mit Träger TX = Wo·

9.7.10 Q-6

Sei X ~ X verteilungskonvergent und F bzw. F sei die Verteilungsfunktion vonn n

X bzw. F.n

Falls F in aE IRstetig ist, so gilt für jede Folge a -----+ an

(1)

(2)

lim P{ X < a } = P{ X < a}n n- n -

lim P{ X < a } = P{ X < a}n n n

bzw.

bzw.

lim F (a ) = F(a) ,n n n

lim F (a -) = F(a-) .n n n

Wir setzen jetzt weiter voraus, daß F stetig und injektiv ist. Dann konvergiert jede

Folge ( von p-Quantilen von F gegen das (eindeutig bestimmte) p-Quantil von F:n n

(3) bzw.

Insbesondere konvergiert auch die rechts- bzw. links-stetige Inverse von F punktn

weise gegen die Inverse von F:

(4) lim F (p) = F-\p) .n n-

Das p-Quantil F-\p) wird daher auch als asymptotisches p-Quantil von F ben

zeichnet und in der Praxis oft als Approximation für ein "echtes" p-Quantil von Fn

verwendet.

Anwendungsbeispiele

• Die t -Verteilung ist für n ----+ 00 verteilungskonvergent gegen N(O, 1), und somitnkonvergieren die oberen a-Quantile t gegen das obere a-Quantil z .n,Q Q

• Die Standardisierung (B(n,p)-p'n)jan der B(n,p)-Verteilung mit P,n=np und

a2=np(1-p) ist für n----+oo verteilungskonvergent gegen N(O,l). Folglich ist einn

asymptotisches oberes a-Quantil von B(n ,p) gegeben durch: p, + z a .n Q n

• Die Standardisierung (Pois(p,) - p,)j JIL der Pois(p,)-Veteilung ist für p, ----+ 00 vertei

lungskonvergent gegen N(O,l). Folglich ist ein asymptotisches oberes a-Quantil

von Pois(p,) gegeben durch: p, + z JIL.Q

Beweise: Quantile von Verteilungen 9.7.10 Q B-1

Beweise zu:1 Definition und elementare Eigenschaften

Beweis von

(2)

(3)

(4)

F-(p) := inf{xEIR Ip::;F(x)}

F_(p) := sup {xE IR IF(x)::;p }

F(Fjp)-) < P < F(F-(p))

(links-stetige Inverse)!

(rechts-stetige Inverse).

Wir zeigen zuerst, daß F- (p) wohldefiniert ist, d.h in IR liegt. Wegen F((0) = 1 und

p< 1 ist A := {x E IR Ip< F(p)} ;= 0 und es gibt eine Infimum-Folge xn E A mit

x 1 inf A E [-00, (0)n

Da F in infA rechts-stetig ist (auch für inf A = - (0), folgt

(i) p < lim F(x ) = F(infA) .- n---+oo n

Wegen F(- (0) = 0 und p>0 folgt inf A;= - 00. Also ist F-(p) = inf A E IR wohldefi

niert und aus (i) ergibt sich die zweite Ungleichung in (4).

Jetzt zeigen wir, daß F (p) wohldefiniert ist, d.h in IR liegt. Wegen F(-oo) = 0 und

p> 0 ist B := {xEIR IF(x)::;p} ;= 0 und es gibt eine Supremum-Folge Yn EB mit

Y t supB E (-00,00]n

Es folgt (auch für supB = (0)

(ii) F((supB)-) = lim F(y ) < Pn---+oo n

Wegen F(00-) = F((0) = 1 und p <1 folgt supB ;= 00. Also ist

wohldefiniert und aus (ii) ergibt sich die erste Ungleichung in (4).

F (p) = supBE IR

D

Beweise: Quantile von Verteilungen

Beweis von

9.7.10 Q B - 2

(5)

(6)

F-(p) < x

x < F_(p)

p ~ F(x) ,

F(x-) < p.

ad (5) ,;~": Da F monoton wachsend ist, ergibt sich mit (4)

,,<;:=.": Ergibt sich aus der Definition von F-(p) als Infimum.

ad (6) ,,~": Da F(x-) = P{X< x} monoton wachsend in x ist, ergibt sich mit (4)

F(x-) < F(Fjp)-) < P

,,<;:=.": Für jedes y< x gilt dann F(y) < F(x-) < P , und somit

x = sup (-00, x) < sup {yEIR IF(y) ~p} = F_(p) .

Beweis von

D

(7) F-(p) Min{ xEIR Ip ~ F(x)} = Min{ xEIR Ip ~ P{X<x}} ,

(8) F_(p) Max{ xEIR IF(x-) ~ p} = Max { xE IR IP{ X <x} ~ p} .

(9) ~ ist ein p-Quantil von F {} F-(p) < ~ < F_(p).

ad (7): F-(p) Min { xE IR IF-(p) < x} Min { xE IR Ip ~ F(x) } vgl. (5).

ad (8): F (p) Max{ xEIR I x < Fjp)} Max{ xEIR IF(x-) ~ p} vgl. (6).

ad (9) ~ ist ein p-Quantil von F {} F(~-) < P < F(~)

{} F-(p) < ~ < F_(p) vgl. (5)(6). D

Beweis von

9.7.10 Q B - 3

(10) ~ ist ein p-Quantil von cL'(X)

{(a + b~) ist ein p-Quantil von cL'(a+ bX)

(a + b~) ist ein(l- p)-Quantil von cL'(a+ bX)

Für b> 0 folgt die Behauptung aus

falls

fallsb> 0 }b< 0 .

P{a+bX<a+b~} = P{X<~} ~} = 1-P{X<~} < 1- p,

1- p < 1-P{X<~} = P{X>~} = P{a+bX<a+b~}.

Beweis von

(13) ~ ist ein Median von cL'(X) =* E(IX-~I) = Min E(IX-cl),cE lR

Für eine Zufallsvariable Y > 0 läßt sich der Erwartungswert darstellen als00

E(Y) = J P{Y> y} dyo

vgl. z.B. Billingsley (1986), Probability and Measure, (21.9), p. 282. Also gilt

H(c) E( IX- cl)00

J P { IX- c I> y} dyo

00

J [P{X-c<-y}+P{X-c>y}Jdyo

D

J P{X <c-y} dy + J P{X>c+y} dyo 0

00

c 00

00

Substitution: x = c ± y

Für ~< c folgt:

JP {X < x} dx + J P {X > x} dx .-00 c

c c

H(c) - H(~) JP {X < x} dx - JP {X > x} dx~ ~

c

J[P {X < x} - P {X > x}J dx .~

Beweise: Quantile von Verteilungen 9.7.10 Q B - 4

Für ~< x gilt: ~ < P{ X <~} < P{ X < x} < P{ X < x} =*

P{X<x} = I-P{X<x} < ~ =*

P{X<x}-P{X>x} > 0

und somit: H(c) - H(~) > 0 für ~< c .

Analog folgt für c< ~:

~ ~

H(c) - H(~) = JP {X > x} dx - JP {X < x} dxc c

c

= J[P {X > x} - P {X < x}] dx .~

Für x< ~ gilt: P{ X < x} < P{ X <~} < ~ =*

P{X>x} > P{X>x} = I-P{X<x} > ~ =*

P{X>x}-P{X<x} > 0

und somit: H(c) - H(~) > 0 für c< ~ .

Insgesamt folgt H(c) - H(~) > 0 für alle c, und die Behauptung gilt. D

Beweise zu:1.1 Binomialverteilung

9.7.10 Q B - 5

Die folgenden Beweise benutzen nur, daß X den Träger Tx= {O, ..., n} besitzt, aber

nicht die konkreten Binomial-Wahrscheinlichkeiten. Sie gelten deshalb auch für belie

biges cL'(X) mit diesem Träger.

Beweis von

(1)

(2)

ad (1):

Min {kE{O, ,n} Ip ~ P{X<k}},

Max{kE{O, ,n} IP{X<k} ~p}.

P-(p) = Min{ kEZ Ip ~ P{X<k}}

P{X<-l} = °< p = P{X<n}

P_(p) = Max{kEZIP{X<k}~p}

Aus

folgt

Mit

ad (2):

Aus

folgt

P{X<x} = P{X<Int(x)}

P{X<x} = P{X<Suc(x)}

mit

mit

Int(x) = Max {kE Z Ik<x}

vgl. 1 (7).

ergibt sich (1).

Suc(x) = Min {kE Z I x< k}

vgl. 1 (8).

Mit P{X< O} = °< P < 1 = P{X<n+1} ergibt sich (2). D

Beweis von

(5)

(6)

p ;= P{ X <k} für alle kE{O, ,n}

p=P{X<k} für ein kE{O, ,n}

P-(p) = P (p) ,

P-(p) = k = P (p) - 1.

Die Behauptungen folgen direkt aus den Charakterisierungen (3) und (4).

Beweise zu:1.2 Poisson-Verteilung

9.7.10 Q B - 6

Die folgenden Beweise benutzen nur, daß X den Träger TX = Wo besitzt, aber nicht

die konkreten Poisson-Wahrscheinlichkeiten. Sie gelten deshalb auch für beliebiges

cL'(X) mit diesem Trägers, also z.B. für die negative Binomialverteilung.

Alle Beweise sind völlig analog zu denen aus 1.1 Binomialverteilung.

Beweis von

(1)

(2)

ad (1):

Min {k E Wo Ip ~ P{ X <k} } ,

Max { k E Wo IP{ X <k} ~ p } .

P-(p) = Min{ kEZ Ip ~ P{X<k}}

P{X<-l} = 0 < P

Aus

folgt

Mit

ad (2):

P{X<x} = P{X<Int(x)} mit Int(x) = Max {kE Z Ik<x}

vgl. 1 (7).

ergibt sich (1).

P_(p) = Max{kEZ IP{X<k} ~p}

P{X< O} = 0 < P

Suc(x) = Min {kE Z I x< k}

vgl. 1 (8).

Aus

folgt

Mit

P{X<x} = P{X<Suc(x)} mit

ergibt sich (2). D

Beweis von

(5)

(6)

p ;= P{ X <k} für alle k E Wo

P = P{ X <k} für ein k E Wo

P-(p) = P (p) ,

P-(p) = k = P (p) - 1.

Die Behauptungen folgen direkt aus den Charakterisierungen (3) und (4).

Beweise zu:


Beweis von

9.7.10 Q B-7

(1)

(2)

lim P{ X < a } = P{ X < a}n n- n -

lim P{ X < a } = P{ X < a}n n n

bzw.

bzw.


lim F (a -) = F(a-) .n n n

ad (1): 1. Beweis. Seien c und d beliebige Stetigkeitsstellen von F mit c < a < d.

Dann gilt

Es folgt

(i)

Fall 1:

c < a < d für fast alle nn

F (c) < F (a ) < F (d) für fast alle nn n n n

t tF(c) F(d) da F stetig in c, d

F(c) < lim inf F (a ) < lim sup F (a ) < F(d)n n n n n n

aEIR

Da F höchstens abzählbare viele Unstetigkeitsstellen hat, gibt es Folge ckt a und

dkt a mit ck < a < dk und

(iii) F ist stetig in ck

und dk.

Aus vgl. (i)

und der Stetigkeit von F in a folgt

(iv)

Fall 2:


a=oo

d.h. (7) gilt.

Die Herleitung von (i) bleibt auch für d = a = 00 gültig. Wie im Fall 1 wählen wir

ckta und eine konstante Folge d

k= a= 00. Da F in 00 stetig ist, ergibt sich (iv) wie

im Fall 1.

Fall 3: a=-oo

Die Herleitung von (i) bleibt auch für c = a = - 00 gültig. Wie im Fall 1 wählen wir

dkta und eine konstante Folge c

k= a = - 00. Da F in - 00 stetig ist, ergibt sich (iv)

wie im Fall 1.

Beweise: Quantile von Verteilungen 9.7.10 Q B - 8

ad (1): 2. Beweis. Die Behauptung folgt direkt aus dem Exkurs Konvergenz nach

Verteilung in Euklidischen Räumen) 12 (1) für Y = a . Dn n

ad (1): 3. Beweis für a EIR. Die Behauptung ergibt sich mit dem Exkurs Kon

vergenz nach Verteilung in Euklidischen Räumen) 2 (2) angewandt auf die Funktionen

folge g (x) = x- a + a, die auf IR gleichmäßig gegen die Identität g(x) = x konver-n n

giert. Daher folgt

X -a +a = g (X)n n n n n---+ 00g(X) = X

und weil F in a stetig ist, ergibt sich

P {X n < an} P {X n - an + a < a} n---+ (0) P {X < a} D

ad (2): Anwendung von (7) auf -X ~---+-Xund -a ---+-a unter Berücksich-n n

tigung von

P{ X < a} = P{ - a <- X} = 1 - P{ - X <- a}

Beweis von

D

(3) bzw.

Zu zeigen ist, daß jeder Häufungspunkt a von (( ) das p-Quantil von Fist, d.h.n

(i) bzw. F(a) =p.

Nun gibt es eine gegen a konvergente Teilfolge (k ---+ a. Aus

ergibt sich für k ---+ 00 mit (1) und (2)

F(a-) = P{ X < a} < p < P{X < a} = F(a).

Da F in a stetig ist, folgt (i). D

CF Charakteristische, Momente- undKumulanten-erzeugende Funktionen

Gerhard Osius

1. Definition der charakteristischen Funktion

2. Definition der Momente- und Kumulanten-erzeugendenFunktion

3. Die Eindeutigkeitssätze

4. Rechenregeln für charakteristische und Momente- undKumulanten-erzeugende Funktionen

5. Momente und Kumulanten eindimensionaler Verteilungen

5.1 Charakteristische Funktion und Momente5.2 Moment-erzeugende Funktion und Momente5.3 Kumulanten-erzeugende Funktion und

Kumulanten

6. Spezielle Verteilungen

6.1 Eindimensionale Normalverteilung6.2 Multivariate Normalverteilung6.3 Binomial-Verteilung6.4 Multinomial-Verteilung6.5 Poisson-Verteilung

7. Erwartungswert und Covarianzmatrix von Zufallsvektoren

Literatur

Billingsley, P., (1968): Convergence 01 Probability Measures. New York: Wiley.

Billingsley, P., (1979): Probability and Measure. New York: Wiley

Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.

G. Osius: Charakteristische und Momenten-erzeugende Funktion 22.4.05 CF - 2

1. Definition der charakteristischen Funktion

Für ein Wahrscheinlichkeitsmaß P auf (IRK , IBK ) ist die charakteristische Funktion

(kurz: CF) 'Pp: IRK---+ <C definiert als

(1) j exp{i .tTx} P(dx)

j cos{tTx} P(dx) + i -J sin{tTx} P(dx)

'Pp wird auch als Fourier-Transformierte von P bezeichnet.

Ist X eine Zufallsvariable mit cL'(X) = P so ist die CF von X definiert als

'PX := 'Pp' cl.h.

(2) 'Px (t) E( exp{i· tTX})

E ( cos {i . t TX} ) + i .E ( sin {i . t TX} )

Man beachte, daß 'Pp(t)E<C stets definiert ist, weil wegen Isinl, Icosl < 1 die Erwar

tungswerte stets existieren!

2. Definition der Momente- und Kumulanten-erzeugenden

Funktion

Für ein Wahrscheinlichkeitsmaß P auf (IRK , IBK ) ist die Momente-erzeugende (gene

rierende) Funktion (kurz: MGF) M : IRK---+ (0,00 J definiert als

(1) Mp(t) = jexp{tTx}P(dx) E(O,ooJ.

Mp wird auch als Laplace-Transformierte von P bezeichnet.

Ist X eine Zufallsvariable mit cL'(X) = P, so ist die MGF von X definiert als

MX:=Mp , cl.h.

(2) MX(t) := E( exp{ tTX})

Die Kumulanten-erzeugende (generierende) Funktion (kurz: KGF) Kp bzw. KX

von P

bzw. X ist der Logarithmus der MGF von P bzw. X, d.h.

(3) log Mp(t) E (-oo,ooJ ,

log MX(t) E(-oo,ooJ.


Man beachte, daß Mp(t) E(O,oo] und Kp(t) E(-00,00] zwar stets existieren, aber nicht

notwendig endlich sind. Die MGF und KGF ist nur dort von Interesse, wo sie end

lich ist. Trivialerweise ist

(4)

3. Die Eindeutigkeitssätze

Ein Wahrscheinlichkeitsmaß ist durch die charakteristische Funktion eindeutig be

stimmt, d.h. es gilt der

Eindeutigkeitssatz für charakteristische Funktionen: Für Wahrscheinlichkeits

maße P und Q auf (IRK,IBK) mit charakteristischen Funktionen !.pp und !.pQ gilt:

!.pp = !.pQ {} P= Q.

Als Folgerung ergibt sich, daß die Verteilung cL'(X) einer K-dimensionalen Zufalls

variablen X eindeutig bestimmt ist durch die Klasse cL'(tTX) der Verteilungen al

ler Linearkombinationen tTX für jedes tE IRK, d.h. es gilt der

Eindeutigkeitssatz für Verteilungen: Für K-dimensionale Zufallsvektoren X und Ygilt :

cL'(X) = cL'(Y) für alle t E IRK .

Eine Verteilung, deren Momente-erzeugende Funktion in einer Umgebung U von 0

endlich ist, ist durch ihre Momente-erzeugende Funktion auf U bereits eindeutig be

stimmt, d.h. es gilt der

Eindeutigkeitssatz für Momente-erzeugende Funktionen: Es seien P und Q War

scheinlichkeitsmaße auf (IRK,IBK)) deren Moment-erzeugende Funktionen Mp

und MQbeide in einer Umgebung U von 0 E IRK endlich sind. Dann gilt:

P=Q.

Hieraus folgt natürlich sofort der entsprechende Eindeutigkeitssatz für Kumulan

ten-erzeugende Funktionen.


4. Rechenregeln

X sei ein K-dimensionaler Zufallsvektor, A eine (ixK) -Matrix und bE IRJ.

Für die i-dimensionale transformierte Zufallsvariable AX + b lassen sich die cha

rakteristische, Momente- und Kumulanten-erzeugende Funktion direkt aus der von

X berechnen:

(1)

(2)

(3)

'PAX+b(t) 'Px(ATt) exp{i.bTt}

T TMAX +b(t) = MX (A t) exp{ b t}

T TKAX+b(t) = Kx(A t) + b t

für alle tE IRJ,

für alle tE IRJ,

für alle tE IRJ,

Ist weiter Y ein L-dimensionaler Zufallsvektor, so lassen sich die charakteristische,

Momente- und Kumulanten-erzeugende Funktion des (K+L)-dimensionalen Zu

fallsvektors (X, Y) direkt angeben, falls X und Y stochastisch unabhängig sind:

(3) Sind X und Y stochastisch unabhängig) so giltjür alle sEIRK,tEIRL:

'P(X, Y) (s , t)

M(X, y)(s, t)

K(X, Y)(s , t)

'PX(s) 'Py(t) ,

Mx(s) My(t) ,

Kx(s) + Ky(t) .

Unter Verwendung des Eindeutigkeitssatzes für charakteristische Funktionen erhält

man sogar die folgende Charakterisierung stochastischer Unabhängigkeit

(4) X und Y sind stochastisch unabhängig {}

jür alle sEIRK,tEIRL.

Ein entsprechendes Resultat gilt auch für die Momente- bzw. Kumulanten

erzeugenden Funktionen von X, Y und (X, Y) sofern diese in einer Umgebung von

oendlich sind.

Speziell für K = L ergeben sich die charakteristische, Momente und Kumulanten-er

zeugende Funktion der Faltung X +Y aus den entsprechenden Funktionen von X

und Y:

Faltungssatz für CF, MGF und KGF: Für stochastisch unabhängige K-dimensionale

Zujallsvektoren X und Y gilt jür alle tE IRK:

<Px+y(t)

MX+y(t)

Kx+y(t)

<Px (t) <Py(t) ,

MX (t) My(t) ,

KX(t) + Ky(t) .

5. Momente und Kumulanten eindimensionaler Verteilungen

5.1 Charakteristische Funktion und Momente

Für eine reelle (d.h. eindimensionale) Zufallsvariable X lassen sich die Momente

E{ Xk} - sofern sie existieren - auch aus den Ableitungen der charakteristischen

Funktion <P = <PX von X bestimmen:

(1) Falls E{ IXln} < 00 ist, so ist <P n-mal stetig differenzierbar mit

(a) <p(k)(t) = i k .E{ X k eitX } für k = 0, ... , n und alle tEIR .

Speziell für t = 0 ergeben sich die Momente von X aus

für k = 0, ... , n .

Die folgende Bedingung ist hinreichend dafür, daß O giltT

Wenn (CFA) gilt, so läßt sich <P um jedes x E IRin eine Potenzreihe entwickelnT

(2) fürltl<r.

(3)

Speziell für x = 0 gilt

<p(t) = f (i t;k E{X k}k=O k.

für It I<r,

und somit ist <P dann bereits durch alle Momente von X eindeutig bestimmt.

5.2 Moment-erzeugende Funktion und Momente

Die Moment-erzeugende Funktion M = MX einer reellen Zufallsvariablen X ist nur

dort von Interesse, wo sie endlich ist, d.h. auf ihrem Endlichkeitsbreich

(1) Endl(M) = {s EIR IM(s) <00 } .

Der Endlichkeitsbereich Endl(M) ist zusammenhängend - also ein Intervall -welches

stets die Null enthält, weil

(2) M(O) = 1 .

Im (trivialen) Fall Endl(M) = {O} enthält die MGF keine detaillierten Information

über die Verteilung von X, und wir wollen daher im folgenden davon ausgehen, daß

der Endlichkeitsbereich ein nicht-degeneriertes Intervall ist, d.h. wir setzen für ein

r > 0 voraus

(MGF) M ist auf [-r, +r] endlich, bzw. [-r, +r] C Endl(M).T

Hieraus folgt, daß alle absoluten Momente von X endlich sind

(3) für alle k E W,

für It I<r.

und es folgt die Bedingung (CFA) für die charakteristische Funktion. Weiter erT

hält man folgende Reihenentwicklung von M

00 kM(t) = k'fo k! E{X

k}(4)

M ist auf dem offenen Intervall (-r, +r) beliebig oft differenzierbar mit

(5) für alle kEWU{O} und Itl < r.

Speziell für t = 0 ergeben sich die Momente von X aus den Ableitungen von M(und

darum heißt M auch die Moment-erzeugende Funktion)

(6) für alle k E WU{O} .

Folglich stellt (4) die Taylor-Entwicklung der Funktion M im Nullpunkt dar.


5.3 Kumulanten-erzeugende Funktion und Kumulanten

Aus der Bedingung (MGF) - die wir weiter voraussetzen - ergibt sich, daß auchT

die Kumulanten-erzeugende Funktion KX

= log MX der reellen Zufallsvariablen X

auf dem abgeschlossenen Intervall [-r, +r] endlich und auf dem offenen Intervall

( -r , +r) beliebig oft differenzierbar ist.

Die Ableitungen von KX im Nullpunkt heißen Kumulanten von X und werden wie

folgt bezeichnet

(1) k-te Kumulante von X, kEWU{O}.

Die Kumulanten lassen sich aus den (zentralen) Momenten von X berechnen und

umgekehrt. Die Kumulanten bis zur Ordnung 4 lauten:

(2)

(3)

(4)

(5)

(6)

K;O(X) = 0

K;1 (X) = E(X)

K;2(X) = E([X-fL]2)

K;iX) E( [X - fL] 3)

K;iX) E( [X - fL] 4) - 3 fL~(X)

fL2(X) Var(X)

fL3(X)

2a

Die Kumulanten der transformierten Zufallvariablen U = aX +bergeben sich direkt

aus den Kumulanten von X

(7)

(8)

K;1(aX + b) = aK;1(X) + b

K; (a X + b) = aT K; (X)r r

bzw. E(aX + b) = aE(X) + b

für r> 2.

Und die Kumulanten einer Faltung ergeben sich als Summe der entsprechenden Ku

mulanten

(9) X und Y stochastisch unabhängig

K; (X +Y) = K; (X) + K; (Y)r r r

für alle r.


6. Spezielle Verteilungen

6.1 Eindimensionale Normalverteilung

Für cL'(X) = N(p"a2) mit p,E IR und 17

2> 0 ist die charakteristische Funktion

(1) für tEIR.

Die Momente und Kumulanten--erzeugende Funktion ist überall endlich mit

(2)

(3)

Mx( t) = exp {p,t + ~ t2a2}

KX(t) = p,t + ~ t2 a2

für tE IR,

für tE IR.

Aus den Ableitungen

(4) K~(t)2

P, + ta ,

K~(t)2

17

~2(t) 0 für r> 2

ergeben sich die Kumulanten von X zu

(5) ;;;1(X) = P, ,

;;;/X) = 0 für r> 2.

6.2 Multivariate Normalverteilung

Für cL'( X) = NK(p" E) lautet die charakteristische Funktion

(1) 'PX (t) = exp { i . t TP, - ~ t TE t} für tE IRK.


(2) MX(t) = exp{tTp,+ ~ tTEt} fürtEIRK,

(3) KX(t) = tTp,+ ~ tTEt fürtEIRK.


6.3 Binomial-Verteilung

Für cL'(X) = B(N,p) ist die charakteristische Funktion

(1) für tE IR.


(2)

(3)

MX(t) = (p et + 1- p)N

KX(t) = N ·log(p et + 1- p)

für tE IR,

für tE IR.

6.4 Multinomial-Verteilung

Für cL'(X) =MK(N,p) mit P=(Pk) E[O,l]K und P+ =1 ist die charakteristische

Funktion

(1)


(2)

(3)



Für cL'(X) = Pois (p,) ist die charakteristische Funktion

't(1) !.pX( t) = exp {p, (eZ- I)} für tE IR.

Die Momente und Kumulanten--erzeugende Funktion sind überall endlich mit

(2)

(3)

MX (t) = exp {p, ( et - I)}

KX(t) = p,(et -1)

für tE IR,

für tE IR.

Aus den Ableitungen

(4) für rE W

ergibt sich, daß alle Kumulanten von X mit dem Erwartungswert p, übereinstim

men:

(5) K, (X) = p,r

für rE W .


7. Erwartungswert und Covarianzmatrix von Zufallsvektoren

Für einen K-dimensionalen ZuJallsvektor X = (Xk) bzw. für eine JxK ZuJallsmatrix

Y = (Yjk ) ist der Erwartungswert komponentenweise definiert, d.h. als Vektor bzw.

JxK Matrix der Erwartungswerte der Komponenten, sofern diese existieren:

(1) bzw.

Wenn der Erwartungswert Jl: = E(X) E IRK existiert, so ist die KxK Covarianzma

trix von X als Matrix aller Covarianzen der Komponenten definiert durch

Die Diagonale der Covarianzmatrix enthält also die Varianzen Var(Xk

), und für

eindimensionales X ist daher Cov(X) = Var(X).

Wenn die Covarianzmatrix Cov(X) existiert, so gilt für eine JxK Matrix A:

(3) TCov(AX) = A· Cov(X) .A .

Wenn die Moment-erzeugende Funktion MX von X in einer Umgebung von 0 end

lich ist, so ergeben sich der Erwartungswert und die Covarianzmatrix wie folgt aus

den Ableitungen der Kumulant-erzeugenden Funktion KX

von X

(4)

(5)

E(X)

Cov(X)

TDKX(O) = \7 KX(O),

D2 KX(O).

Beweise zu: Charakteristische und Momenten-erzeugende Funktion 27.7.05 B CF - 1

Beweise zu:7 Erwartungswert und Covarianzmatrix von

Zufallsvektoren

Beweis von:

(4) E(X) = DKx(O)T = V Kx(O),

(5) Cov(X) = D2 Kx(O).

Es gibt eine Kugel um 0 vom Radius r> 0, so daß KX(t) für 11 t 11 < r endlich ist. Für

festes (beliebiges) tE lRK- {O} ist die KGF von Z = tTX nach 4 (3) gegeben durch

und somit auch endlich für IsI< sO: = r 11 t 11-1. Differenzieren nach s liefert

(i)

(ii)

T= DKx(st) = DKx(st).t = t . V Kx(st)

= D(tT. V Kx(st)) = tT .D2Kx (st) . t

fürlsl<so

fürlsl<so·

Hieraus ergeben sich mit 5.3 (2) und (3)

(iii) tTE(X) = E(tTX) = E(Z) = K~(O) = tTV KX(O)

(iv) tT Cov(X) t = Var(tTX) = Var(Z) = K~(O) = tTD2Kx (O) t

Dies gilt nicht nur für alle 11 t 11 < r sondern (nach Multiplikation mit geeignetem

c> 0) sogar für alle tE lRK . Damit ergeben sich die Behauptungen aus dem allge

meinen Resultat für Vektoren u, v E lRK und symmetrische KxK-Matrizen A, B:

(v)

(vi)

tTu = tTv für alle tElRK

tTAt = tTB t für alle tE lRK

u=v,

A=B.

Zum Nachweis von (v) und (vi) erhält man mit t = ek

als k-tem Einheitsvektor

(vii)

für alle k,

für alle k

d.h. u=v

Und für t = ek

+ ez

ergibt sich

und mit (viii) erhält man A = B.

für alle k, l

D

KV Konvergenz nach Verteilung ineuklidischen Räumen

Gerhard Osius

1 Definition der Verteilungskonvergenz

2 Konvergenz von Bildmaßen

3 Konvergenz von Produkt-Maßen

4 Konvergenz nach Wahrscheinlichkeit gegen eine Konstante

5 Rechenregeln von Slutzky über Konvergenz nach Verteilungund Wahrscheinlichkeit

6 Die Reduktionsmethode von Cramer-Wold

7 Der Stetigkeitssatz für charakteristische Funktionen

8 Der Stetigkeitssatz für Moment-erzeugende Funktionen

9 Der Darstellungssatz von Skorohod

10 Stochastische Beschränktheit und der Satz von Prohorov

11 Konvergenz gegen Unendlich

12 Konvergenz von Wahrscheinlichkeiten

13 Konvergenz von Quantilen

14 Differenzierbare Transformation (Delta-Methode)

Literatur

Billingsley, P., (1968): Convergence 01 Probability Measures. New York: Wiley.

Billingsley, P., (1986): Probability and Measure. New York: Wiley

Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.

G. Osius: Konvergenz nach Verteilung in euklidischen Räumen 5.7.10 KV-2

1. Definition der Verteilungskonvergenz

Für Wahrscheinlichkeitsmaße (P) l\.T und P auf (lRI, IBI ) sind die folgenden Aus-n nEll'I

sagen (VK)o - (VK) 4 äquivalent

(VK)O

(VK)2

Für die Verteilungsfunktionen Fund F von P und P giltn n

F stetig in a =* lim F (a) = F(a) für jedes aElRIn n

Für jede beschränkte (gleichmäßig) stetige Funktion h: lRI ---+ lR gilt:

Ern JhdP = Jh dP.n n

Für jedes BE IBI gilt (aB ist der topologische Rand von B):

(VK)3

(VK)4

p(aB) = 0

Für jedes BEIBI gilt:

B offen

Für jedes BE IBI gilt:

=* lim P (B) = P(B).n n

=* P(B) < lim inf P (B).n---+ 00 n

B abgeschlossen =* lim sup P (B) < P(B).n ---+ 00 n

Beweis: vgl. z.B. Billingsley (1968) Thm. 2.1, Billingsley (1986) Thm. 29.1. D

In (VK)l kann "gleichmäßig" äquivalent fortgelassen werden oder stehen bleiben.

Falls eine bzw. alle Bedingungen (VK)o - (VK)4 gelten, so heißt die Folge (Pn

)

schwach konvergent gegen P und man schreibt hierfür:

P =*P odernp~p

n(schwache Konvergenz)

Falls die Wahrscheinlichkeitsmaße P bzw. P Verteilungen von Zufallsvektorenn

X n : .f2n -----+ lRI bzw. X: .f2 -----+ lRI sind, d.h.

P = cL'(X )n nbzw. P = cL'(X),

so heißt die Folge (Xn) verteilungskonvergent gegen X, falls für die Verteilungen gilt

cL'(X )~ cL'(X), und man schreibt kurz:n

X ~ X (Verteilungskonvergenz von Zufallsvariablen)n

Die Wahrscheinlichkeitsmaße auf den zugrunde liegenden Wahrscheinlichkeitsräu

men (.f2n,dn,Pn) und (.f2, ~P) sind bei Betrachtungen der Verteilungen von Xn


und X nur von untergeordneter Bedeutung. Die Bedingungen (VK) 0 - (VK) 4 lassen

sich unter Verwendung der Zufallsvektoren äquivalent umformulieren, z.B.

(VK1)1 Für jede beschränkte (gleichmäßig) stetige Funktion h: lRI---+ lR gilt:

(VK);

lim E{ h(X )} = E{h(X)}.n n

Für jedes BE IBI gilt:

P{XE8B} = ° lim P{X EB} = P(XEB}.n n

Obwohl sich hierbei die Erwartungswerte E{-} und die Wahrscheinlichkeiten

P{-} auf die entsprechenden Wahrscheinlichkeitsmaße P bzw. P des Definitionsn

bereichs der in {-} auftretenden Zufallsvektoren beziehen, wollen wir diese Ab-

hängigkeit zur Vereinfachung nicht mit in die Notation einbeziehen.

Für die schwache Konvergenz gilt das elementare (aber wichtige)

Teilfolgenkriterium: P ~P gilt genau dann) wenn jede Teilfolge (P I) eine wei-n n

tere Teilfolge (P 11) enthält mit P 11~P.n n

Der Beweis ergibt sich direkt aus dem entsprechenden Teilfolgenkriterium für die

Konvergenz reeller Zahlenfolgen x -----+ x.n

2 Konvergenz von Bildmaßen

Es sei g: lRI---+ lRK eine meßbare Abbildung und D(g) = {xElRIlg unstetig in x} die

Menge der Unstetigkeitsstellen von g. Dann ist D(g) eine Borel-Menge und es gilt:

(1) Ist 9 P-fast sicher stetig, d.h. P{D (g)} = 0, so folgt

P -1 ci: p-19 -------+ 9 .n

Für die Zufallsvektoren lautet (1)

(1)* P{XED(g)} = 0, X n~ X =* g(Xn)~ g(X).

Für stetiges 9 gilt stets D(g) = 0 und somit auch P{D(g)} = °= P{XED(g)}.

Allgemeiner gilt für eine Folge 9 : lRI---+ lRK meßbarer Abbildungen, die auf jeder

nkompakten Menge K C lRI gleichmäßig gegen 9 konvergiert:

(2) P{D(g)} = 0, p~pn

P -1 ci: p-19 -------+ 9 .n n

(2) * P{XED(g)} = 0, X~Xn

cfg (X ) -------+ g(X).n n

Für die konstante Folge g = g ergibt sich (1) aus (2).n

Beweis: Zu (1) vgl. z.B. Billingsley (1968) Thm. 5.1 oder (1986) Thm. 29.2. Und zu (2)

vgl. Billingsley (1968) Thm. 5.5 und die darauf folgenden Bemerkungen. D

3 Konvergenz von Produkt-Maßen

Für Wahrscheinlichkeitsmaße P~, P' auf (lRI, IB I

) und P~, pli auf (lRK , IBK) gilt für

die Produktmaße

(1) p'xP" ~P'xP" {} P'~P' P"~P".n n n' n

Für Zufallsvektoren X' ,X' und X", X" lautet (1):n n

(1)* Falls X', X" stochastisch unabhängig und

X' , X" stochastisch unabhängig für jedes n, so giltn n

(X' X")~(X'X") {} X' ~X' X"~X".n' n ' n 'n

Beweis: Vgl. z.B. Billingsley (1968) Thm. 3.2.

4 Konvergenz nach Wahrscheinlichkeit gegen eine Konstante

D

Eine Folge X von Zufallsvektoren mit Werten in lRI heißt nach Wahrscheinlichkeitn

konvergent gegen a ElRI (Schreibweise: X ~ a), falls giltn

(KW) Für jedes c> 0 gilt: li~ P{II Xn

- a II > c} = 0

limP{IIX -all< c} = 1,n n

bzw.

oder in äquivalenter "topologischer" Formulierung

(KW)* Für jede Umgebung U von a gilt: lim P{ X \t U} = 0n n

lim P{ X E U} = 1.n n

bzw.

Fassen wir aE lRI als konstanten Zufallsvektor auf, so erhält man (elementar):

(1) X -La {}n

pX -------+ a .

n

Für beliebige a E lRI, aufgefaßt als konstante Zufallsvektoren, gilt offenbar:n

(2) cfa -------+ a {}n

pa -------+ a {} lim a = a.

n n n

X heißt eine stochastische Nullfolge) falls X ~ 0 gilt. Man schreibt dann auch (inn n

Anlehnung an die Symbolik von Landau): X = 0 (1).n p

5 Rechenregeln von Slutzky über Konvergenz nach Verteilung

und Wahrscheinlichkeit

Seien X , X I-dimensionale und Y K-dimensionale Zufallsvektoren mit X ~Xn n

und Y -L aElRK . Dann folgt:n

(1) (X ,Y ) cf (X,a).)

n n

(2) Für I= K: [X ±Y] cf [X±a], <X ,Y > cf ) <X,a>.)

n n n n

(3) Für K= 1: Y·X cf ) a·X.n n

Man beachte insbesondere den Spezialfall a = o.

Beweis: (1) folgt aus Billingsley (1968) Thm. 4.1, und (2- 3) ergeben sich aus (1)

und 2 (1) *" weil die Operatoren" ±" < - ,- > und" . " stetig sind. D

6 Die Reduktionsmethode von Cramer-Wold

Sind X , X I-dimensionale Zufallsvektoren, so läßt sich die Verteilungskonvergenzn

X ~X auf die Konvergenz aller Linearkombinationen <t,X >~<t,X> zu-n n

rückführen:

X cf) X {} < t,X > cf) <t,X> für alle tElR1 .n n

O.B.d.A. kann man in (8) nur normierte Vektoren tElRI zulassen, d.h.lltll = 1.

Beweis: Vgl. z.B. Billingsley (1968) Thm. 7.7 oder Billingsley (1986) Thm. 29.4. D

cfX -----'-''-------t) X .n

7 Der Stetigkeitssatz für charakteristische Funktionen

Für die charakteristischen Funktionen ep ,ep: lRI---+ <C der I-dimensionalen Zufalls

nvektoren X ,X gilt:

n

lim ep = ep (punktweise ) in lRIn n

Beweis: Vgl. z.B. Billingsley (1968) Thm. 7.6 oder Billingsley (1986) Sec. 29. D

8 Der Stetigkeitssatz für Moment-erzeugende Funktionen

Sind die Moment-erzeugende Funktionen M , M: lRI ---+ [0,00] der I-dimensionalenn

Zufallsvektoren X ,X in einer Umgebung U des Nullpunktes OE lRI endlich, so gilt:n

lim M = M (punktweise) in U =* X cf) X.n n n

Die Umkehrung gilt i.a. nicht.

Beweis: Für I = 1 vgl. z.B. Billingsley (1979) Sec. 30, und mit der Methode von

Cramer-Wold ergibt sich die Behauptung für beliebiges 1. D

9 Der Darstellungssatz von Skorohod

Für Wahrscheinlichkeitsmaße P ,P auf (lRI, IBI

) gilt P ~ P dann und nur dann,n n

wenn es I-dimensionale Zufallsvektoren Y , Y auf einem gemeinsamen Wahrscheinn

lichkeitsraum (.f2, d, P) gibt mit cL'(Y ) = P , cL'(Y) = P, so daß Y punktweisen n ngegen Y konvergiert: Y (w) -----+ Y (w) für alle wE .f2.

n

Beweis: Vgl. z.B. Billingsley (1986) Thm. 29.6 .

10 Stochastische Beschränktheit und der Satz von Prohorov

D

Eine Folge P von Wahrscheinlichkeitsmaßen auf (lRI, IBI ) heißt straff (engl.: tight ),n

falls es für jedes c>°eine kompakte Menge K C lRI gibt mit P (K) > 1-c für alle n.n

Für I-dimensionale Zufallsvektoren X ist P = cL'(X ) genau dann straff, wenn giltn n n

(SB) Zu jedem c> 0 gibt es ein M> 0, so daß für (fast) alle nE Wgilt:

P{IIXnll > M} < c.

Falls (SB) gilt, so heißt X auch stochastisch beschränkt, und man verwendet dafürn

(in Anlehnung an das Landau'sche Symbol 0) die Schreibweise X = 0 (1). Vertein p

lungskonvergente Folgen sind stochastisch beschränkt:

X cf) X =* X = 0 (1) .n n p

Allgemeiner gilt der

Satz von Prohorov: Für I-dimensionale Zu/allsvektoren X sind äquivalentn

(i) X ist stochastisch beschränkt.n

(ii) Jede Teil/olge von X besitzt eine verteilungskonvergente Teil/olge.n

Beweis: vgl. z.B. Billingsley (1968) Thm. 6.1-2.


D

Eine Folge X von reellen Zufallsvariablen heißt nach Wahrscheinlichkeit konvergentn

gegen 00 (Schreibweise: X p) (0), falls giltn

(KW) Für jedes M> 0 gilt:00

lim P{X <M} = o.n n-

Für positive Zufallsvariablen läßt sich dieses Konzept auf Konvergenz nach Wahr

scheinlichkeit gegen Null zurückführen

(1) Falls X >0 für alle n, so gilt: X p) 00 {} X-1 _P

-----t) o.n n n

Konvergenz von X nach Wahrscheinlichkeit gegen -00 ist analog definiert durchn

(KW) Für jedes M> 0 gilt:-00

d.h. es gilt

lim P{X >-M} = 0n n-

(2)p

X ------tl -00 {}n

p- X ----t) +00.

n

Für weitere Zufallsvariablen Y und Y ergeben sich folgende Rechenregeln:n

(3)

(4)

pX -------+ +00,n

pX -------+ ±00,

n

X <Y P-fast-sicher für alle nn- n

Y = 0 (1)n p

p=* Y -------+ +00 ,n

p=* X +Y -------+ ±00 ,n n

(5)

(6)

pX -------+ ±00,n

pX -------+ +00,n

Y~ Y, Y>O P-fast-sichern

pY -------+ + 00n

pX . Y -------+ ± 00,

n np

::::} X +Y -------+ +00,n n p

X . Y -------+ +00.n n

Für eine Folge a E lR interpretiert als Folge konstanter Zufallsvariablen giltn

(7) lim a = 00n n

pa -------+ 00 .

n

12 Konvergenz von Wahrscheinlichkeiten

Für Zufallsvariablen X , Y ,X und -00 < a < 00 giltn n - -

(1) Xn

L P------t) X, Y ) a,

n P{X=a} = 0


Für eine reelle Zufallsvariable X mit Verteilungsfunktion Fund 0< a < 1 heißt

x E lR ein (oberes) a-Quantil der Verteilung P := ci:(X), wenn gilta

(1) P(X <xa ) < l-a < P(X < xa ) bzw.

L ) X eine verteilungskonvergente Folge von reellen Zufallsvari-

F (xa-):= lim F( x) < 1- a < F (x) .xixa

Das a-Quantil ist im allgemeinen nicht eindeutig bestimmt, und man kann zeigen,

daß die Menge der a-Quantile ein abgeschlossenes Intervall ist. Für stetiges Fist (1)

äquivalent zu F(x) = l-a, d.h. jedes Urbild von l-a unter F ist ein a-Quantil.

Es sei jetzt Xn

ablen und x bzw. x sei oberes a-Quantil von X bzw. X. Dann erhält man fürnp a n

die Quantilfolge folgendes Resultat

(2) Ist die Verteilungsfunktion F von X stetig) und ist das a-Quantil

von F eindeutig, d.h. F-1{1- a} = {x }, so gilt:a

lim x = x .n---+ 00 n,a a



Y ,Z seien I-dimensionale Zufallsvektoren, die nach Wahrscheinlichkeit gegenn n

dasselbe a E lRI konvergieren:

(1) Yn

p) a, Z

np

) a.

Ferner sei c > 0 eine reelle Skalierungsfolge, sodaß c [Y -Z ] nach Verteilung ge-n n n n

gen einen I-dimensionalen Zufallsvektor U konvergiert:

(2) c [Y -Z]n n n

cf-----==-------t) U.

Weiter sei F : lR! -----+ lRK eine meßbare Transformation, die in einer Umgebung A

von a differenzierbar ist, und deren Ableitung DF auf A stetig ist. Dann läßt sich die

Verteilungskonverenz (2) mit F "transformieren" zu

(3) c [F(Y ) -F(Z)] cf) DF(a)· U,n n n

und es gilt die stochastische Taylor-Formel

(4) c ([ F (Y ) - F (Z )] - DF (a) . [Y - Z ])n n n n nP

------tl o.

Ist G: lR! ---+ lRK eine weitere meßbare Transformation, die mit F in einer Umge

bung von a übereinstimmt, so gilt weiter

(5) c ([F (Y ) - F (Z )] - [G(Y ) - G (Z )] )n n n n nP

------tl o.

Zusatz 1: Wenn c -----+ 00 gilt, dann folgt aus (2) bereits [Y - Z ] -P-----t) 0 und so-n n n

mit sind die beiden Konvergenzen in (1) zueinander äquivalent.

Zusatz 2: Die stochastische Taylor-Formel (4) folgt bereits, wenn statt der Vertei

lungskonvergenz (2) nur stochastische Beschränktheit vorausgesetzt wird:

(2)* c [Y -Z ] = 0 (1).n n n p

Spezialfall (asymptotische Normalverteilung): Bei normalverteiltem U, d.h.

(6) L {U} = N/p"E),

ist die Limesverteilung in (3) ebenfalls eine Normalverteilungg:

(7) mit D:=DF(a).

G. Osius: Konvergenz nach Verteilung in euklidischen Räumen 5.7.10 KV -10

Anwendungen

Für eine reelle Zufallsvariable X mit !-L = E(X) und 0-2 = Var(X) E (0, (0) sei X eine

nFolge stochastisch unabhängiger und wie X verteilter reeller Zufallsvariablen (al-

so unabhängige Wiederholungen von X). Für den Mittelwert fi(n) = ~X~) der er

sten n Zufallsvariablen als Schätzer für !-L gilt dann (Gesetz der großen Zahlen)

(8) P-----tl 11.

n---+oo r

und (Zentralen Grenzwertsatz)

(9) vn [fi(n) -!-L] L l N(0,0-2).n---+ 00

Für Y = fi(n\ Z = a =!-L und c = vn sind somit die Voraussetzungen (1) und (2)n n n

sowie (6) mit 1=1 und 0-2 = E erfüllt. Wir betrachten jetzt einige spezielle Vertei-

lungen von X und zugehörige interessierende Transformationen F.

Binomialverteilung: Für cL'(X) =B(l,p) ist 0-2 = p(l-p) und neben dem Erwar

tungswert !-L = P ist auch der "kanonische Parameter" 1jJ = logit(p) := ln [p/(l-p)] von

Interesse. Da die logistische Funktion logit(p) nur für pE (0, 1) definiert ist, setzen

wir sie zu einer Funktion F auf ganz IR meßbar fort, indem wir sie auf dem Kom

plement IR \ (0,1) beliebig (aber meßbar, also z.B. konstant Null) setzen. Mit der

Ableitung

F'(p) = logit'(p) = [p(l_p)]-l = -20-

ergibt sich dann aus (9) bzw. (3) und (7) - mit p statt fi

(10)

Wegen (5) gilt (10) auch für jede andere meßbare Fortsetzung G der logistischen

Funktion logit: (0,1) -----+ IR und deshalb schreibt man (10) auch suggestiv als

(11) vn [logit(p(n)) - 1jJ ]

Jnp (1- p) [logit(p(n)) -1jJ ]

n---+ 00

n---+ 00

N(O,o--2)

N(O,l).

bzw.

Somit ist die Schätzung {; = logit(p) von 1jJ asymptotisch normalverteilt. D

G. Osius: Konvergenz nach Verteilung in euklidischen Räumen 5.7.10 KV -11

Poissonverteilung: Für cL'(X) = Pois(p,) ist 0-2 = P, und neben dem Erwartungswert

p, ist auch der "kanonische Parameter" 1jJ = ln(p,) von Interesse. Da der Logarithmus

nur auf (0, (0) definiert ist, setzen wir ihn wieder zu einer Funktion F auf ganz lR

beliebig - aber meßbar - fort. Mit der Ableitung

ergibt sich dann aus (9) bzw. (3) und (7)

(12) vn [ln(fi,(n)) -1jJ ]

V;; [ln(fi,(n)) -1jJ ]

n---+ 00

n---+ 00

N(O, 0--2)

N(O, 1),

bzw.

wobei wir statt F suggestiv ln geschrieben haben, weil es nach (5) nicht auf die kon

krete Fortsetzung ankommt. Insgesamt ist die Schätzung {; = ln(fi,) von 1jJ also

asymptotisch normalverteilt. D

Exponentialverteilung: Für cL'(X) = Expo(A) ist P, = A-1, 0-2 = P,

2 = A-2 und neben

dem Erwartungswert ist auch der "kanonische Parameter" A= p,-1 von Interesse,

den man hier auch als Hazard bezeichnet. Mit F(x) = x-1 für x:;= °(und beliebig für

x = 0) ergibt sich aus

-2-0-

analog (11) und (12) die asymptotische Normalverteilung des Schätzers ~ = fi,-1

(wieder in suggestiver Schreibweise)

(13)n---+ 00

D

Beweise zu : Konvergenz nach Verteilung in euklidischen Räumen 7.8.07 B KV - 1

Beweise zu:

Konvergenz nach Verteilung in euklidischen Räumen

Beweise zu


Beweis von

(1) Falls X > 0 für alle n, so gilt: Xn n

p) 00 ~ X-l P

'r7 ------tl O.n

Folgt direkt aus den Definitionen (KW), (KW) da00

X <M {} X-l >M-l .n- n -

Beweis von

D

(3) PX -------+ +00,n

X <Y P-fast-sicher für alle nn- nP

Y -------+ +00 ,n

Wegen P{Xn

< Yn

} = 1 gilt für jedesM>O:

Beweis von

D

(4) PX -------+ ±00,

nY = 0 (1)

n pP

::::} X +Y -------+ ±00 ,n n

Es genügt den Fall ,,+ 00" zu beweisen, weil sich der Fall ,,- 00" hieraus durch Über

gang auf - X ergibt.n

Zu zeigen ist also X + Y p) +00, d.h. für beliebiges M> 0 giltn n

(i) P{X + Y > M} -------+ o.n n-

Hierzu leiten wir für beliebiges c> 0 her:

Da Y stochastisch beschränkt ist, gibt es zu c> 0 ein K> 0 mitn

Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen 7.8.07 B KV - 2

(iii)

Nun gilt

und somit

(M+K) <X, -K<Yn n

für fast alle n.

M«X +Y)n n

(iv) P{Xn + Y n <M} < P{Xn<M+K oder Y n <-K}

< P{Xn <M+K} + P{Yn<-K}.

W X P ·1egen ) 00 gl tn

(v) P {X<M+K} -------+ 0

und mit (iii) folgt (ii).

Beweis von

D

(5)p

X -------+ ±00,nY ~ Y, Y>O P-fast-sicher

np

X . Y -------+ ± 00,n n

Es genügt den Fall ,,+ 00" zu beweisen, weil sich der Fall ,,- 00" hieraus durch Über

gang auf - X ,-Y ergibt. Hierfür ist für beliebiges M, c> 0 zu zeigen:n n

(i) limnsup P{Xn

Yn

<M} < c.

Nun gibt es höchstens abzählbar viele aE lR mit P {Y = a} >0 - vgl. z.B. Billingsley

(1979) Thm. 10.2 (iv) - und folglich existiert eine fallende Folge 0 <Km 10 mit

(ii) P{Y=K } = 0m

für alle m.

Also gilt für jedes m:

(iii) für n ---+ 00, m fest.

Aus KlO folgt andererseits für m ---+ 00m

(iv) P{Y < Km} -------+ P{Y < O} = 0, da Y>O P-fast-sicher.

Zu c>O gibt es daher ein m(c)EW mit

P{Y < Km(e)} < c

und für K = Km(e/olgt aus (iii)

(v) für fast alle n.

Aus M/K<X,n K<YnM<X .y

n n

folgt P{Xn . Y n < M} 0 gilt

l<X, M<Yn n

und somit folgt

p::::} X +Y~ +00,

n n pX . Y ~+oo.

n n

M<X Yn n

(i) P{Xn +Y n < M} < P{Xn < I} + P{Yn <M}

(ii) P{Xn · Y n < M} < P{Xn < I} + P{Yn < M}.

Die rechten Seiten von (i) und (ii) konvergieren nach Voraussetzung gegen 0, und

da M beliebig war, folgt die Behauptung. D

Beweise zu12 Konvergenz von Wahrscheinlichkeiten

Beweis von

(1) L PX -----'--''------tl X, Y l a,n n P{X=a} = 0

Fall 1: - 00 < a < + 00.

Nach den Regeln von Slutzky 5 (2) gilt

LX - Y -----'--'=-------tl X - an n

und wegen P{X-a = O} = P{X=a}=O folgt hieraus

P{Xn <Yn}

P{Xn> Y

n}

P{Xn

- Yn

< O} -------+ P{X - a < O}

P{Xn-Yn>O} -------+ P{X-a>O}

P{X<a},

P{X>a}.

Fall 2: a = 00. Es genügt, zu zeigen

(i) P{X <Y }-------+1,n n

denn mit P{X < Y } < P{X < Y } folgt hieraus auch-n n - n- n

(ii) P {X < Y } -------+ 1.n- n

Nach 10 ist mit der Folge X auch die Folge -X stochastisch beschränkt, undn n

mit 11 (4) ergibt sich

(iii)p

Y - X ----tl 00.n n

Also gilt P{Xn > Y n} = P{Yn-Xn < O} -------+ 0,

Fall 3: a = -00.

d.h. (i) gilt.

Die Behauptung folgt aus Fall 2, angewendet auf - X ,-Y ,-X, - a, weiln n

L-X l-Xn '

-Yn

Ploo, P {- X = - a} = o. D

Beweise zu


Beweis von

(2) Ist die Verteilungsfunktion F von X stetig) und ist das a-Quantil

von F eindeutig, d.h. F-1{1- a} = {x }, so gilt:et

lim x = x .n---+ 00 n,et et

Es genügt, für eine beliebige konvergente Teilfolge

x -------+ a E [-00, +00]m,afür m ---+ 00

zu zeigen: a = x . Nach Definition des Quantils gilt:et

P{X <x }<l-a<P{X <x }.m m,et - - m - m,et

Da F stetig ist, gilt P {X = a} = 0 und aus 12 (1) mit Y := x ergibt sichm m,et

P{X<a} < 1-a < P{X<a}

d.h. a ist ein a-Quantil von F. Und aus der Eindeutigkeit des a-Quantils von F folgt

dann a = x . Det

Beweise zu


Beweis zu "Differenzierbare Transformation"

(3) e [F(Y ) -F(Z )] cf ) DF(a)· U,n n n

(4) e ([ F(Y ) - F(Z )] - DF (a) . [Y - Z ])p ) o.

n n n n n

(5) e ([ F(Y ) - F(Z )] - [G(Y ) - G (Z )])p ) o.

n n n n n

ad (4) incl. Zusatz, d.h. mit (2)* statt (2):

Es gibt eine abgeschlossene Kugel B = {ulll u-a 11 < r} um a E 18 mit Radius r> 0,

so daß F in B differenzierbar ist. Nach der Taylor-Formel gilt dann die Entwicklung

(vgl. z.B. Dieudonne, 1960, 8.14.3) :

(i) F(y) - F(z) = H(y,z) . (y-z) für y, zEB mit

1(ii) H(y,z) = J DF(z + t(y-z))dt

a1

DF(a) +J[DF(z+t(y-z)) - DF(a)] dt.a

Also

(iii) IIH(y,z) - DF(a) 11 < s(y,z) := sup IIDF(z + t(y-z)) - DF(a) 11·O<t<l

Definieren wir jetzt

(iv) R(y,z) = F(y)-F(z)-DF(a)[y-z] füry,zEIR1

= [H(y,z)-DF(a)] (y-z) für y, zEB

so ist für die stochastische Taylor-Formel (4) zu zeigen

(v)p

e R(Y ,Z ) ------tl 0,n n n

d.h. für beliebiges c> 0 ist zu zeigen

P{ Ile R(Y ,Z ) 11> c} -------+ 0,n n n

bzw. für beliebige c> 0 und Tl> 0 ist zu zeigen

(vi) P{IIC R(Y ,Z )11> c} < 371n n n für fast alle n.

Wegen (2)* gibt eine Schranke K> 0 mit

(vii) P{ 11 C[Y - Z ] 11 >K} < 71n n n für fast alle n.

Da die Ableitung DF in a stetig ist, gibt es ein 0<8 = 8(c,K) <r mit

(viii) Ilu-all <8 IIDF(u) - DF(a) 11 < ; .

Die offene KugelB6 = {ulllu-all < 8} ist konvex, d.h.

y, ZEB6

=* z + t(y-z) E B6

Also folgt aus (viii)

für alle 0< t< 1.

11 y-a 11, Ilz-all <8 =* 11 DF(z + t(y-z)) - DF(a) 11 < ; für alle tE [0,1]

=* IIH(y,z) - DF(a) 11 < ; vgl. (iii)

=* II[H(y,z) - DF(a)] . (y-z) 11 < Ily-zll· ~ .

=* IIR(y,z)11 < Ily-zll· ; vgl. (iv), da BbeB.

und hieraus ergibt sich für alle n

IIY -all,IIZ -all<8,n n

bzw. IlcnR(Yn,Zn)ll>c =*

IIYn-all>8 oder IIZn-all >8 oder Ilcn(Yn-Zn) 11> K.

Für die Wahrscheinlichkeiten folgt daher (mit der Sub-Additivität)

(ix) P{llcnR(Yn,Zn) 11> c} <

P{IIYn-all>8} +P{IIZn-all>8} +P{llcn(Yn-Zn) 11 >K}.

Nach Voraussetzung (1) gilt

(x)

(xi)

P{II Yn-all >8} < 71

P{IIZn-all > 8} < 71

für fast alle n.

für fast alle n.

Aus (vii) und (ix) - (xi) folgt (vi), und somit ist (4) inclusive Zusatz 2 bewiesen. D


ad (3):

Multiplikation von (2) mit der KxI-Matrix DF(a) liefert

c DF(a)· [Y -Z] L) DF(a) ·U,n n n

und Addition zu (4) ergibt (3). D

ad (5):

Nach Voraussetzung gilt DG(a) = DF(a) und (4) lautet mit G statt F:

c ([G(Y ) - G(Z )] -DF(a) . [Y -Z ])n n n n n

und Subtraktion von (4) liefert dann (5).

Beweis von Zusatz 1:

P------t) 0,

D

Multiplikation von (2) mit c-1-----t 0 liefert [Y -Z] L) 0 . 0 = o.

n n n p

Beweis des "Spezialfalles":

Folgt sofort aus den Rechenregeln über Normalverteilungen.

D

D

exkurse zur wahrscheinlichkeitstheorie, linearen algebra ... · eine andere approximation, die auch...

Documents