Download - Statistik Lektion 3
![Page 1: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/1.jpg)
StatistikLektion 3
Simultan fordelte stokastiske variable
Kontinuerte stokastiske variable
Normalfordelingen
![Page 2: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/2.jpg)
Repetition En stokastisk variabel X er en funktion defineret på S
(udfaldsrummet), der antager værdier på R. Diskret stokastisk variabel: Tælleligt antal værdier Sandsynlighedsfordeling: Tabel med ssh. for hvert x,
P(X = x) = P(x) ≥ 0. Kumulativ fordelings funktion Middelværdi
Varians Standard afvigelse
Lineær transformation:
xi
iPxXPxF )( )()(
x
xxPxE )()(
2222 )]([)(])[()( XEXEXEXV
)()( XVXSD
bXaEbaXE ][][ ][][ 2 XVabaXV
![Page 3: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/3.jpg)
Simultan Sandsynlighedsfordeling
1.
2.
. og af værdier alle for yxyxP 0),( 1),(
yxyxP
og alle
y
yxPxPxXP alle
),()()(
x
yxPyPyXP alle
),()()(
(joint probability function)
Definition: Hvis X og Y er to diskrete stokastiske variable, så er P(x,y) =P(X=x,Y=y) en simultan sandsynligheds-funktion for X og Y, hvis
Definition: Den Marginale sandsynlighedsfordeling for hhv. X og Y er
![Page 4: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/4.jpg)
Eksempel: Alder og Salg
Sammenhæng mellem aldersgruppe (X) og købsmønster (Y):
Aldergruppe (X)
Købs-mønster (Y)
1(16 til 25)
2(26 til 45)
3(46 til 65) P(y)
1 (køb) 0.10 0.20 0.10 0.40
2 (ej køb) 0.25 0.25 0.10 0.60
P(x) 0.35 0.45 0.20 1.00
Marginale fordeling af Y
Marginale fordeling af X
![Page 5: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/5.jpg)
Betinget Sandsynligheder for SV For to diskrete stokastiske variable er den betingede
sandsynligheden for X=x givet Y=y givet ved
Eksempel: Betingede sandsynlighed for køb (Eksempel: Betingede sandsynlighed for køb (Y=1) givet kunde i aldergruppen 26 til 45 (X = 2).
Svar: P(X=2,Y=1) = P(2,1) = 0.20 og P(X=2) = 0.45
)(
),()|(
yP
yxPyYxXP
44.045.0
20.0)2|1( XYP
![Page 6: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/6.jpg)
Uafhængighed
Eksempel: Er aldersgruppe og købsmønster uafhængige?
Svar:
Dvs. der er ikke uafhængighed.
Definition: To diskrete stokastiske variable X og Y er uafhængige hvis og kun hvis
for alle x og y, hvor P(x) og P(y) er de marginale sandsynligheds-funktioner.
)()(),( yPxPyxP
)2,3(10.012.060.020.0)2()3( YXPYPXP
![Page 7: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/7.jpg)
Kovarians
X stokastisk variabel med forventet værdi μX
Y stokastisk variabel med forventet værdi μY
Kovariansen mellem X og Y er givet ved
Hvis X og Y har diskrete stokastiske variable med simultan sandsynligheds funktion P(x,y), så er kovariansen givet ved
))((),( YX YXEYXCov
x y
YX yxPyxYXCov ),())((),(
![Page 8: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/8.jpg)
Middelværdi og Varians for Par af Stokastiske Variable Lad X være SV med forventet værdi mx og varians s2
X
Lad Y være SV med forventet værdi mY og varians s2Y
Da gælder
Eksempler: E[X+Y] = V[X+Y] = E[X-Y] = V[X-Y] =
cbacbYaXE YX ),(22222 YXCovabbacbYaXV XX
![Page 9: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/9.jpg)
Regneregler for middelværdi og varians
)()()()(
)()()()(
22112211
2121
kkkk
kk
XEaXEaXEaXaXaXaE
XEXEXEXXXE
Middelværdien af en linearkombination af stokastiske variable X1,X2,…,Xk.
)()()()(
)()()()(2
2221
212211
2121
kkkk
kk
XVaXVaXVaXaXaXaV
XVXVXVXXXV
Hvis X1,X2,…,Xk er indbyrdes uafhængige, så:
Disse regler gælder for både diskrete og kontinuerte stokastiske variable
![Page 10: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/10.jpg)
Bernoulli fordelingen Hvis et eksperiment består af et enkelt forsøg og forsøget
enten kan være en succes eller en fiasko, så kaldes forsøget for et Bernoulli forsøg
En binær stokastisk variabel X er en Bernoulli variabel med sandsynligheds-parameter p, hvis
Middelværdi og varians for en Bernoulli variabel: E(X) = E(X²) =
Hvis for eksempel p = 0,7: E(X) = V(X) =
E(X2) =
P(Succes) = P(X=1) = p og P(Fiasko) = P(X=0) = 1-p.
![Page 11: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/11.jpg)
Mange forsøg…
Lad X1, X2,…, Xn være n uafhængige Bernoulli variable, alle med samme sandsynligheds-parameter p.
Husk: E(Xi) = p og V(Xi) = p(1-p)
Definer: X = X1+X2+…+Xn
Da gælder X ~ B(n,p) (X følger en binomial fordeling)
Middelværdi og varians for X E(X ) = E(X1+X2+…+Xn) =
V(X ) =V(X1+X2+…+Xn) =
(X = ”Antal successer”)
![Page 12: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/12.jpg)
• Diskret stokastisk variabel: Tæller hændelser Har et tællelig antal af mulige værdier Har diskrete hop mellem
efterfølgende værdier Har målelige sandsynligheder for
hver enkelt værdi Sandsynlighed er højde
• En kontinuert stokastisk variabel: Måler (højde, vægt, hastighed, løn) Har et uendelig antal af mulige
værdier Går kontinuert fra værdi til værdi Har ingen målelig sandsynlighed
til hver individuel værdi Sandsynlighed er areal
For eksempel: Binomial n=3 p=.5
x P(x)0 0.1251 0.3752 0.3753 0.125
1.000
For eksempel:Det skraverede område angiver sandsynligheden for mellem 2 og 3 minutter.
Diskrete og kontinuerte stokastiske
![Page 13: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/13.jpg)
Kontinuert Stokastisk Variabel og Sandsynlighedstæthedsfunktion
Tæthedsfunktionen f(x)
Arealet under kurven f(x) er 1
Sandsynligheden for X mindre end 3 er det røde areal
![Page 14: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/14.jpg)
Kontinuert Stokastisk Variabel og Sandsynlighedstæthedsfunktion Definition: Lad X → R være en kontinuert stokastisk
variabel. f(x) er (sandsynligheds)tæthedsfunktionen for X hvis
xxf alle for 0)(
1)(
dxxf
adxxfaXP )()(
Dvs. arealet under kurven f(x) er 1
Dvs. sandsynligheden for X er mindre end a svarer til arealet under kurven til venstre for a
Dvs. kurven f(x) er aldring under x-aksen
![Page 15: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/15.jpg)
Tæthedsfunktion og Kumulerede Fordelingsfunktion
F(3)
F(2)
Kumulerede fordelingsfunktion:
Bemærk: F(x) →0, når x → -∞F(x) →1, når x → ∞
P(X = x) = 0
)2()3(
)2()3(
)()32(3
2
FF
XPXP
dxxfXP
xdttfxXPxF )()()(
![Page 16: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/16.jpg)
Middelværdi og Varians
Stok. Var: Diskret Kontinuert Regel Regel Middelværdi: E[ h(X) ] E[X2] Varians:
Bemærk: Integralerne kan typisk ikke ”udregnes”.
x
xxPXE )()(
dxxxfXE )()(
222 ][][])[()( XEXEXEXV
x
xPxhXhE )()())((
dxxfxhXhE )()())((
0)( xP
1)( x
xP 1)(
dxxf
0)( xf
x
xPxXE )()( 22
dxxfxXE )()( 22
![Page 17: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/17.jpg)
Flere Regneregler Regneregler for middelværdi og varians er præcist som for
diskrete stokastiske variable. Antag at X er en kontinuert stokastisk variabel med
middelværdi m og varians s2. Da gælder
Eksempel: Standardisering:
babXaEbaXE ][][22 ][][ aXVabaXV
X
E
X
V
![Page 18: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/18.jpg)
Uniform fordeling
uniform [a,b] tæthed:
1/(b – a) for a £ x £ b f(x)= 0 ellers
E(X) = (a + b)/2; V(X) = (b – a)2/12
bb1x
Hele arealet under f(x) = 1/(b – a) * (b – a) = 1.00
Arealet under f(x) fra a1 til b1 = P(a1£X £ b1) = (b1 – a1)/(b – a)
a1
Uniform [a, b] fordeling
f(x)
a
1/(b-a)
![Page 19: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/19.jpg)
Uniform fordeling
uniform [0,5] tæthed:
1/5 for 0 £ x £ 5 f(x)= 0 ellers
E(X) = (0 + 5)/2; V(X) = (5 – 0)2/12
3x
Hele arealet under f(x) = 1/(5-0) * (5 – 0) = 1.00
Arealet under f(x) fra 1 til 3 = P(1£X £ 3) = (3 – 1)/(5 –0)
= 2/5 = 0,41
Uniform [a, b] fordeling
f(x)
1/5
50
![Page 20: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/20.jpg)
Normal-fordelingen
Normal-fordelingen er en vigtig fordeling, blandt andet fordi mange andre fordelingen, kan approksimeres til den.
Desuden er mange teststørrelser normal-fordelte – kommer senere i kurset
Bland andre Carl F. Gauss (1777-1855) fandt frem til den, derfor kaldes den også den Gaussiske fordeling.
-4 -2 0 2 4
0.0
0.2
0.4
x
fun
ctio
n(x) d
no
rm
(x) (
x)
GaussGaussfordeling
Må ikke printes ;-)
![Page 21: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/21.jpg)
Normal fordelingen Dens kendetegn er:
Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi = median = toppunkt Den er karakteriseret ved en middelværdi m og varians s2
(eller standardafvigelsen σ). Notation: X~N(m,s2) betyder, at X følger en normal
fordeling med middelværdi μ og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den
samme for enhver normal fordeling - uanset middelværdi og standard afvigelse.
Er uanset parametre værdier, defineret for alle x (dvs x kan antage værdier fra minus uendelig til plus uendelig)
![Page 22: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/22.jpg)
Tæthedsfunktionen for normal-fordelingen:
50-5
0.4
0.3
0.2
0.1
0.0
x
f(x)
Normal-fordelingen : = 0, = 1
Tæthedsfunktionen for normal-fordelingen
1415926537182818,2
2
1)(
2
2
2
)(
2
,πe
xexfx
og hvor
for
![Page 23: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/23.jpg)
Eksempler på normal-fordelinger
σ = 1.0
σ = 2.0 σ = 0.5
μ = 0.0 μ = 1.0 μ = 2.0
Samme varians
Samme middelværdi.
![Page 24: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/24.jpg)
Standardafvigelsen σ når X~N(μ,σ2) Cirka 68% af all observationer ligger indenfor en
standard afvigelse fra middelværdien
Cirka 95% af alle observationer ligger indenfor to standard afvigelser fra middelværdien
Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien
%68)( XP
%95)22( XP
%7,99)33( XP
![Page 25: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/25.jpg)
2σ
3σ
σ
≈99,7%
≈95%
≈68%
Arealet under kurven indenfor kσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse.
![Page 26: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/26.jpg)
Standard normalfordelingen, er normalfordelingen med middelværdi μ = 0 og standard afvigelse σ = 1, Z~N(0,1²)
Standard normalfordelingen
543210- 1- 2- 3-4- 5
0 .4
0 .3
0 .2
0 .1
0 .0
Z
f(z)
Standard Normalfordeling
= 0
=1{
NB: En standard normalfordelt stokastisk variabel betegnes sædvanligvis Z.
![Page 27: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/27.jpg)
Den kumulative fordelingsfunktion F(x) for standard normal fordelingen er tabellagt i Tabel 1 i Appendikset, side 837 for positive værdier af x.
Figuren viser
P(Z ≤ 1.21) = F(1.21)
Tabellen
P(Z≤1.21)
F(1.21)
F(z) = P(Z ≤ z)
![Page 28: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/28.jpg)
Find P(Z < 1.21) vha. Tabelopslag
P(Z ≤ 1.21 ) = F(1.21) = 0.8869
88,69% Bemærk: Standard normalfordelingen Er kun tabellagt for z = 0.00 til 3.99.
![Page 29: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/29.jpg)
Find P(Z < -1.76) Vi kan ikke slå F(-1.76)
op i tabellen… Da standard normal-
fordelingen er symmetrisk omkring nul:
Vi har også:
Dvs.
)76.1()76.1( ZPZP
P(Z ≥ 1.76)P(Z ≤ -1.76)
0392.09608.01
)76.1(1
)76.1(1)76.1(
F
ZPZP
%92.3)76.1( ZP
P(Z ≤ 1.76)
P(Z ≥ 1.76) Tabelopslag
![Page 30: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/30.jpg)
Find P(1 ≤ Z ≤ 2) Der gælder
P(1 ≤ Z ≤ 2)P(Z ≤ 2)
P(Z ≤ 2)
1359.0
8413.09772.0
)1()2(
)1()2()21(
FF
ZPZPZP
![Page 31: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/31.jpg)
Transformation til Standardnormal Efter en lineær transformation af normalfordelt stokastisk
variabel er stadig en normalfordelt stokastisk variabel. Lad X ~N(m,s2) og definer Y = aX + b, så gælder
E[Y] = aE[X] + b = am + b V[Y] = a2V[X] = a2s2 Y ~ N(am + b, a2s2)
Lad X ~N(m,s2) og definer Z = (X-m)/s2, så gælder E[Z] = 0 V[Z] = 1 Z ~ N(0,1)
![Page 32: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/32.jpg)
Transformation: Eksempel Antag studerendes score til eksamen er normalfordelt med
middelværdi 60 og standardafvigelse 15. Dvs. score X ~ N(60,152) Spørgsmål: Hvor stor en andel af de studerende har en
score under 95? P(X ≤ 95) = ? Ide: Transformer problemet til et, der vedrører en standard
normal-fordelt stokastisk variabel.
Dvs. 99.01% af de studerende har en score under 95.
9901.0)33.2()33.2(15
6095
15
609595)95(
FZPZP
ZPX
PXP
![Page 33: Statistik Lektion 3](https://reader035.vdokument.com/reader035/viewer/2022081503/5681364b550346895d9dc9c9/html5/thumbnails/33.jpg)
Kumulative fordeling i R
For dem der foretrækker kommando-linjen i R
Antag X ~ N(2,32)
Vi kan finde den kumulerede sandsynlighed F(7) = P(X 7) vha. kommandoen
pnorm(x=7,mean=2,sd=3)
R har en standard rækkefølge til parametre, så man kan nøjes med at skrive
pnorm(7,2,3)