statistische methoden mmst-1 beschreibung der stichprobe · fak. elektrotechnik &...
Post on 09-Oct-2019
4 Views
Preview:
TRANSCRIPT
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Statistische Methoden MMST-1Beschreibung der Stichprobe
VL MMSWintersemester 2011Professur für Prozessleittechnik
L. Urbas, J. Ziegler
Evaluation mittels Stichprobe
14.12.2010 MMST (c) Urbas 2010 2
Stichproben-ziehung
BeschreibendeStatistik
Population Stichprobenmitglieder
Inferenz-statistischer
Schluss
Übersicht deskriptive Statistik
• Typen von Messgrößen, Skalenniveaus– Nominal, Ordinal, Reell (Interval,Verhältnis,Absolut)
• Tabellarische & grafische Analyse– Häufigkeitsverteilung diskreter Daten– Empirische Verteilungsfunktion– Klassifizierung/Kategorisierung stetiger Daten
• Verteilungsmaße– zentrale Tendenz, Streuung, Schiefe
• Standardisierung– Z-Standardisierung, Standardisierte Mittelwertsdifferenz
• Korrelation zweier intervallskalierter Merkmale
14.12.2010 MMST (c) Urbas 2010 3
Rechenbeispiele in R
• R is a system for statistical computation and graphics. It consists of a language plus a run-time environment with graphics, a debugger, access to certain system functions, and the ability to run programs stored in script files.
• R has a home page at http://www.R-project.org/. It is free software distributed under a GNU-style copyleft, and an official part of the GNU project (“GNU S”).
14.12.2010 MMST (c) Urbas 2010 4
Einführung
• Messreihe (Stichprobe, Datensatz)X1, X2, …, Xn
n: Stichprobenumfang
• Beschreibende Statistik:– Übersichtliche Darstellung von Eigenschaften der
Messreihe
• Explorative Statistik:– Auffinden von unbekannten Strukturen der Messreihe
14.12.2010 5MMST (c) Urbas 2010
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Typen von Messgrößen / Skalen
14.12.2010MMST (c) Urbas 2010 6
Typen von Messgrößen (Skalen)
• Anzahl der auftretenden Ausprägungen xi– Endlich oder abzählbar unendlich: diskret– Alle Werte x eines Intervalls: stetig
• Struktur des Wertebereichs– Abstandbegriff vorhanden?– Ordnungsbegriff vorhanden?
Abstand? Ordnung? Beispiel
Reell Ja Ja Temperatur [K]
Ordinal Nein Ja Schulnote 1..6
Zirkulär Ja Nein Uhrzeit
Nominal Nein Nein Studiengang
14.12.2010 7MMST (c) Urbas 2010
Reelle Messgrößen
• Intervallskala– Nullpunkt & Maßeinheit nicht eindeutig festgelegt– Lineartransformation zwischen Intervallskalen:– Beispiele:
• Temperatur in Celsius/Fahrenheit, Kalenderzeit
• Verhältnisskala– Fester Nullpunkt– Proportionale Transformation zw. Verhältnissk.:– Beispiele:
• Länge, Masse, Dauer, Winkel, Preise, Temperatur in K
• Absolutskala– Einheit festgelegt: Häufigkeit, Anzahl Personen/Hörsaal
14.12.2010 8MMST (c) Urbas 2010
xbby 10 +=
0; 11 >= bxby
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Tabellarische & grafische Analyse
14.12.2010MMST (c) Urbas 2010 9
Häufigkeitsverteilung diskreter Daten
14.12.2010 MMST (c) Urbas 2010 10
• Beispiel: Beobachtung eines Operators über 14 Tage– Aufzeichnung der Fehler/Tag– Urliste Häufigkeitstabelle
UrlisteBeobachtungs-
tagAnzahl Fehler
xi
1 12 23 04 25 06 17 38 29 4
10 211 112 013 214 1
Nummerische Häufigkeitstabelle
Anzahl Fehler xi
Anzahl Tage n(xi)=ni
Anteil der Tage h(xi)=hi
Kummulierte absolute
Häufigkeit Ni
Kummulierte relative
Häufigkeit Fi
0 3 0,21 3 0,211 4 0,29 7 0,502 5 0,36 12 0,863 1 0,07 13 0,934 1 0,07 14 1,00
Summe 14 1
Häufigkeit der MerkmalsausprägungStab/Balkendiagramm
01
23
45
xi
n i
0 1 2 3 4 0 1 2 3 4
xin i
01
23
45
14.12.2010 MMST (c) Urbas 2010 11
Empirische Verteilungsfunktion
•Kummulierte relative Häufigkeit / relative Summenhäufigkeit
•Empirische Verteilungsfkt.
14.12.2010 MMST (c) Urbas 2010 12
-1 0 1 2 3 4 50.
00.
20.
40.
60.
81.
0
ecdf(x)
x
Fn(
x)
R:
• Häufigkeitstabelle, H.verteilung, empirische Verteilungsfkt.
• Was tun, wenn eine realisierbare Merkmalsausprägung nichtin den beobachteten vorkommt?
14.12.2010 MMST (c) Urbas 2010 13
Häufigkeitsverteilung stetiger, mindestens intervallskalierter Merkmale•Häufigkeitstabelle
–Aufteilung in k disjunkte Klassen
• √n•
–Tabellieren: Anzahl der Punkte der Messreihe, die in einer Klasse liegen
•Beispiel: Verkehrstote in UK 1969-1984
14.12.2010 14MMST (c) Urbas 2010
Verteilungsarten
• Symetrie– Symetrisch (Körpergröße) – Asymetrisch (Einkommen)
• Modalität– unimodal (Einkommen BRD)– bimodal (Einkommen in Stadt mit Armenviertel)– multimodal
• Breite– Schmalgipflig (Laufzeiten Profis)– Breitgipflig (Laufzeiten untrainierte Personen)
• Schiefe– linkssteil(rechtsschief) : Streckenlänge mit Auto, Bier/PartyTN– rechtssteil(linksschief): Frage: WS dass GER gg. AUS gewinnt?
14.12.2010 MMST (c) Urbas 2010 15
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Verteilungskennwerte
14.12.2010MMST (c) Urbas 2010 16
Verteilungskennwerte
• Kennzahlen sind häufig prägnanter als Grafiken• Vergleich von Verteilungen zweier Stichproben mit
dem Ziel statistische Entscheidungen zu treffen:– Zeigen zwei Gruppen (z.B. mit altem/neuem UI) im
Durchschnitt unterschiedliche Ausprägungen in einem abhängigen Merkmal (z.B. Leistung)?
• Maße der zentralen Tendenz (Mittelwerte)– Zentrum einer Verteilung
• Maße der Streuung (Dispersion)– Ausmaß an Unterschiedlichkeit in einer Verteilung
• Maße der Schiefe– Symetrie der Verteilung
14.12.2010 MMST (c) Urbas 2010 17
Maße für die zentrale Tendenz (1/2)
• Modus / Modalwert – Merkmalsausprägung xi, die am
häufigsten gemessen wird– Wenig aussagekräftig bei multimodalen Verteilungen,– Bereits für nominalskalierte Merkmale sinnvoll
• Median (50%-Wert, Zentralwert)– Der Wert xi für den gilt, dass 50% aller Werte größer
und 50% kleiner sind• N ungerade: ((N+1)/2)-ter Wert der geordneten Reihe• N ungerade : arith. Mittel (N/2)-ter, ((N+2)/2)-ter
– Mindestens ordinalskalierte Merkmale
14.12.2010 MMST (c) Urbas 2010 18
)(maxargmod xhxixx∈
=
Maße für die zentrale Tendenz (2/2)
• Arithmetisches Mittel („Durchschnitt“)
– Mindestens intervallskalierte Messwerte
• Eigenschaften– Summe der Abweichungen der Messwerte vom MW = 0– Summe der quadrierten Abweichungen = min– Lineare Transformation der Einzelwerte führt zu gleicher
Trafo bei arithm. Mittel
14.12.2010 MMST (c) Urbas 2010 19
∑=
=n
iix
nx
1
1
Beispiel: Fehler / Tag
• R hat keine Modus-Funktion – selbst definieren
• modus(x) : 2
• median(x) : 1.5
• mean(x) : 1.571
14.12.2010 MMST (c) Urbas 2010 20
Arithm. Mittel NICHT bei ordinalskaliertenDaten einsetzen!
• Wie würden Sie die Fachkompetenz der folgenden Politiker einschätzen?1=sehr niedrig, 2=eher hoch, 3=hoch, 4=sehr hoch
• mean(PA): 2.06, mean(PB): 2.03 – Für beide zwischen „eher hoch“ und „hoch“, obwohl PAs
Fachkompetenz von mehr als der Hälfte der Befragten als „sehr niedrig“ eingeschätzt wurde
• median(PA): 1, median(PB): 214.12.2010 MMST (c) Urbas 2010 21
Politiker 1 2 3 4
PA 16 3 6 6
PB 2 26 3 0
Arithm. Mittel und Ausreisser
• Beispiel: Monatliches Budget von 30 Studenten– 29 mit Finanzbudget zwischen 400 - 700 EUR,
Mittelwert ~ 550 EUR – Ein Student mit 5000 EUR
• Mittelwert über alle: 700 EUR– Optimale Repräsentation nach Kriterium der kleinsten
Quadrate, zur Schätzung der Einzelwerte jedoch nahezu nutzlos
• 29 Personen überschätzt, 1 Person drastisch unterschätzt
• Bessere Repräsentation durch Median– Unbeeinflusst von Ausreißer!
14.12.2010 MMST (c) Urbas 2010 22
Beschreibung der Streuung (1/2)mindestens ordinalskaliert
• Spannweite (Range)
– Informationsverlust bei Ausreissern
• Quartilabstand (Interquartilbereich)– Qdif = Q3-Q1=P75-P25
• Box-and-Whisker-Plot– Kombination Median, Interquartilbereich, Range– Ausreißer: z.B. mehr als eine Box-Breite
außerhalb Box (je nach Library)
14.12.2010 MMST (c) Urbas 2010 23
Beschreibung der Streuung (1/2)mindestens intervallskaliert
• Mittlere absolute Abweichung
• Stichprobenvarianz (mittl. quadratische Abweichung)
• Streuung (Standardabweichung)
14.12.2010 MMST (c) Urbas 2010 24
∑=
−=n
ii xx
nx
1MAD )(1
∑=
−=n
ii xx
ns
1
22 )(1
2ss =
Beschreibung der Streuung (2/2)mindestens intervallskaliert
• …• Stichprobenvarianz
• Schätzung der Varianz der Population aufgrund einer Stichprobe des Umfangs n
14.12.2010 MMST (c) Urbas 2010 25
∑=
−=n
ii xx
ns
1
22 )(1
∑=
−−
=n
ii xx
n 1
22 )(1
1σ̂ 22
1ˆ s
nn−
=σ
Interpretation
• Beispiel– Arithmetisches Mittel der Teilnehmer MMST: 176 cm– Mittlere durchschnittliche Abweichung: 9 cm
• Aufgabe: Schätze im voraus die Größe des nächsten Seminarteilnehmers der den Raum betritt:
– 176 cm: beste Prognose nach Kriterium kleinster Fehlerquadrate!
• Interpretation – MAD: Wir liegen fast immer falsch: Im Durchschnitt
werden wir uns um 9cm verschätzen– Streuung: Abweichung wird mit sich selbst gewichtet!
Maß für Unterschiedlichkeit der Werte der Stichprobe
14.12.2010 MMST (c) Urbas 2010 26
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Standardisierung
14.12.2010MMST (c) Urbas 2010 27
Vergleich verschiedener Merkmale
• Beispiel: – Stichprobe Äpfel: xA=150g, sA=10g– Stichprobe Birnen: xB=180g, sB=10g
• Common Sense:– Ein Apfel mit 160g ist ein relativ schwerer Apfel– Eine Birne mit 170g ist eine relative leichte Birne
• Standardisierung?
14.12.2010 MMST (c) Urbas 2010 28
Z-Standardisierung
• Z-Wert: – Wie viele Standardabweichungen und in welche
Richtung weicht ein Messwert xi vom arithmetischen Mittel ab
• Lineartransformation:
• Form der Verteilung wird nicht verändert!• Für z gilt: mean(z): 0, sd(z)=1
14.12.2010 MMST (c) Urbas 2010 29
sxx
sxx
sz i
ii−
=−=1
01=−=
sxx
sz 11)( == s
szs
Standardisierte Mittelwertsdifferenz d
• Aufgabe: Vergleich von Mittelwertsdifferenzen aus unterschiedlichen Untersuchungen
• Effektstärke d– Um wieviele Standardabweichungen unterscheiden sich
zwei Mittelwerte?
• Gepoolte Standardabweichung
14.12.2010 MMST (c) Urbas 2010 30
pooled
BA xxdσ−
=
)1()1(ˆ)1(ˆ)1( 22
−+−−+−
=BA
BBAApooled nn
nn σσσ
Beispiel
• Fragestellung– Unterscheiden sich ältere Nutzer (Stichprobe A)
hinsichtlich ihrer Interaktion mit mobilen Geräten von jungen Nutzern (Stichprobe B).
• Klas sifikation von Cohen (1988)– |d| ~ 0.2: schwacher Effekt– |d| ~ 0.5: mittlerer Effekt– |d| ~ 0.8: starker Effekt
14.12.2010 MMST (c) Urbas 2010 31
Gruppe ØAlter x σ² N
A 40 37 144 51
B 20 33 121 71
Schiefe einer Verteilung
• Differenz arithm. Mittel – Median
– dif > 0: tendenziell linkssteil/rechtsschief– dif < 0: tendenziell rechtssteil/linksschief– dif ~ 0: tendenziell symetrisch
• Schiefe
14.12.2010 MMST (c) Urbas 2010 32
medxxdif −=
∑=
−=
n
i
i
xsxx
na
1
3
)()(1
Fak. Elektrotechnik & Informationstechnik ◦ Institut für Automatisierungstechnik ◦ Professur für Prozessleittechnik
Lineare Korrelations- und Regresssionsanalyse
14.12.2010MMST (c) Urbas 2010 33
Zusammenhangssaussagen
• MMST-Fragen lassen sich häufig als Zusammen-hangssaussagen (wenndann, jedesto) formulieren
• Beispiel 1: Mobile Interaktion ist für Kontext Instandhaltung sinnvoll
– Wenn ein mobiles Gerät genutzt wird, dann werden weniger Fehler gemacht
• Merkmal A: Mobiles Gerät vs. kein Mobiles Gerät • Merkmal B: Anzahl Fehler
– Wenn ein bestimmtes mobiles Gerät genutzt wird, dann werden deutlich weniger Fehler gemacht
• Merkmal A: verschiedene mobile Geräte• Merkmal B: Anzahl Fehler
14.12.2010 MMST (c) Urbas 2010 34
Zusammenhangssaussagen
• …• Beispiel 2: Selbstwirksamkeitsüberzeugung korreliert
mit Lerngeschwindigkeit – Je höher die Selbstwirksamkeitsüberzeugung, desto
schneller werden wenige bis keine Fehler gemacht• Merkmal A: Selbstwirksamkeitsüberzeugung• Merkmal B: Lerngeschwindigkeit
• In allen Beispielen werden Merkmale in Beziehung gesetzt
– Beispiel 1: nominal <-> intervall (nächste VL)– Beispiel 2: intervall <-> intervall
14.12.2010 MMST (c) Urbas 2010 35
Analysearten:
• Mittelwertvergleich:– Unterscheiden sich Gruppen hinsichtlich der
durchschnittlichen Ausprägung eines Merkmals?
• Zusammenhangsanalyse (Korrelationsanalyse):– Gehen hohe/niedrige Werte in einem Merkmal mit
hohen/niedrigen Werten eines anderen Merkmals einher?
• Regressionsanalyse:– Wie lässt sich ein Merkmal X aus einem korrelierten
Merkmal Y am besten vorhersagen? – Welche Transformation der x-Werte führt zu einer
möglichst präzise Schätzung der y-Werte?
14.12.2010 MMST (c) Urbas 2010 36
Streudiagramm
14.12.2010 MMST (c) Urbas 2010 37
DriversK
1000 1500 2000 2500 300 400 500 600 0.08 0.10 0.12 0.0 0.2 0.4 0.6 0.8 1.0
6012
018
0
1000
2000
drivers
front
400
800
1200
300
500
rear
kms
8000
1600
0
0.08
0.11
PetrolPr
VanKille
510
15
60 100 140 180
0.0
0.4
0.8
400 600 800 1000 8000 12000 16000 20000 5 10 15
law
Korrelationsrechnung
• Gesucht: Maß für Stärke eines linearen Zusammenhangs zwischen zwei Größen:
• Wie stark spiegeln sich Veränderungen in einem Merkmal in einem anderen wider?
• Ansätze:– ( Fechners Korrelationsindex rF )– Kovarianz (zentrales Produktmoment) COV– Pearsons Produkt-Moment-Korrelation r
14.12.2010 MMST (c) Urbas 2010 38
Fechners Korrelationsindex F
• Einfaches und anschauliches Maß– Abweichungsprodukt awp:
– k = Anzahl der Objekte mit awp >0– d = Anzahl der Objekte mit awp <0
• Interpretation:– F=-1 Nur gegengerichtete Objekte– F=0 Gleich/gegengerichtet gleich häufig– F=1 Nur gleichgerichtete Objekte
14.12.2010 MMST (c) Urbas 2010 39
Δx
Δy
dk
dkF nn
nnr+−
=
( )( ) iiiii yxyyxxawp ∆∆=−−=
d
d k
k
(Stichproben)Kovarianz
• Berücksichtigt auch Stärke der Abweichung vom Mittelwert pro Objekt:
– COV(x,y)<0 negativer linearer Zusammenhang– COV(x,y)~0 Kein Zusammenhang– COV(x,y)>0 positiver linearer Zusammenhang
• Wertebereich Kovarianz (Schwarz´sche Ungleichung)
14.12.2010 MMST (c) Urbas 2010 40
( )( ) yxyxn
yyxxn
syxCOVn
iiii
n
iixy ⋅−
=−−== ∑∑== 11
11),(
[ ] yxxyyxyx sssssssyxCOV ≤≤−≤≤ 222),(0
COV variant ggü. Lineartranformation!
• COV ist kein eindeutiges Zusammenhangsmaß (z.B. Änderung Maßeinheit)
• Beispiel: Gewicht (X) in kg, Größe in m
• COV(x,y) : 1.0267• Größe in cm COV(x,y) : 102,67• Allgemein:
p=b01+b11· x; q=b01+b12 · yCOV(p,q)=b11 · b12 · COV(x,y)
14.12.2010 MMST (c) Urbas 2010 41
65 75 91
1.70 1.77 1.93
1.70 1.80 1.90
6575
85
data$größe
data
$gew
icht
Pearsons Produkt-Moment-Korrelation r
• Standardisierung durch Produkt der Streuungen
• Invariant ggü. Lineartransformation• Wertebereich
– r = -1 : perfekt negativ linearer Zusammenhang– r ~ 0 : kein linearer Zusammenhang
(X,Y müssen dennoch nicht unabhängig sein!)– r =+1 : perfekt positiv linearer Zusammenhang
14.12.2010 MMST (c) Urbas 2010 42
yxssyxCOVr ),(
=
Effektstärke |r|
• Cohen (1988) gibt grobe Orientierung:– |r| ~ .1 : schacher Effekt – |r| ~ .3 : mittlerer Effekt – |r| ~ .5 : starker Effekt
• Vorsicht: Güte der Korrelation ≠ Stärke/Effekt– Bewerberauswahl
• Sei Korrelation Bewerbungsgespräch/Berufseignung: .1 • Alternative mit Korrelation .3 wäre „sehr gut“
– Pünktlichkeit von Zügen• Korrelation Ankunftszeit/Fahrplan .99 kann sehr schlecht
sein (Beispiel: )
14.12.2010 MMST (c) Urbas 2010 43
Lineare Regressionsanalyse
• X ist bekannt (Prädiktor)• Y soll möglichst präzise geschätzt werden (Kriterium)
• Einfache lineare Regressionsanalyse– Nur sinnvoll wenn X und Y korreliert sind– Es soll lineare Funktion gefunden werden, die
Zusammenhang zwischen X und Y optimal beschreibt
– Methode der kleinsten Quadrate:
14.12.2010 MMST (c) Urbas 2010 44
ii xbby ⋅+= 10ˆ
( ) ( )( ) minˆ),(QS1
!2
101
210Fehler ∑∑
==
=⋅+−=−=n
iii
n
iii xbbyyybb
Optimale Schätzung
• Regressionsgleichung nach Kriterium der kleinsten Quadrate liefert optimale Schätzung wenn:
14.12.2010 MMST (c) Urbas 2010 45
iii xxyxx
xyxyxbby
)VAR(),(COV
)VAR(),(COVˆ 10 +
−=⋅+=
Abschließende Hinweise
• Ergebnisse der hier berichteten Verfahren haben nur Gültigkeit für die Stichprobe
• Beispiel: Experiment mit 10 Pbd– UV: Gestaltungsalternative , AV: Leistung, r=0.3
• Falsch: – Gestaltung und Leistung korrelieren zu r =.3
• Richtig: – In dieser Untersuchung mit diesen Probanden
korrelieren Gestaltung und Leistung zu r =.3a. Wert für r wird sich in einer beliebigen anderen Gruppe nie
wieder zeigenb. Wert kann in anderer Gruppe auch höher sein
14.12.2010 MMST (c) Urbas 2010 46
Literaturhinweise
• Einführung in die StatistikWirtz, M., Nachtigall, Ch. (2006). . Juventa,
Weinheim.Bortz, J., Döring, N. (2006). .
Springer, Berlin.
• Einführung RDalgaard, P. (2008, 2nd. Ed). .
Springer, Berlin. http://www.biostat.ku.dk/~pd/ISwR.html.Adler, J. (2009). . O‘Reilly, Sebastopol(CA).
• Weiterführendes MaterialCohen, J. (1992). A power primer. , 112,
155-159.
14.12.2010 MMST (c) Urbas 2010 47
top related