bivariate daten: tabellarische und ... - fakultät statistikraabe/handouts04.pdf · mathematische...

Bivariate Daten: Tabellarische und grafische Darstellungen

Ordinale Daten

Kontingenztafeln und Mosaikplots mit geordneten Kategorien

Quantitative Daten

Kontingenztafeln und Mosaikplots mit klassierten Daten

1Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Bivariate Daten: Tabellarische und grafische Darstellungen

Quantitative Daten : Beispiel Bearbeitungen von Softwareaufgaben

Streudiagramm

Darstellung der Punktepaare (xi, yi) in einem kartesischen Koordinatensystem



Bivariate Daten: Zusammenhangsmaße

Erinnerung allgemeine Eigenschaft der Streuung univariater Daten:

Streuung von X desto höher, je schlechter konkrete Werte sich vorhersagen lassen.

Bisher: Vorhersage der Werte von X durch einzelnen Lageparameter.

Jetzt: Vorhersage der Werte von Y unter Verwendung der Werte von X.

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt(oder umgekehrt).




Korrelation und Kausalität

Es gilt:

X ist Ursache von Y => X und Y korrelieren

Aber:

X und Y korrelieren => X ist Ursache von Y



X Y

X Y ⇓

X Y

X Y ⇑


Korrelation und Kausalität

X ist Ursache von Y => X und Y korrelieren

X und Y korrelieren => X ist Ursache von Y

VerschiedeneKorrelationsquellenmöglich



X Y

X Y

⇓

X YZ ⇒

X Y

⇓

X YZ ⇐

X Y

Z

X Y

Z

⇑ ⇑

Bivariate Daten: ZusammenhangsmaßeSimpson‘s Paradoxon

Beispiel: Gelbe Karten für deutsche und englische Teams in

nationalen und internationalen Wettbewerben

22 betrachtete Spiele der Saison 2010/2011:



Spiel Gelb Spiel Gelb

Tot‘ham Arsenal 5 (3+2) ManU Arsenal 4 (0+4)

Partizan Arsenal 0 Werder Bayern 4 (2+2)

Bayern Werder 0 Tot‘ham ManU 6 (2+4)

Bayern Cluj 2 Real Tot‘ham 3

Bayern Werder 4 (1+3) Inter Schalke 4

ManU Tot‘ham 3 (0+3) Werder Schalke 3 (0+3)

Bursa ManU 0 Tot‘ham Arsenal 3 (0+3)

Schalke Werder 3 (1+2) Bayern Schalke 3 (1+2)

Arsenal Tot‘ham 4 (3+1) OM ManU 0

Schalke Bayern 1 (0+1) Schalke Bayern 2 (0+2)

Benfica Schalke 2 Arsenal ManU 5 (2+3)


Simpson‘s Paradoxon



Gelbe Karten pro Team und Spiel



Team

Deutsch Englisch

1.474 19

28 = 1.833 18

33 =

Bivariate Daten: ZusammenhangsmaßeSimpson‘s Paradoxon



22 betrachtete Spiele der Saison 2010/2011:



Spiel Herkunft Schiri Gelb Spiel Herkunft Schiri Gelb

Tot‘ham Arsenal England 5 (3+2) ManU Arsenal England 4 (0+4)

Partizan Arsenal Deutschland 0 Werder Bayern Deutschland 4 (2+2)

Bayern Werder Deutschland 0 Tot‘ham ManU England 6 (2+4)

Bayern Cluj England 2 Real Tot‘ham Deutschland 3

Bayern Werder Deutschland 4 (1+3) Inter Schalke England 4

ManU Tot‘ham England 3 (0+3) Werder Schalke Deutschland 3 (0+3)

Bursa ManU Deutschland 0 Tot‘ham Arsenal England 3 (0+3)

Schalke Werder Deutschland 3 (1+2) Bayern Schalke Deutschland 3 (1+2)

Arsenal Tot‘ham England 4 (3+1) OM ManU Deutschland 0

Schalke Bayern Deutschland 1 (0+1) Schalke Bayern Deutschland 2 (0+2)

Benfica Schalke England 2 Arsenal ManU England 5 (2+3)








Team

Deutsch Englisch

1.474 19

28 = 1.833 18

33 =






Bedingt auf Herkunft Schiedsrichter



Schiri englisch

Schiri deutsch

Team

Deutsch Englisch

SchiriDeutsch 1.25 0.75

Englisch 2.667 2.143

1.474 1.833






Bedingt auf Herkunft Schiedsrichter



Schiri englisch

Schiri deutsch

Team

Deutsch Englisch

SchiriDeutsch

20/16= 1.25

3/4= 0.75

23/20= 1.15

Englisch8/3

= 2.66730/14

= 2.14338/17

= 2.235

28/19= 1.474

33/18= 1.833


Nominale Daten

Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).



Wert von Y lässt sich bei Kenntnis von X um-so besser vorhersagen, je stärker die bedingte Verteilung fY|X von Y gegeben X von der Randverteilung f•Y von Y abweicht.

Y

y(1) y(2) … y(K) Σ

X

x(1) fy;1|1 fy;2|1 … fy;K|1 1

x(2) fy;1|2 fy;2|2 … fy;K|2 1

… … … … … …

x(J) fy;1|J fy;2|J … fy;K|J 1

f•1 f•2 … f•K


Nominale Daten

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die bedingte Verteilung fY|X von Y gegeben X von der Randverteilung f•Y von Y abweicht.



Y

y(1) y(2) … y(K) Σ

X

x(1) f•1 f•2 … f•K 1

x(2) f•1 f•2 … f•K 1

… … … … … …

x(J) f•1 f•2 … f•K 1

f•1 f•2 … f•K

Zusammenhang minimal, falls

K}{1,...,k und J}{1,...,j alle für ff jj|ky; ∈∈= •




Y

y(1) y(2) … y(K) Σ

X

x(1) 0 1 … 0 1

x(2) 0 0 … 1 1

… … … … … …

x(J) 1 0 … 0 1

f•1 f•2 … f•K

Nominale Daten


Zusammenhang maximal, falls es für alle

gibt 1f mit K}{1,...,k ein J}{1,...,j j|ky; =∈∈




Nominale Daten


Ein Maß, dass desto größer wird, je größer die Abweichung der bedingten Verteilung fY|X von der Randverteilung f•Y ist, ist also ein sinnvolles Zusammenhangsmaß.

Y

y(1) y(2) … y(K) Σ

X

x(1) fy;1|1 fy;2|1 … fy;K|1 1

x(2) fy;1|2 fy;2|2 … fy;K|2 1

… … … … … …

x(J) fy;1|J fy;2|J … fy;K|J 1

f•1 f•2 … f•K




Nominale Daten


Wären bedingte und Randverteilung identisch, so würde ein Anteil vonvon f0;jk= f•k·fj• an den N Daten in Kategorie (x(j), y(k)) fallen.

Dieser Fall wird als empirische

Unabhängigkeit von X und Y bezeichnet.

Y

y(1) y(2) … y(K) Σ

X

x(1) f0;11 f0;12 … f0;1K f1•

x(2) f0;21 f0;22 … f0;2K f2•

… … … … … …

x(J) f0;J1 f0;J2 … f0;JK fJ•

Σ f•1 f•2 … f•K 1




Nominale Daten


Y

y(1) y(2) … y(K) Σ

X

x(1) ν11 ν12 … ν1K N1•

x(2) ν21 ν22 … ν2K N2•

… … … … … …

x(J) νJ1 νJ2 … νJK NJ•

Σ N•1 N•2 … N•K N

erwartet.x(k)) (x(j), Kategorie in genBeobachtun

N

NN

NN

NNN Nff ν

keitUnabhängig bei würden Somit

jkjk

jkjk

••••••

⋅=

⋅⋅⋅

=⋅⋅=




Nominale Daten

Je größer die beobachteten Anzahlen Njk von den erwarteten νjk abweichen, desto mehr unterscheiden sich bedingte und Randverteilungen. Ein Maß, dass auf der quadratischen Abweichung der erwarteten von den beobachteten Häufigkeiten basiert, ist die χ2-Größe

Y

y(1) y(2) … y(K) Σ

X

x(1) (N11-ν11)2 (N12-ν12)2 … (N1K-ν1K)2 N1•

x(2) (N21-ν21)2 (N22-ν22)2 … (N2K-ν2K)2 N2•

… … … … … …

x(J) (NJ1-νJ1)2 (NJ2-νJ2)2 … (NJK-νJK)2 NJ•

Σ N•1 N•2 … N•K N

N

NNν ,

ν

)ν(Nχ kj

jk

J

1j

K

1k jk

2jkjk2 ••

= =

=−

=∑∑




Nominale Daten: die χ2-Größe

Die χ2-Größe erfüllt die Forderung, desto größer zu werden, je größer die Abweichung der bedingten Verteilung fY|X von der Randverteilung f•Y ist.

N

NNν ,

ν

)ν(Nχ

kj

jk

J

1j

K

1k jk

2jkjk2 ••

= =

=−

=∑∑

∑∑∑∑

∑∑∑∑∑∑

= = •

••

= = ••

••

•

= = ••

••

= = ••

••

= = ••

••

−=

−

=

==

−=

J

1j

K

1k k

2kj|ky;j

J

1j

K

1k kj

2

k

j

jk2j

J

1j

K

1k kj

2kjjk

J

1j

K

1k kj

2kjjk

J

1j

K

1k kj

2

kj

jk

2

f

)f(fNf

ff

ff

fNf

ff

)ff-N(f

Nff

N)ff-N(f

NN

NN

NNN

χ





Alternative Darstellung der χ2-Größe

N

NNν ,

ν

)ν(Nχ

kj

jk

J

1j

K

1k jk

2jkjk2 ••

= =

=−

=∑∑

−=−=

+−=

+−=

+−=

−=

∑∑∑∑

∑∑∑∑

∑∑∑∑

= = ••= = ••

= = ••= =

••

••

••••

= = ••= = ••

••

1NN

NN N

NN

NN

N

N2N

NN

NN

N

NN2N

NN

NN

N

NN

N

NN2NN

NN

N

NN

NN

NNN

χ

J

1j

K

1k kj

2jk

J

1j

K

1k kj

2jk

2J

1j

K

1k kj

2jk

J

1j

K

1k

kj

jk

kj

2jk

2

kjkj

jk2jk

J

1j

K

1k kj

J

1j

K

1k kj

2

kj

jk

2





Es gilt: 0 ≤ χ2 ≤ N(min[J,K]-1)

Beweis:

0 ≤ χ2 klar wegen Nj• > 0, N•k > 0, (Njk – νjk)2 ≥ 0

0 = χ2 , wenn Njk = νjk, d.h. wenn alle bedingten Häufigkeiten den unter Unabhängigkeit erwarteten Häufigkeiten entsprechen. Nur möglich, wenn

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

K.1,...,k und J1,...,j alle für ν jk ==ℵ∈






Beweis:

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

{∑∑∑∑∑∑∑

∑∑∑

== = •= =

≤••= = ••

=

•= = ••

==≤=⇒

≤=≤⇔−≤

J

1j

J

1j

K

1k j

jkJ

1j

K

1k

(*) 1

k

jk

j

jkJ

1j

K

1k kj

2jk

J

1jjk

jk

k

jkJ

1j

K

1k kj

2jk2

J 1 N

N

N

N

N

N

NN

N

(*) 1

N

N

N

N :gilt Es K)min(J,

NN

N 1)K]N(min[J, χ

K)min(J, NN

N damit und K

NN

N analog , J

NN

N J

1j

K

1k kj

2jk

J

1j

K

1k kj

2jk

J

1j

K

1k kj

2jk ≤≤≤ ∑∑∑∑∑∑

= = ••= = ••= = ••






Beweis:

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

K)min(J, NN

N 1)K]N(min[J, χ

J

1j

K

1k kj

2jk2 ≤⇔−≤ ∑∑

= = ••





Wann gilt: χ2 = N(min[J,K]-1) ?

Sei o.B.d.A. K ≤ J. Dann gilt für alle k = 1,…,K und j = 1,…,J mit Njk > 0:

d.h. χ2 wird maximal, wenn es zu jedem j ein k(j) mit fy,k(j)|j = 1 gibt.

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

, 1 N

N K

NN

N

j

jkJ

1j

K

1k kj

2jk =⇔=

•= = ••∑∑





N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

0N , 1 N

N K

NN

Njk

j

jkJ

1j

K

1k kj

2jk >=⇔=

•= = ••∑∑

1.fN

N

mit existieren k(j) ein j jedem zu also muss Gleichheit die Für

K N

N

N

N

N

N gilt so gibt, 1

N

N0 mit k)(j, ein es Falls

"" :Beweis

j|k(j)y;

j

jk(j)

J

1j

K

1k k

jkJ

1j

K

1k j

jk

k

jk

j

jk

==

=<<<

⇒

•

= = •= = •••∑∑∑∑





N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

0N , 1 N

N K

NN

Njk

j

jkJ

1j

K

1k kj

2jk >=⇔=

•= = ••∑∑

KN/N

/NN NN

NN

NN

NN

N N N

N1f

"" :Beweis

K

1k k})jk(|j{j

jk(j)

k})jk(|j{j

jk(j)

K

1kk

k})jk(|j{jjk(j)

K

1k k})jk(|j{j kj

jk(j)jk(j)K

1k

J

1j kj

jkjk

jjk(j)

j

jk(j)

j|k(j)y;

=

=

==⇒

=⇒==

⇐

∑ ∑∑

∑ ∑∑ ∑∑∑

= =∈=∈

=•

=∈= =∈ ••= = ••

••

~~~~

~~~~






Kontingenzkoeffizient nach Pearson

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

[0,1] 1K)min(J,

K)min(J,

Nχ

χC

2

2

∈−+

=






Beispiel J = K = 2, N1• = N2• = N•1= N•2 = 50 (=> ν11 = ν12 = ν21 = ν22 = 25)

χ2 C χ2

N11 N11 |fy;1|1-f•1|




Nominale Daten: Beispiel Bearbeitungen von Softwareaufgaben

Njk

Aufgabe

Abfrage Export Verknüpfung Σ

Bearbei-ter(in)

Kai 0 1 1 2

Miriam 0 3 0 3

Oliver 2 1 1 4

Tina 0 1 2 3

Σ 2 6 4 12





νjk

Aufgabe


Bearbei-ter(in)

Kai 02·2/12=1/3

12·6/12=1

12·4/12=2/3

2

Miriam 03·2/12=1/2

33·6/12=3/2

03·4/12=1

3

Oliver 24·2/12=2/3

14·6/12=2

14·4/12=4/3

4

Tina 03·2/12=1/2

13·6/12=3/2

23·4/12=1

3

Σ 2 6 4 12





(Njk-νjk)2

Aufgabe


Bearbei-ter(in)

Kai 0(0-1/3)2=1/9

1(1-1)2=0

1(1-2/3)2=1/9

2

Miriam 0(0-1/2)2=1/4

3(3-3/2)2=9/4

0(0-1)2=1

3

Oliver 2(2-2/3)2=16/9

1(1-2)2=1

1(1-4/3)2=1/9

4

Tina 0(0-1/2)2=1/4

1(1-3/2)2=1/4

2(2-1)2=1

3

Σ 2 6 4 12





(Njk-νjk)2/νjk

Aufgabe


Bearbei-ter(in)

Kai 01·3/(9·1)=1/3

10/1=0

11·3/(9·2)=1/6

2

Miriam 01·2/(4·1)=1/2

39·2/(4·3)=3/2

01/1=1

3

Oliver 216·3/(9·2)=8/3

11/2

11·3/(9·4)=1/12

4

Tina 01·2/(4·1)=1/2

11·2/(4·3)=1/6

21/1=1

3

Σ 2 6 4 12





(Njk-νjk)2/νjk

Aufgabe


Bearbei-ter(in)

Kai 1/3 0 1/6 2

Miriam 1/2 3/2 1 3

Oliver 8/3 1/2 1/12 4

Tina 1/2 1/6 1 3

Σ 2 6 4 12

8.417 12

58

12

101

12112226180

63264

12

1

ν

)ν(N χ

J

1j

K

1k jk

2jkjk2 ≈==

++++++++

+++=

−= ∑∑

= =





(Njk-νjk)2/νjk

Aufgabe


Bearbei-ter(in)

Kai 1/3 0 1/6 2

Miriam 1/2 3/2 1 3

Oliver 8/3 1/2 1/12 4

Tina 1/2 1/6 1 3

Σ 2 6 4 12

0.786 490

303

2

3

24512

12101

1K)min(J,

K)min(J,

Nχ

χ C ,

12

101 χ

2

22 ≈=⋅

⋅⋅=

−+==




Ordinale Daten

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je mehr ein hoher Wert von X einen hohen Wert von Y impliziert (positiver Zusammenhang) bzw. je mehr ein hoher Wert von X einen niedrigen Wert von Y impliziert (negativer

Zusammenhang).



Ordinale Daten

Beispiel 15-Punkte-Benotungssystem: Noten in den Fächern Mathematik und Physik

Latente Leistung λx ,Benotung x= f (λx)




Ordinale Daten


Zusammenhang zwischen Leistungen




Ordinale Daten


Zusammenhang zwischen Noten bei unterschiedlicher Skalierung




Ordinale Daten


Zusammenhang zwischen Notenrängen bei unterschiedlicher Skalierung





Ordinale Daten


Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je mehr ein hoher Rang von X einen hohen Rang von Y impliziert (positiver Zusammenhang) bzw. je mehr ein hoher Rang von X einen niedrigen Rang von Y impliziert (negativer Zusammenhang).

Ein sinnvolles Zusammenhangsmaß für ordinale Daten sollte also im Absolutwert hoch sein, wenn hohe Ränge von X mit hohen bzw. niedrigen Rängen von Y einhergehen und niedrig, wenn Paare von hohen und hohen, hohen und niedrigen, niedrigen und hohen sowie niedrigen und niedrigen X- und Y-Rängen in gleichem Maße auftreten.




Quantitative Daten


Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je mehr ein hoher Wert von X einen hohen Wert von Y impliziert (positiver Zusammenhang) bzw. je mehr ein hoher Wert von X einen niedrigen Wert von Y impliziert (negativer Zusammenhang).

Ein sinnvolles Zusammenhangsmaß für quantit. Daten sollte also im Absolutwert hoch sein, wenn hohe Werte von X mit hohen bzw. niedrigen Werten von Y einhergehen und niedrig, wenn Paare von hohen und hohen, hohen und niedrigen, niedrigen und hohen sowie niedrigen und niedrigen X- und Y-Werten in gleichem Maße auftreten.




Quantitative Daten


Kovarianz:

sxy>0, wenn hohe Werte von X in hohem Maße mit hohen Werten von Y einhergehen

(Positive Korrelation)

sxy<0, wenn hohe Werte von X in hohem Maße mit niedrigen Werten von Y einhergehen (Negative Korrelation)

sxy=0, wenn hohe Werte von X in gleichem Maße mit hohen Werten wie mit niedrigen Werten von Y einhergehen (Unkorreliertheit)

)y(y)x(x1N

1s n

N

1n

nxy −−−

= ∑=




Quantitative Daten: Kovarianz )y(y )x(x 1N

1s n

N

1n

nxy −−−

= ∑=




Quantitative Daten: Kovarianz )y(y )x(x 1N

1s n

N

1n

nxy −−−

= ∑=

0)y(y)x(x

0

n

0

n <−⋅−><321321

0)y(y)x(x

0

n

0

n <−⋅−<>321321

0)y(y)x(x

0

n

0

n >−⋅−<<321321

0)y(y)x(x

0

n

0

n >−⋅−>>321321

x

y




Quantitative Daten

Kovarianz

Beweis analog zu Beweis von

( )yxxy1N

N yxNyx

1N

1 )y(y)x(x

1N

1 s

N

1n

nnn

N

1n

nxy ⋅−−

=

−−

=−−−

= ∑∑==

222x xx d −=

( )yxxy1N

Nyx

1N

Nyx

1N

N-yx

1N

Nxy

1N

N

yxy1N

1xyx

1N

1yx

1N

1

)yxyx-yxy(x1N

1 )y(y)x(x

1N

1 s

N

1ni

N

1ni

N

1nnn

N

1nnnnnn

N

1nnxy

⋅−−

=⋅−

+⋅−

⋅−

−−

=

⋅+

−−

−−

−=

⋅+−−

=−−−

=

∑∑∑

∑∑

===

==




Quantitative Daten

Kovarianz

Für die Kovarianz sxy gilt:

yxxyyx sssss ≤≤−




Quantitative Daten: Kovarianz

Beweis: Spezialfall der Cauchy-Schwarz-Ungleichung:

yxxyyx sssss ≤≤−

yxxyyx

N

1n

2n

N

1n

2n

N

1n

nn

N

1n

2n

N

1n

2n

N

1n

2n

N

1n

2n

N

1n

nn

N

1n

2n

N

1n

2n

N

1n

2n

N

1n

2n

2N

1nnn

N

1n

2n

N

1n

2n

2N

1nnn

2nn

ss s ss

1N

) y(y

1N

) x(x

1N

) y)(y x(x

1N

) y(y

1N

) x(x

) y(y) x(x ) y)(y x(x ) y(y) x(x

) y(y) x(x) y)(y x(x baba gilt ,)b,(a für

≤≤−⇔

−

−

−

−≤

−

−−≤

−

−

−

−−⇔

−⋅−≤

−−≤−⋅−−⇔

−⋅−≤

−−⇒⋅≤

ℜ∈

∑∑∑∑∑

∑∑∑∑∑

∑∑∑∑∑∑

=====

=====

======




Quantitative Daten: Kovarianz

Es gilt: – sxsy ≤ sxy ≤ sxsy

Korrelationskoeffizient nach Bravais-Pearson

yx

xy

xyss

sr =

)y(y )x(x 1N

1s n

N

1n

nxy −−−

= ∑=




Quantitative Daten: Korrelationskoeffizient nach Bravais-Pearson

1r1 sssss ss

sr xyyxxyyx

yx

xy

xy ≤≤−⇒≤≤−=

( ) ( )

liegen. Geraden einerauf y und x alle wenn 1, dann genau ist |r| heißt, Das

xd-ycc mit xdcy

x-xdcy-y 1,1}{r

n alle für adcb mit d und c Konstanten gibt es baba

gilt ,)b,(a für

gUngleichun-Schwarz-Cauchy der bei sbedingungGleichheit

nnxy

nn

nnxy

nn

N

1n

2n

N

1n

2n

2N

1nnn

2nn

+=⋅+=⇔⋅+=⇔−∈

⇒

⋅+=⇔⋅=

ℜ∈

∑∑∑===

~~




Quantitative Daten: Kovarianz )xdcdx(c )x(x 1N

1s n

N

1n

nxy +−+−−

= ∑=

x

y

1rxy =




Quantitative Daten: Korrelationskoeffizient nach Bravais-Pearson

Nicht-linearer monotoner Zusammenhangx

0.965rxy =

y




Ordinale/Quantitative Daten: Nicht-linearer monotoner Zusammenhang

Übergang zu Rängenx

y

0.965rxy =




Ordinale/Quantitative Daten: Nicht-linearer monotoner Zusammenhang

Übergang zu RängenR(x)

1rR(x)R(y) =

R(y)

R(x)

R(y

)




Ordinale/Quantitative Daten

Absolute Korrelation von Rängen bei monotonem Zusammenhang immer 1

0.965rxy =

1rR(x)R(y) =

0.79rxy =

0.979rxy =

0.952rxy =





Falls X und Y mindestens ordinales Skalenniveau haben, so wird der Bravais-Pearson-Korrelationskoeffizient der Ränge R(X) und R(X) von X und Y derSpearmansche Rangkorrelationskoeffizient rSp

xy von X und Y genannt:

( )( )

( ) ( )∑ ∑

∑

= =

====N

1n

N

1n

2

n

2

n

N

1n

nn

R(y)R(x)

R(x)R(y)R(x)R(y)

Spxy

R(y)-)R(y R(x)-)R(x

R(y)-)R(y R(x)-)R(x

ss

s r r





Spearmansche Rangkorrelationskoeffizient

Falls keine Bindungen auftreten, d.h. R(xj)≠ R(xk) und R(yj)≠ R(yk) für alle j ≠ k, so gilt:

( )∑=

=N

1n

2

nn2

Spxy )R(y-)R(x

1)-N(N

6-1 r

∑ ∑∑

∑ ∑∑

= ==

= ==

++===

+===N

1n

N

1n

22n

N

1n

2n

N

1n

N

1n

n

N

1n

n

6

1)1)(2NN(N n )R(y )R(x und

2

1)N(N n )R(y )R(x :tzBeweisansa




Ordinale/Quantitative Daten: Beispiel Bearbeitungen von Softwareaufgaben

Anzahl

Clicks

Rang

Bear-

beitungszeit

Rang

14 7.5 8.0 11

12 4.5 4.9 8

12 4.5 6.6 10

13 6 3.2 1

17 11 3.9 5

11 3 4.5 7

14 7.5 6.1 9

10 1.5 3.7 3.5

10 1.5 4.2 6

18 12 8.5 12

16 10 3.6 2

15 9 3.7 3.5

7s

13.5x2x

4

4==

3.24s

5.075x2x

5

5==

0.301 )3.24711.375)]/(1(1.51.475)(2.53.425)(4.5

0.875)3.5(1.375)3.5(1.025)(0.5 0.575)2.5(1.175)(3.51.875)0.5(

1.525)1.5(0.175)1.5(2.925)[(0.5r 54xx

=⋅⋅−⋅+−⋅+⋅++−⋅−+−⋅−+⋅

+−⋅−+−⋅+−⋅−+⋅−+−⋅−+⋅=

0.111 25)3)]/(39.45(2.54.5)(3.55.5)(5.5 0.5)5(3)5(2.5)(1

0.5)3.5(1.5)(4.55.5)0.5(

3.5)2(1.5)2(4.5)[(1r Spxx 54

=−⋅+−⋅+⋅++−⋅−+−⋅−+⋅

+⋅−+−⋅+−⋅−+⋅−+⋅−+⋅=

Bivariate Daten: Lineare Regression



Quantitative Daten: Erinnerung


Bravais-Pearson-Korrelationskoeffizient misst linearen Zusammenhang.

Wie lässt sich der lineare Zusammenhang zur Vorhersage nutzen?




Quantitative Daten

|rxy| = 1 <=> yn = c+dxn für n=1,…,N

Perfekte Vorhersage durch Einsetzen in die Gleichung.

kkjkjk

kk

kk

kjkj

kj

kjkj

kk

jj

x )x(x /)y(y y

dxyc dxcy

)x(x /)y(y d

)xd(x

)dx(c)dx(cyy

dxcy

dxcy:kj mit k)(j, beliebiges Für

−−−=−=⇔

+=

−−=⇔−=

+−+=−⇒

+=+=

≠




Quantitative Daten

0 <|rxy| < 1 <=> yn = c + dxn + εn für n=1,…,N

Vorhersagefehler εn = yn – c – dxn




Quantitative Daten: Methode der kleinsten Quadrate

Koeffizienten c

und d so

bestimmen, dass

Fehlerquadrat-

summe

minimal

wird.

∑=

=N

1n

2nεd)Q(c,





( )

( )

0 yxxdxcN

0yx2x2dx2Nc x ydxc2 d)Q(c,d

0yxd c 0 y2N-x2dN2Nc ydxc2 d)Q(c,c

Beweis

N

1nnn

N

1n

2n

N

1nnn

N

1n

2nn

N

1nnn

N

1nnn

=−+⇔

=−+=−+=∂∂

=−+⇔=+=−+=∂∂

∑∑

∑∑∑

∑

==

===

=

( )

xs

s-y c und

s

s d

für minimal ist dxcy d)Q(c, ratsummeFehlerquad Die

2x

xy

2x

xy

N

1n

2

nn

==

−−=∑=

( )

xs

syc (1) in (3) (3),

s

s

xx1/N

yxyx1/N

xNx

yxNyx

d

yxNyx xNxd 0 yxxdxN xd-y (2) in (1)

xdyc

0 yxxdxcN (2) 0yxd c (1)

Beweis

2x

xy

2x

xy

2N

1n

2n

N

1nnn

2N

1n

2n

N

1nnn

N

1n

nn2

N

1n

2n

N

1n

nn

N

1n

2n

N

1nnn

N

1n

2n

−==

−

⋅−=

−

⋅−=⇔

⋅−=

−⇔=−+

−=⇔

=−+=−+

∑

∑

∑

∑

∑∑∑∑

∑∑

=

=

=

=

====

==





( )

xs

s-y c und

s

s d


2x

xy

2x

xy

N

1n

2

nn

==

−−=∑=

0s4Nx4x4N

x2x2

x22N

det

x2 d)Q(c,dd

, x2 d)Q(c,dc

, 2N2d)Q(c,cc

yx2x2dx2Nc d)Q(c,d

, y2N-x2dN2Nc d)Q(c,c

Beweis

2x

2

2N

1nn

N

1n

2nN

1n

2n

N

1nn

N

1nn

N

1n

2n

N

1nn

N

1n

N

1nnn

N

1n

2n

>=

−=

=∂∂

∂=∂∂∂==

∂∂∂

−+=∂∂+=

∂∂

∑∑∑∑

∑

∑∑∑

∑∑

==

==

=

===

==





( )

xs

s-y c und

s

s d


2x

xy

2x

xy

N

1n

2

nn

==

−−=∑=





Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

xs

s-y c und

s

s d

2x

xy

2x

xy ==

( )( )2

y2xy

2y

2y

2xy

2y

2xy

2y

2x

2

x

y

xyxy

x

y

xy2y

N

1n

2n

2

x

y

xynn

x

y

xy2

n

N

1n

2

n

x

y

xyn

N

1n

2

n

x

y

xy

x

y

xyn

N

1n

N

1n

2

n2x

xy

2x

xy

n2n

srs1)-(N

srs2rs1)-(N ss

srs

s

s2rs1)-(N

)x(xs

sr)x)(xy(y

s

s2r)y(y )x(x

s

sr)y(y

xs

sr)x

s

sry(y x

s

s)x

s

sy(y ε

−⋅=

+−⋅=

+−⋅=

−

+−−−−=

−−−=

−−−=

−−−=

∑∑

∑∑ ∑

==

== =






0.034rxy =






0.477rxy =






0.9rxy =






1rxy =




Quantitative Daten: Beispiel Bearbeitungen von Softwareaufgaben

Anzahl

Clicks

Bear-

beitungszeit

c+dx4 ε

14 8.0 5.177 2.823

12 4.9 4.768 0.132

12 6.6 4.768 1.832

13 3.2 4.973 –1.773

17 3.9 5.791 –1.891

11 4.5 4.564 –0.064

14 6.1 5.177 0.922

10 3.7 4.359 –0.659

10 4.2 4.359 –0.159

18 8.5 5.995 2.505

16 3.6 5.586 –1.986

15 3.7 5.382 –1.682

7s

13.5x2x

4

4==

3.24s

5.075x2x

5

5==

0.301r 54xx =

0.205

7

3.240.301

s

srd

2.314

13.57

3.240.3015.075

xs

srx c

εdxcx

4

5

54

4

5

54

x

x

xx

4

x

x

xx5

45

=

==

=

−=

−=

++=




Quantitative Daten: Beispiel Bearbeitungen von Softwareaufgaben

ε0.205x2.314x 45 ++=

Zusammenfassung




Skalennivau →

↓Zusammenhangsmaß

Nominal Ordinal Quantitativ

χ2-Größe/ Kon-

tingenzkoeffizient

nach Pearson

Rangkorrelations-

koeffizient nach

Spearman

Korrelationskoeff.

nach Bravais-

Pearson/lin. Regr.

+ Robust + Allg. Zusammenhang– Informations-

verlust– Ausreißeranfällig – Lin. Zusammenhang+ Informations-

nutzung

– Nur für klassierteDaten

– Nur für J = 2

– Nur für J = 2

– Informations-verlust

bivariate daten: tabellarische und ... - fakultät statistikraabe/handouts04.pdf · mathematische...

Documents