Teil I: Deskriptive Statistik
2 Grundbegriffe
2.1 Merkmal und Stichprobe
2.2 Skalenniveau von Merkmalen
2.3 Geordnete Stichproben und Range
2.1 Merkmal und Stichprobe
An (geeignet ausgewahlten)
Untersuchungseinheiten (Beobachtungsein–heiten, Merkmalstrager)
werden Werte eines oder mehrerer Merkmale
festgestellt.
Merkmal (Variable) ist die zu untersuchende
Große einer Untersuchungseinheit.
StatSoz 25
Merkmalsauspragungen sind die moglichen
Werte, die von einem Merkmal angenommen
werden konnen.
Tabelle 2–1 Merkmale und ihre Auspragungen
Einheit Merkmal AuspragungPerson Geschlecht weiblich, mannlich
Berufsstatus Arbeiter, Beamter,...Alter in Jahren 1, 2, 3, . . .Lebensraum landl. Region, Stadt
Haushalt Anzahl der Personen 1, 2, 3 . . .Realeinkommen Betrage in e
Grundgesamtheit (Kollektiv, Population):
Menge aller potentiellen Untersuchungseinheiten
fur eine bestimmte Fragestellung.
Vollerhebung: Alle Merkmalstrager einer
Grundgesamtheit werden in die Untersuchung
einbezogen.
StatSoz 26
Stichprobe: Endliche Teilmenge einer Grund-
gesamtheit. Hat diese Menge n Elemente, so
spricht man von einer Stichprobe vom Umfang
n (sample of size n).
Daten, Beobachtungen: konkrete Werte der
Merkmalsauspragungen einer Stichprobe.
Beispiel:
Grundgesamtheit: Haushalte einer Stadt
Merkmal: Anzahl der Haushaltsmitglieder
Stichprobe vom Umfang 5: H1, H2, H3, H4, H5
Daten: 4, 5, 6, 6, 4
Bemerkung: Die Begriffe Stichprobe und Daten
werden auch haufig synonym verwendet (so auch
im Folgenden).
Es gibt verschiedene Merkmalstypen:
StatSoz 27
• Ein qualitatives (artmaßig erfassbares)
Merkmal hat nur endlich viele Auspragun-
gen, die Namen oder Kategorien sind. Quali-
tative Merkmale werden auch als kategorialeMerkmale bezeichnet. Beispiele:
– Familienstand: ledig - verheiratet - eheahn-
liche Partnerschaft - geschieden - verwitwet
– Schulabschluss: kein Schulabschluss -
Hauptschulabschluss - mittlere Reife - Fach-
hochschulreife - Abitur
• Ein quantitatives (in naturlicher Weise zah-
lenmaßig erfassbares) Merkmal liegt vor,
wenn seine Auspragungen eine Große wieder-
geben. Beispiele:
– Einwohnerzahl
– Intelligenzquotient
– Zeitmessung
StatSoz 28
Eine andere Unterscheidung ist in diskrete und
stetige Merkmale.
• Diskretes Merkmal (discrete variable): Ein
solches Merkmal kann nur endlich viele oder
hochstens abzahlbar unendlich viele Aus-
pragungen annehmen (haufig ganzzahlig, also
0, 1, 2, ...). Qualitative Merkmale sind immer
diskret. Quantitative Merkmale sind dann dis-
kret, wenn ihre Merkmalsauspragungen durch
einen Zahlvorgang ermittelt werden (soge-
nannte Zahldaten).
Beispiele fur Zahldaten:
– Anzahl der Einwohner
– Anzahl der Mitglieder eines Haushaltes
– Anzahl der Pendler einer Region
– Anzahl der Geburten eines Jahres in einem
Land
StatSoz 29
• Stetiges Merkmal (continuous variable): Die
Auspragungen konnen (wenigstens dem Prin-
zip nach) beliebige Werte aus einem Intervall
annehmen, alle Werte aus einem Intervall sind
also denkbar. Die Auspragungen werden in der
Regel durch einen Messvorgang ermittelt, so-
genannte Messdaten.
Beispiele:
– Langenmessung
– Zeitmessung
Zusammenfassung:
Merkmal diskret stetigqualitativ ja neinquantitativ ja ja
(Zahldaten) (Messdaten)
StatSoz 30
Bemerkung: Stetige Merkmale konnen nur dis-
kret beobachtet werden (Messgenauigkeit), An-
gaben z. B. auf zwei Dezimalstellen hinter
dem Komma genau (Rundungen). In der Pra-
xis ist die Unterscheidung diskret/stetig vielfach
willkurlich.
2.2 Skalenniveau von Merkmalen
Fur statistische Analysen ist die Einteilung in
qualitative und quantitative Merkmale zu grob.
Von entscheidender Bedeutung fur die
– Interpretation von Daten und
– Eignung statistischer Verfahren
ist es, wie bzw. nach welchen Kriterien die Merk-
malsauspragungen gemessen und geordnet wer-
den konnen.
StatSoz 31
Grundsatzlich erfolgt die Messung der Merk-malswerte mit Hilfe einer Skala (Messvor-schrift).
Skala: Anordnung von Zahlen, denen die Merk-
malsauspragungen eindeutig zugordnet werden.
Skalenwerte: Zahlenwerte, die auf einer Skala
Berucksichtigung finden. Man spricht in diesem
Zusammenhang auch von Skalierung.
Das Skalenniveau gibt an
1. welche Vergleichsaussagen und welche rech-nerischen Operationen fur die Skalenwerte
sinnvoll und somit zulassig sind
2. welche Transformationen von Skalenwer-ten die Messung erhalten (sogenannte zulassi-
ge Transformationen).
StatSoz 32
Die verschiedenen Skalenniveaus (Ubersicht):
Qualitative Merkmale
Nominalskala Ordinalskala
Quantitative Merkmale
Metrische Skala
Intervallskala Verhaltnisskala
StatSoz 33
Nominalskala (Skala mit dem niedrigsten Niveau)
Charakteristika:
– keine naturliche Rangordnung der Skalenwerte
– Zuordnung von Zahlen ist lediglich eine Ko-
dierung der Merkmalsauspragungen
– Anordnung hat keine inhaltliche Bedeutung
Vergleichsaussagen: gleich (=), ungleich (6=)
Rechnerische Operationen: Haufigkeiten
Zulassige Transformationen: bijektive (einein-
deutige) Abbildungen (siehe Aufgabe 3, Blatt
1)
StatSoz 34
Tabelle 2–2 Nominale Merkmale und Kodierungen
Merkmal Merkmalsauspragungen KodierungFamilienstand ledig 1
verheiratet 2geschieden 3verwitwet 4eheahnliche Partnerschaft 5
Erwerbsstatus Selbststandige 1Beamte 2Angestellte 3Arbeiter 4Rentner 5Arbeitslose 6Sozialhilfeempfanger 7
Geschlecht mannlich 0weiblich 1
Spezialfall nominalskalierter Merkmale sind
binare Merkmale (dichotome Merkmale):
Merkmale mit nur zwei Auspragungen (haufig
0/1–kodiert).
StatSoz 35
Ordinalskala (Rangskala)
Charakteristika:
Die Merkmalsauspragungen sind Kategorien, bei
denen eine naturliche Rangordnung aufgrund
ihrer Große bzw. Intensitat gegeben ist.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), großer (>)
Rechnerische Operationen: Haufigkeiten,
Range
Zulassige Transformationen: streng monotone
(ordnungserhaltende) Abbildungen (siehe Aufga-
be 3, Blatt 1)
StatSoz 36
Tabelle 2–3 Beispiele fur ordinalskalierte Merkmale
Merkmal Merkmalsauspragungen Skalapolitisches sehr stark 1Interesse stark 2
mittel 3wenig 4uberhaupt nicht 5
Meinung Ablehnung −1 (1)neutral 0 (2)Zustimmung 1 (3)
Beachte: Bei nominal– und ordinalskalierten
Merkmalen haben Abstande (Differenzen) und
Verhaltnisse (Quotienten) von Skalenwerten
keine inhaltliche Bedeutung, sind also nicht
vergleichbar.
StatSoz 37
Bei quantitativen Merkmalen verwendet man ei-
ne metrische Skala. Hier liegt Messbarkeit im
engeren Sinne vor, wobei Skalenwerte im All-
gemeinen eine Dimension haben (Minute, km,
km2, e, usw.).
Charakteristika:
– Abstande zwischen Skalenwerten sind inter-
pretierbar
– naturliche Rangordnung durch die Große der
Merkmalswerte
Bei der metrischen Skala wird zwischen Intervall–
und Verhaltnisskala unterschieden.
StatSoz 38
Intervallskala (Differenzenskala)
Charakteristika:
Bezugspunkt dieser Skala (Nullpunkt, Durch-
schnittswert) ist willkurlich festgelegt. Konse-
quenz: Vergleich von Differenzen ist sinnvoll,
nicht aber von Quotienten.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), großer (>)
Rechnerische Operationen: Haufigkeiten,
Range, Subtraktionen
Zulassige Transformationen: lineare Abbildun-
gen (siehe Aufgabe 3, Blatt 1)
Beispiele intervallskalierter Merkmale:
– Intelligenzquotient (Wechsler–Skala)
– Jahreszahlen
StatSoz 39
Verhaltnisskala (Ratioskala)
Charakteristika:
Naturlicher (absoluter) Nullpunkt ist gegeben,
Vergleich von Verhaltnissen (Quotienten) ist
daher sinnvoll. Gleiche Quotienten drucken einen
gleich großen Unterschied aus.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), großer (>)
Rechnerische Operationen: Haufigkeiten,
Range, Subtraktionen, Divisionen
Zulassige Transformationen: lineare homoge-
ne Abbildungen (siehe Aufgabe 3, Blatt 1)
Beispiele verhaltnisskalierter Merkmale:
– Alter in Jahren
– Einkommen in e– Entfernung in km
StatSoz 40
Die verschiedenen Skalenniveaus stellen eine
Hierachie dar:
Tabelle 2–4 Sinnvoll interpretierbare Berechnungen
Skala zahlen ordnen subtrahieren dividierenNominal ja nein nein neinOrdinal ja ja nein neinIntervall ja ja ja nein
Verhaltnis ja ja ja ja
Bemerkung: Statistische Methoden, die fur ein
niedriges Skalenniveau geeignet sind, konnen
auch fur ein hoheres Skalenniveau verwendet
werden (zahlen und ordnen ist stets fur metri-
sche Merkmale durchfuhrbar). Die Umkehrunggilt nicht! Fur metrische Merkmale kann et-
wa der Durchschnittswert (arithmetisches Mit-
tel) berechnet werden, was fur ordinal– und no-
minalskalierte Merkmale im Allgemeinen vollig
sinnlos ist.
StatSoz 41
Skalentransformationen
Fur die statistische Analyse kann es sinnvoll sein,
metrische Daten so zu transformieren, dass ih-
re Auspragungen ordinalskaliert sind, auch wenn
solche Transformationen immer mit einem ge-
wissen Informationsverlust verbunden sind (denn
aus der Kenntnis der transformierten Werte
konnen die ursprunglichen Werte nicht mehr
zuruckgewonnen werden).
Die wichtigsten Transformationen sind der Uber-
gang zu
– Kategorien, Klassen (Klassenbildung ,,von
... bis”, ,,Klassierung der Daten”)
– Rangen (Daten werden der Große nach ge-
ordnet, der kleinste Wert erhalt Rang 1, der
zweitkleinste Wert Rang 2, usw.)
StatSoz 42
Beispiel: (i) Klassierung von Daten
Tabelle 2–5 Einkommensklassen (monatl. Einkommen)
von bis unter Skala1 2400 1
2400 4800 24800 7200 37200 9600 49600 12000 5
12000 16000 616000 20000 720000 25000 825000 36000 936000 50000 1050000 75000 1175000 100000 12
100000 und mehr 13
StatSoz 43
(ii) Rangbildung
Es wurden 12 Haushalte nach ihrem verfugbaren
Einkommen (in e) befragt:
Tabelle 2–6 Einkommens–Daten
Haushalt Nr. Einkommen1 12402 17003 20404 19905 12406 13507 10608 9209 1620
10 148011 112012 1780
StatSoz 44
Tabelle 2–7 Range der Einkommens–Daten
Einkommen Ranggeordnet
920 11060 21120 31240 4.51240 4.51350 61480 71620 81700 91780 101990 112040 12
Durchschnittsrang
Der Beobachtungswert 1240 kommt zweimal
vor. Es sind die Range 4 und 5 zu vergeben.
Man bildet den Durchschnittsrang:
Rang(1240) =4 + 5
2= 4.5
StatSoz 45
2.3 Geordnete Stichproben und Range
Gegeben seien Daten
x1, x2, . . . , xn
Bezeichne
x(1) die kleinste der n Zahlen x1, . . . , xn
x(2) die zweitkleinste der n Zahlen x1, . . . , xn
...
x(n) die großte der n Zahlen x1, . . . , xn
x(k) heißt k–te Ordnungsgroße. Per Definition
gilt stets
x(1) ≤ x(2) ≤ . . . ≤ x(n)
x(1), . . . , x(n) heißt geordnete Stichprobe.
StatSoz 46
Tabelle 2–8 Einkommens–Daten, geordnet
i xi x(i)
1 1240 9202 1700 10603 2040 11204 1990 12405 1240 12406 1350 13507 1060 14808 920 16209 1620 1700
10 1480 178011 1120 199012 1780 2040
Der Rang einer Zahl xi innerhalb einer Stich-
probe gibt an, die wie–vielt–kleinste Zahl sie ist.
Um den Rang einer Beobachtung zu bestimmen
ist es sinnvoll, die Daten der Große nach zu
ordnen.
Formaler versteht man unter einem Rang folgen-
des:
StatSoz 47
1. Fall: Der Beobachtungswert xi kommt in der
Stichprobe nur einmal vor. Dann ist der Rangvon xi gleich 1 plus Anzahl der Beobachtungen
die kleiner als xi sind:
Rang(xi) = 1 + Anzahl der xj mit xj < xi
2. Fall: Der Beobachtungswert xi kommt in der
Stichprobe k–mal vor, k ≥ 2 (man spricht von
einer Bindung der Lange k). Dann hat man fur
diese k gleichen Beobachtungswerte die Range
ri, ri + 1, . . . , ri + (k − 1)
zu vergeben, wobei
ri = 1 + Anzahl der xj mit xj < xi
Kame der Beobachtungswert xi nur einmal vor,
so ware die Zahl ri der Rang von xi.
StatSoz 48
Diese k gleichen Beobachtungswerte bekommen
alle den gleichen Rang, den Durchschnittsrang.
Dieser ist definiert als das arithmetische Mittel
der zu vergebenden Range:
Rang(xi)
=ri + (ri + 1) + . . .+ [ri + (k − 1)]
k(2.1)
Formel (2.1) lasst sich vereinfachen (Aufgabe 5,
Blatt 1).
Beachte: Die Rang–Transformation
xi→ Rang(xi)
einer Beobachtung xi ist immer nur in Bezug auf
die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe
6, Blatt 1)
StatSoz 49