seminararbeit zu philosophische grundlagen der...

29
Seminararbeit zu Philosophische Grundlagen der Statistik Robustheit Autor: Jan Mathias K¨ ohler Betreuung: Prof. Dr. Thomas Augustin Wintersemester 2010/2011 Institut f¨ ur Statistik Ludwig-Maximilians-Universit¨ at unchen, 28.03.11

Upload: others

Post on 28-Oct-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Seminararbeit zu Philosophische Grundlagen der

Statistik

Robustheit

Autor: Jan Mathias KohlerBetreuung: Prof. Dr. Thomas Augustin

Wintersemester 2010/2011Institut fur Statistik

Ludwig-Maximilians-UniversitatMunchen, 28.03.11

Page 2: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Inhaltsverzeichnis

1 Einleitung 11.1 Geschichtliche Einbettung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Notwendigkeit der Robustheit (Historisches Beispiel) . . . . . . . . . . . . . 31.3 Exkurs: Definition von Effizienz . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Vergleich von Schatzern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Definition von Robustheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Maße der Robustheit (fur Stichproben) 102.1 Bruchpunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2 Empirische Einflussfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3 Sensitivitatsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Einflussfunktion - Maß der Robustheit 153.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Maße der Einflussfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4 M-Schatzer 194.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.2 Beispiel fur Lokationsschatzung . . . . . . . . . . . . . . . . . . . . . . . . . 204.3 Einflussfunktion und Bruchpunkt eines M-Schatzers . . . . . . . . . . . . . . 22

5 Kritische Wurdigung 24

Literaturverzeichnis 26

Page 3: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Abbildungsverzeichnis

1 Dichtefunktion f(x) = (1 − γ) · φ(0, 1) + γ · φ(0, 3) einer mit γ = 0.1 durchφ(0, 3) verschmutzten Standardnormalverteilung. . . . . . . . . . . . . . . . 4

2 Dichtefunktionen f(x) = (1− γ) · φ(0, 1) + γ · φ(0, 3) fur γ = 0, 0.05, 0.1, 0.5. 43 Q-Q-Plot der verschmutzten Daten. . . . . . . . . . . . . . . . . . . . . . . . 54 Die empirische Einflussfunktion fur das arithmetische Mittel, den Median und

das 20%–gestutzte Mittel bei Hinzufugen eines neuen Wertes x∗n+1. . . . . . . 125 Die Sensitivitatsfunktion fur das arithmetische Mittel, den Median und das

20%-gestutzte Mittel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Die Einflussfunktion fur das arithmetische Mittel, den Median und die Huber-

Schatzer fur k=0.5, 1, 1.5 bei Standardnormalverteilung. . . . . . . . . . . . 157 Maße der Einflussfunktion am Beispiel der Einflussfunktion des Tukey biweight-

Schatzers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 Ψ(z) fur Huber-Schatzer (k = 1.5) und ML-Schatzer bei standardnormalver-

teilten Daten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Gewichtsfunktion w(z) fur den Huber-Schatzer fur k = 1.5. . . . . . . . . . . 2110 Ψ-Kurven bekannter M-Schatzer. . . . . . . . . . . . . . . . . . . . . . . . . 22

Page 4: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

1 Einleitung

Der Begriff Robustheit im Allgemeinen impliziert, dass ein System oder eine Methode so sta-bil ist, dass diese auch bei Veranderungen der Randbedingungen seine Aufgaben weiterhinerfullt. Dieser Begriff wird in verschiedenen Wissenschaften wie die Informatik, Wirtschaftoder Mathematik mit verschiedener Bedeutung verwendet. In dieser Arbeit wird der Begriffder Robustheit aus statistischer Sicht betrachtet. Insbesondere wird auf robuste Schatzver-fahren eingegangen und Maße fur die Bestimmung von Robustheit beschrieben.

Nach einer Einleitung, welche den Begriff im geschichtlichen Kontext einbettet und dieNotwendigkeit der Robustheit unterstreicht, werden in Kapitel 2 der Bruchpunkt, die empi-rische Einflussfunktion und die Sensitivitatsfunktion erlautert. Dies sind drei Maße, welcheanzeigen, ob ein Schatzer robust ist. Ein weiteres oft verwendetes Maß, die Einflussfunktion,wird in Kapitel 3 dargestellt. Als letztes wird in Kapitel 4 auf eine wichtige Gruppe robus-ter Schatzer, der M-Schatzer, eingegangen, bevor in Kapitel 5 eine kritische Wurdigung derRobustheit vorgenommen wird.

Zuerst wird in Kapitel 1.1 eine geschichtliche Einbettung der Robustheit vorgenommen,wobei skizziert wird, dass erst in den 60er Jahren eine intensive Beschaftigung mit diesemThema erfolgte. Kapitel 1.2 zeigt anhand einer Zusammenfassung des Artikels

”A survey of

sampling from contaminated distributions“ von Tukey (1960) [2], einem bekannten Artikel,welcher dazu beigetragen hat, dass das Thema der Robustheit starker diskutiert wurde,die Notwendigkeit robuster Verfahren. Nach einer Definition des Begriffes der

”Effizienz“ in

Kapitel 1.3 wird das historische Beispiel von Tukey in Kapitel 1.4 fortgesetzt und die Effizienzvon verschiedenen Schatzern bei einer verschmutzen Standardnormalverteilung untersucht.Kapitel 1.5 versucht eine Definition des Begriffes

”Robustheit“ zu geben und geht hierbei

insbesondere auf die Ansichten von Huber [3] und Hampel [4] ein.

1.1 Geschichtliche Einbettung

Die Struktur der folgenden Darstellung richtet sich nach einer Seminararbeit von Schmidt [1].Es kann die Entwicklung von robusten Methoden in drei Etappen unterteilt werden. Bis etwa1885 war das Wissen um die Notwendigkeit von robusten Methoden nicht stark ausgepragt.Dieses Wissen bildete sich erst bis etwa 1963 durch verschiedene Veroffentlichungen. Danachnahmen sich vor allem Huber und Hampel dem Thema der Robustheit an und veroffentlichten1964 [5] bzw. 1968 [6] wichtige Methoden, wovon ein Teil in dieser Seminararbeit behandeltwird.

Entwicklung bis 1885: Ignoranz

•”Robuste Methoden“ werden nur zum Umgang mit Ausreißern, vor allem bei linearer

Regression verwendet.

• Nur subjektive Verfahren, wie beispielsweise Kriterien zum Loschen von Ausreißernoder gewichteter Mittelwert vorhanden.

1

Page 5: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Entwicklung bis 1963: Erkenntnisschub

• 1886 zeigt Newcomb, dass im Gegensatz zur erwarteten Normalverteilung wahre Daten-verteilungen meist heavy tails haben. Newcomb schlagt vor, diese Verteilungen durchdie Mischung von Normalverteilungen darzustellen.

• 1931 zeigt Pearson, dass der χ2 und F -Test fur die Varianz sensibel bei Abweichungenvon den Modellannahmen sind.

• Um 1940 erlebt die nonparametrische Statistik einen Aufschwung, u.a. durch Arbeitenvon Hotelling u. Papst (1936), Friedmann (1937) bzw. Wald u. Wolfowitz (1940)1.

• 1953 verwendet Box erstmals den Begriff”robust“.

• 1960 zeigt Tukey [2] erstmals die große Sensitivitat von Statistiken bei kleinen Ab-weichungen von den Annahmen auf. Diese Arbeit wird in den Kapiteln 1.2 und 1.4dargestellt.

Entwicklung ab 1964: Durchbruch

• 1964 veroffentlicht Huber seine Arbeiten [5] zum Minimax-Verfahren und M-Schatzer.

• 1968 beschreibt Hampel in einem Artikel [6] die Einflussfunktion und den Bruchpunkt.

• Die ersten Standardwerke fur Robustheit erscheinen 1981 von Huber [3] und 1986 vonHampel [4].

Das Thema Robustheit erlebte den spaten Durchbruch auch aufgrund der Entwicklungder leistungsfahigeren Computer, da viele Verfahren nicht oder nur schwer ohne Rechnerun-terstutzung verwendet werden konnen. Auch in den letzten Jahren wurde noch am ThemaRobustheit geforscht bzw. robuste Verfahren fur Forschungszwecke verwendet. Tabelle 1 zeigtdie Anzahl an Artikel, welche eine der grundlegenden Artikel ([5] bzw. [6]) oder Bucher ([3]bzw. [4]) von Huber bzw. Hampel referenzieren. Bemerkenswert ist, dass neben dem Gebietder Statistics and Probability auch besonders in anderen Gebieten auf Verfahren der Robust-heit zuruckgegriffen wird. Die hohe Anzahl an Referenzen in den Jahren 2000–2010 zeigt dieheute hohe Wichtigkeit von robusten Methoden.

1H. Hotelling and M.R. Pabst. Rank correlation and tests of significance involving no assumption ofnormality. The Annals of Mathematical Statistics, 7(1):29–43, 1936.M. Friedman. The use of ranks to avoid the assumption of normality implicit in the analysis of variance.Journal of the American Statistical Association, 32(200):675–701, 1937.A. Wald and J. Wolfowitz. On a test whether two samples are from the same population. The Annals ofMathematical Statistics, 11(2):147–162, 1940.

2

Page 6: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

2000 – 2010 Huber Hampel Huber Hampel(1964) [5] (1968) [6] (1981) [3] (1986) [4]

Alle Gebiete 464 71 2009 1070Stat.& Prob. 183 39 535 426

Tabelle 1: Anzahl an Referenzen zu Basis-Veroffentlichungen der Robustheit. Quelle: ISI Webof Knowledge Abfrage vom 11.01.11.

1.2 Notwendigkeit der Robustheit (Historisches Beispiel)

Tukey (1960) [2] zeigte in seiner Arbeit zum ersten Mal anschaulich die Notwendigkeit vonrobusten Methoden bei der Inferenz. Er zeigte die große Sensitivitat von statistischen Metho-den bei kleinen Abweichungen von den Annahmen und unterstrich dies durch ein Beispiel,wobei die Idee in dieser Arbeit in Kapitel 1.4 wiedergegeben wird. Die Hauptaussagen ausseinem Artikel waren folgende:

• In realen Daten liegen meist heavy-tails vor. Dies wurde bereits u.a. von Box/Anderson1955 [7] und Student (1927) [8] gezeigt.

• Diese leichte Abweichung der Daten von der Normalverteilung fuhrt zu”falschen“

Schatzungen.

• Tukey zeigt dies durch Konstruktion einer Datenmenge mit Kontamination. Hierbeiverwendet er eine Mischverteilung von zwei Normalverteilungen, wobei das Mischungs-verhaltnis der Kontaminationsgrad γ ist.

• Die Unterschiede der”wahren“ von der verschmutzten Verteilung sind mit dem Auge

kaum sichtbar. Um diesen Punkt zu unterstreichen wird in Abbildung 1 eine Stan-dardnormalverteilung gezeigt, welche mit einer Normalverteilung mit Mittelwert von 0und Varianz von 3 verschmutzt ist. Obwohl der Kontaminationsgrad γ = 0.1 betragt,ist die Verteilung mit dem Auge nur schwer von einer Standardnormalverteilung zuunterscheiden.

Abbildung 2 zeigt die Dichtefunktionen fur verschiedene Kontaminationsgrade γ. Es isterkennbar, dass bei geringen Verschmutzungsgraden bis γ = 0.1 kaum ein Unterschied zuder Standardnormalverteilung erkennbar ist. Oftmals liegen bei Daten aus realen empirischenErhebungen Verschmutzungen in dieser Große vor, so dass robuste Methoden eine wichtigeRolle in der Analyse von realen Daten einnehmen.

In der Praxis wahlt man meist einen Q-Q-Plot als graphisches Entscheidungskriterium,um zu beurteilen, ob die Daten normalverteilt sind. Um zu verdeutlichen, dass man in derPraxis selbst bei verschmutzten Daten meist von normalverteilten Daten ausgeht sind inAbbildung 3 die Q-Q-Plots fur Verschmutzungsgrade γ = 0, 0.05, 0.1 und γ = 0.5 dargestellt.Bei einer Analyse wurde man selbst bei einem γ = 0.1 meist von normalverteilten Datenausgehen. Benutzt man in diesem Fall fur die Inferenz der Varianz einen nicht-robusten

3

Page 7: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

γ=0.1

Abbildung 1: Dichtefunktion f(x) = (1 − γ) · φ(0, 1) + γ · φ(0, 3) einer mit γ = 0.1 durchφ(0, 3) verschmutzten Standardnormalverteilung.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

γ=0γ=0.05γ=0.1γ=0.5

Abbildung 2: Dichtefunktionen f(x) = (1 − γ) · φ(0, 1) + γ · φ(0, 3) fur γ = 0, 0.05, 0.1, 0.5(nach [2], S. 454) .

4

Page 8: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Schatzer so wird der Schatzwert durch die Verschmutzung stark beeinflusst und die Effizienzdes Schatzers sinkt. Eine genaue Darstellung des Zusammenhangs von Verschmutzungsgradund Effizienz wird in Kapitel 1.4 anhand der Fortsetzung des numerischen Beispiels gezeigt.

●●

●●●●

●●

●●

●●

●●●●●●

●●●●

●●

●●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●

●●●●●●

●●●

●●●●

●●

●●

●●●

●●●

●●

●●

●●

●●●

●●

●●●

●●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●

●●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

−3 −1 1 2 3

−3

−1

13

γ=0

Theoretische QuantileQua

ntile

der

ver

schm

utzt

en D

aten

●●

●●

●●●

●●

●●●●●●

●●●

●●●●

●●●●

●●

●●●●

●●●

●●

●●●

● ●●●

●●

●●

●●

● ●●

●●

●●●

●● ●● ●●●

●●

●● ●●

●●

● ●● ●●●●

●●

●●

●●●

●●●

●● ●● ● ●●

●●

●● ●●●

●●●

●●●●

●●●● ●

●●

●●

●●● ●●●

●●

●●

●●●●

●●●

●●●

● ●●

●●

● ●●

● ● ●●●

●● ●

● ● ●●

●●

●●●

●●●

●●●●●●●●

●●

● ●

●●●

●●●

●●●

● ●●● ●●

●●● ●●

●●●●

●●●●●● ●●●

●●

●●●●●

● ●●●

●●● ●●

● ●● ● ●● ●●●●●●

●●●

●●

●● ●

●●

●●●

●●●

●●●

●●●

●●

●●●● ●

●●●

●●

●●●

● ●●

●●

●●●●●

●●●●

●● ●●

●●

●●

●●●●

●●

●●

● ●●●●

●●

●● ●●● ●●

● ●●

●●

●●●

●●

●●●● ●

●●

●●

●●●● ●

●●

●●

●●

●●

●●●●●●

●●

●●

●●●

●●

●●

●●

●●●●●

●●●

●●

●●●●

●●

●●

●●

●●

●●

●● ●●

● ● ● ● ●

●●● ●

● ●

●●

●●

●●●●●●●

●●●

●● ●●● ●●

●●

●●

●●●●●●●●

●●●●●●● ●●

●● ●

●●●

●●●

●●●●●

●●●●

●●● ●

●●

●●●●

●●● ●

●●●

●●●

●●

●●●

●●

●●●

●● ●

●●●

●● ●●●

●●●

●●

●●●

●●●●

●●

●●

●●●

●●●● ●

●●

●●●●

●●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

● ● ●●

●●

●●

●●

●●●

●●

●●

●●

●●●●●●●●

●●●●

●●●

●●

●● ●

● ●●● ●

●●

●● ●●●

●●●

●●● ●●

●●

●●●

● ●●● ● ●

● ●●

●●

●●

●●

●●●

●●

●●

● ●●

●● ●●●

●●

●●

●●●

●●●

●●●

●●

●●

●●●●

●● ●

●●●●

●●●

●●●

●●●●

● ●●●●

● ●●

●●●●

●● ●●●●●

●●

●●●

●●●●●●● ●

●●●●

●●

●●●

●●●

●● ●●

●●●

●●●●

●●●

●●●●

●●●

●●●●

●●●●

●●

●●

● ●●

●●● ●●

●●●●

●●● ●●

●● ●●●

●●●● ●●●●●●

●●

●●

●●●●● ● ●

●●

●●●●

●●●●

●●●

●●

●●●

●●●

●●

●●

● ●●

●●●●●

●●

●●●

●●

●●●

●●

●●●

●●●●●●●●

−3 −1 1 2 3

−5

05

γ=0.05

●●

●● ●●●

●●

●●

● ●

●●●

●●●●●

●●

●●●●●

●● ●●

●●

●●●●●●

●●●●

●●

●●● ●●

●●

●●

●●●●●

●●●●●

●●

●● ●

●●

●●●●

●●●

●●●

●●

●●●●

●●

●●●●

●●

●●●

●●●

●●

●●●

●●●●●●

●●

●●

● ● ● ●

● ●●●

●●

●●

●●

●●

●●●●●●●●●

●●●

●●

●●●

●●

●●●

●●

●●

●●

●●● ●

●●

●● ●●●

●●

●●

●●●●●●

● ●●

●●●●

●● ●●●

●●

●●●●●●

●●●●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●●

●● ●

●●

●●

●●●

● ●●

●●

●●

●●●

●●●

●●

●●

●●●

● ●●

●●

●● ●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●●

●●

●●

●●●● ●●

●●

●●●

●●

●●● ● ●●●

●●●

●●

●●

●●●●

●●●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●●

●●●

●●●●

●●

●●●●●

●●● ●●●●●●●● ●

●●

●●●●●

●●

●● ●

●●

●●

●●

●●

●●

●● ●●●

●● ●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●●●

●●●

● ●●●

● ●●

●●

● ●

●● ●●●●

●●●●●●●●●●

●●

●●

●●●

●●

●●●

●●

●●

● ●

●●

●●●●

●● ●

●●

●●●●

●●

●●●

●●

●● ●

●●

●●

●●

●●●

●● ●●●

●●● ●●

● ●●● ●

●●● ●●

●●

●●●●

●●●●

●●

●●●

●●●

●●

●●●

● ●●●●●●

●●●

●●

● ●●

●●

●●●

●●●● ●●●

●●

●●●●●●

●●●

●●●●●●

●●●

●●

●●●●●●

●●●

●● ●

●●

●●

●●●

●●●

●●

●●

●●

●●●●●●

●●

●●

●●● ●

●●●●●

●●●

●●

●●●●●●●●●●

●●●

●●

●●

●●

●● ●

● ●

●●●●●

●●●

● ●●●

●●

●●●●●●

●●

●●

●●

●●●●

●●

●●●

●●●

●●●

●●

●●●●

●●

● ●●

●●●

●●●●●●●●

● ●●●

● ●●● ●

●●

●●

●●

●● ● ●●●

●●

●●

●●

●●●●●●

●●●

●●

●●

●●

●●

●●

●●

●● ●● ●●

●●●

●●

●●●●

●●

● ●●

●●●

● ●●●●●

●●●●

●●●

●●●

−3 −1 1 2 3

−5

05

γ=0.1

●●●

●●

●●●

●●

●●

●●

●●

● ●●

● ●

●●

●●

●●

●●●

●●

●●●

●●●●●●●

●●

●●

●●

●●●●

●●

●●●●●●

●●●●●

●●●●

●●

●●

●●

●●

●●●

●●

●●

●●●●●

●●

●●●●

●●●●●●

●●

●●

●●●

●●

●●

●●

●●●●●●

●●

●●

●●

●●●●

●●

●●

●●

●●●

● ●

●●●●●

●●●

●●

●●●●

●●●●

●●●● ●

●●

●●●●

●●

●●

●●●

●●

●●●●

●●

●●

●●●●●

●●

●●●

●●

●●

●●

●●●●●

●●● ●

●● ●

●●

●●

●●

●●●●

●●●

●●●

●●

●●

●●

●●●

●●

●●●

●●●●●

●●

●●

●●●●

●●●●●

●●

●●

●● ●●

●●●●

●●●

● ●●

● ●

●●●●

●●●●

● ●

●●

●●

● ●●

●●●●

● ●●

●●

●●●

●●●●●●●●●●

●●

●●●●

●●●

●●

●● ●●

●●

●●

●●● ●

●●●

● ●●●●

●●

●●

●●

●●●

●● ●

●●

●●

●●●

●●

●●●●●

●●

●●

●●●

●●

● ●

●●

●●

●●●

●●●

●●●●●

●●● ●●●

●●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●●

●●

●●

●●●●

●●●

●●

●●●●●●

● ●●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●

●●

●●

● ●●●●

●●

●●

●●

●●

●●

●●

●●

●●● ●

●●●

●●

●●

●●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●●●

● ●●●●

●●

●●

●●

●●

●●

●●

●●●●●●

●●●

●●●●●●●

●●●●●●

●●

●●

●●

●●●

●●●●●

●●●

●●●●

●●●

●●●●

●●●

●●●●●●●

●●●●●●

●●●

●●

●●

●●

●●

● ●●●●●●

●●●●●●

●●

●●

●●●●

●●●

●●●

●●

● ●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●●●

●●

●●●●●

●●●

●●

●●

−3 −1 1 2 3

−10

05

γ=0.5

Abbildung 3: Q-Q-Plot der verschmutzten Daten.

1.3 Exkurs: Definition von Effizienz

Im numerischen Beispiel, welches im nachfolgenden Kapitel gegeben wird, wird der Begriffder Effizienz verwendet. Effizienz ist ein Qualitatskriterium, um die Gute eines Schatzerszu bewerten, und ist mit Konsistenz, Suffizienz und Erwartungstreue ein haufig benutztesKriterium.

Effizienz betrachtet hierbei den Vergleich von zwei erwartungstreuen Schatzern θ1(X) und

θ2(X), welche beide den Parameter θ schatzen, anhand ihrer Varianz. Man kann nun direkt

zwei Schatzer miteinander vergleichen, um einen Koeffizienten η(θ1(X)) zu erhalten, welcher

den Quotienten der Varianz von θ2(X) zu θ1(X) angibt, wobei η > 1 bedeutet, dass θ1(X)eine hohere Effizienz als θ2(X) besitzt, da die Varianz bei der Schatzung des unbekannten

Parameters θ beim Schatzer θ1(X) kleiner ist. Alternativ ist auch ein Vergleich des Schatzers

θ1(X) mit seiner kleinstmoglichen Varianz, der Inversen Fisher-Information I(θ)−1, moglich.Ist der Grenzwert dieser Effizienz η∗ fur unendlich viele Daten gleich eins, so spricht manbei θ1(X) von einem asymptotisch effizienten Schatzer, da dieser asymptotisch die Cramer-Rao-Schranke I(θ)−1 annimmt.

5

Page 9: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

γ 0 0.01 0.03 0.05 0.1 0.2 0.35 0.5

θ1 = σ 1.0020 1.0383 1.1136 1.1824 1.3418 1.61 1.9486 2.2369

V ar(θ1)[10−2] 0.0523 0.083 0.1405 0.1847 0.2599 0.3278 0.4073 0.4028

θ2 = MAD 1.0000 1.0054 1.0237 1.0377 1.0796 1.1772 1.3581 1.5954

V ar(θ2)[10−2] 0.1335 0.1433 0.1374 0.1532 0.1600 0.1919 0.2385 0.3718

η(θ1) 2.5537 1.7267 0.9782 0.8296 0.6156 0.5855 0.5857 0.9232

Tabelle 2: Schatzwerte, Varianz und relative Effizienz der Skalenschatzer σ und MAD beiverschiedenen Verschmutzungsgraden.

Im Folgenden ist eine zusammenfassende Ubersicht der Effizienzbegriffe gegeben.

Relative Effizienz von Schatzer θ1(X) bzgl. θ2(X)

η(θ1(X)) = V ar[θ2(X)]V ar[θ1(X)]

Relative Effizienz eines Schatzers θ1(X)Es gilt V ar[θ1(X)] ≥ I(θ)−1 (Cramer-Rao-Ungleichung)

⇒ η∗(θ1(X)) = I(θ)−1

V ar[θ1(X)]

Asymptotisch effizienter Schatzer θ1(X), wenn gilt

limn→∞ η

∗(θ1(X)) = 1

1.4 Vergleich von Schatzern

In diesem Kapitel wird ein numerisches Beispiel gegeben, welches angelehnt an dem Beispielaus Tukey (1960) [2] ist. Es werden 1000 Datensatze aus der Dichte f(x) = (1−γ)·φ(0, 1)+γ ·φ(0, 3) - d.h. einer mit Grad γ verschmutzten Standardnormalverteilung gezogen - und zweiSchatzer fur den Skalenparameter berechnet. Hierbei handelt es sich um den nicht robustenSchatzer σ = ( 1

n−1∑ni=1(Xi − X)2) 1

2 und den robusten Schatzer MAD. Dabei ist MADder Median der absoluten Abweichungen (median absolute deviation) und ist definiert alsMAD(X) = median|Xi − X| mit X = median(X).

Das Ergebnis der Simulation zeigt Tabelle 2.

Folgende Resultate sind zu erkennen:

• Die Schatzwerte des robusteren Schatzers MAD sind weniger anfallig auf Verschmut-zung.

• MAD weißt bei Verschmutzung ab γ ≥ 0.03 eine hohere Effizienz auf als σ.

• Nur bei keiner bzw. geringer Verschmutzung ist der Schatzer σ effizienter.

6

Page 10: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

• Bei einem Verschmutzungsgrad von γ ≈ 0.2− 0.35 erreicht die Effizienz ein Minimumund steigt danach wieder an. Grund hierfur ist vermutlich, dass ab einem hoherenVerschmutzungsgrad (insbesondere ab γ > 0.5) der Anteil an ursprunglichen Daten imVergleich zu den verschmutzten Daten geringer ist.

1.5 Definition von Robustheit

Im Folgenden wir der Begriff”Robustheit“ nach Hubers und Hampels Sicht definiert.

Hubers (1981) Sicht der Robustheit

• Fur Huber bedeutet Robustheit folgendes:”robustness signifies insensitivity to small

deviations from the assumptions“ ([3], S. 1). Er setzt damit einen weiten (und auch wa-gen) Begriff fur Robustheit, da die Unempfindlichkeit gegenuber kleinen Abweichungender Annahmen sich auf Ausreißer, Verletzungen der Modellannahmen oder generellenicht naher spezifizierte Abweichungen beziehen kann.

• Seiner Meinung nach sind der haufigste Grund fur die Abweichung heavy-tails (langeEnden) der Dichten, z.B. aufgrund von Ausreißern. Diese sind oft bei empirisch er-hobenen Daten vorhanden, so dass fur die Analyse dieser Daten robuste Methodeneingesetzt werden sollten.

Ziele von robusten Statistiken - Huber

• Nach Huber sollen robuste Statistiken eine hohe Effizienz aufweisen. Dies bedeutet,dass diese im Vergleich mit einer nicht robusten Statistik, in den meisten Fallen einegeringere Varianz aufweisen.

• Bei kleinen Abweichungen von den Modellannahmen (wie keine exakte Erfullung derVerteilungsannahmen oder einzelne Ausreißer) sollen durch den Einsatz von robustenStatistiken das erzielte Ergebnis im Vergleich zum Ergebnis ohne Abweichungen nurminimal unterschiedlich sein.

• Durch den Einsatz von robusten Statistiken sollen bei großen Abweichungen von denAnnahmen Katastrophen, wie nicht definierte oder unendliche Schatzer, vermiedenwerden. Aus dieser Idee entsteht auch der Minimax Ansatz, in welchem die maximalmogliche Anderung der Statistik unter verschiedenen moglichen Abweichungen von denAnnahmen minimiert wird.

7

Page 11: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Hampels (1986) Sicht der Robustheit

• Hampel erwahnt:”robust statistics ... [relates] to deviations from idealized assumptions

in statistics“ ([4], S. 7) und beschreibt damit wie Huber die generelle Grundidee von Ro-bustheit: Es sollen Ansatze verwendet werden, die bei (kleinen) Abweichungen von den(theoretischen) Annahmen Ergebnisse liefern, welche sich nur gering von Ergebnissenunter idealen Annahmen unterscheiden.

• Ein weiteres Zitat aus seinem Buch”robustness theories can be viewed as stability

theories of statistical inference“ ([4], S. 8) beschreibt eine weitere Grundidee von Ro-bustheit: Bei der Inferenz sollen Schatzer so stabil (robust) sein, dass diese (z.B. durchAbweichungen der Annahmen) nicht zu leicht veranderbar sind.

Ziele von robusten Statistiken - Hampel

• Nach Hampel soll durch den Einsatz von robusten Statistiken die Struktur der Datengeeignet erfasst werden.

• Dies bezieht mit ein, dass stark abweichende Datenpunkte bzw. Datenpunkte mit Ein-fluss auf den Schatzer gefunden werden.

• Zudem sollen Abweichungen von der angenommenen Korrelationsstruktur, wie z.B.serielle Korrelation, behandelt werden.

Zusammenfassung Robustheit

• Robustheit kann betrachtet werden als Unempfindlichkeit bei Abweichungen von denModellannahmen.

• Robuste Statistik kann als Mittel zwischen parametrischer und nonparametrischer Sta-tistik angesehen werden.

• Robuste Statistiken sollen durch Ausreißer wenig beeinflusst werden.

Das Thema”Robustheit “ wird in verschiedenen Teildisziplinen innerhalb der Statistik

verwendet und findet auch Anwendung u.a. in Ingenieurswissenschaften. Zu Beginn der Er-forschung der robusten Theorien wurde keine einheitliche Definition getroffen, so dass eineexakte Definition fehlt. Dies unterstreicht auch Hampel mit der folgenden Aussage:

”...every

specialist may see robustness theories under a different angle“ ([4], S. 7).Eine gelegentlich zitierte Analogie, welche auch als Beschreibung der Idee von robusten

Methoden verstanden werden kann, stammt von Anscombe und Guttman (1960) [9], S. 127.Sie vergleichen Regeln bei der Behandlung von Ausreißern (einem Aspekt, welcher von ro-busten Methoden auch betrachtet wird) mit einer Versicherungspramie.

8

Page 12: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

A rejection rule is like a housholder’s fire insurance policy. Three questions to beconsidered in choosing a policy are

1. What is the premium?

2. How much protection does the policy give in the event of fire?

3. How much danger really is there of a fire?

Die einzelnen Fragen beziehen sich bei der Robustheit auf folgende Themen, welche inspateren Kapiteln der Arbeit behandelt werden. (1.) Die Pramie ist die Effizienzeinbuße, wel-che durch ein robustes Verfahren vorhanden sein kann, wenn die Annahmen an das Modellzutreffen, siehe hierzu Kapitel 1.4. (2.) Der Schutz, welcher durch ein robustes Schatzverfah-ren gegeben werden kann, kann z.B. durch den Bruchpunkt (siehe Kapitel 2.1) charakterisiertwerden. Dieser gibt an, wie viel Schutz im Falle einer Verschmutzung eine robuste Statistikgeben kann, bevor der Schatzer zusammenbricht. (3.) Die Gefahr des Feuers ist der Gradeiner moglichen Verschmutzung. Wird dieser als hoch angenommen, so sollte man robus-te Verfahren in Erwagung ziehen, da dann ein moglicher Effizienzverlust nicht so stark insGewicht fallt.

9

Page 13: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

2 Maße der Robustheit (fur Stichproben)

In diesem Kapitel werden quantitative Maße der Robustheit von Schatzern fur konkrete Stich-proben eingefuhrt. Zuerst wird in Kapitel 2.1 der Bruchpunkt erlautert und zwei Beispielefur diesen gegeben. Kapitel 2.2 beschreibt die empirische Einflussfunktion und Kapitel 5 dieSensitivitatsfunktion.

2.1 Bruchpunkt

Der Bruchpunkt einer Stichprobe kann gesehen werden als kleinster Anteil der Stichprobe,welcher geandert werden muss, so dass der Schatzer zusammenbricht. Meistens bedeutetdies, dass der Schatzer einen Wert ±∞ annimmt. Fur die Definition des Bruchpunkts ist dieDefinition des Maximalen Bias notwendig.

Definition Maximaler Bias (nach [11], S. 488)

B(ε;x; θ) = sup(|θ(x)− θ(x∗)| : dn(x, x∗) < ε

)

Hierbei ist

• dn(x, x∗) = 1n#(i : xi 6= x∗i , i = 1, ..., n): Anteil an unterschiedlichen Datenpunkten

zwischen der ursprunglichen Stichprobe x und der veranderten Stichprobe x∗, mit ε > 0.

Der maximale Bias B(ε;x; θ) gibt vom Betrag der Differenz θ(x)− θ(x∗) (also der Differenzder Schatzwerte der unveranderten von der veranderten Stichprobe) das Supremum an. Beieinem großeren Anteil ε an unterschiedlichen Datenpunkten nimmt der maximale Bias zuoder bleibt konstant.

Definition Bruchpunktb(x; θ) = inf

ε

(B(ε;x; θ) =∞

)

Hierbei ist

• infε

: Der kleinste Anteil ε an unterschiedlichen Datenpunkten, so dass

• B(ε;x; θ) =∞: der maximale Bias unendlich ist.

Der Bruchpunkt b(x; θ) eines Schatzers θ gibt somit den kleinstmoglichen Anteil ε einerStichprobe x an, welcher geandert werden muss, so dass der maximale Bias unendlich wird.

Beispiele fur den BruchpunktFur das arithmetische Mittel θ = X und dem Median θ = X wird im Folgenden der

Bruchpunkt berechnet.

Arithmetische Mittel X

• b(X;X) = 1n

und damit

10

Page 14: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

• limn→∞ b(X;X) = 0

• Veranschaulichung: Es reicht nur einen Wert x∗i auf x∗i = xi + c zu verandern. Nun ist

|x− x∗| = | cn|. Fur ausreichend großes c wird nun sup

(|θ(x)− θ(x∗)

)= |x− x∗| =∞.

Median XEs kann gezeigt werden, dass fur den Bruchpunkt des Medians folgendes gilt [12].

• b(X;X) =

12 + 1

2n fur n ungerade12 − 1

nfur n gerade

• limn→∞ b(X;X) = 1

2

Somit besitzt der Median den hochst moglichen Bruchpunkt 12 . Es sei darauf hingewie-

sen, dass der b(X;X) = 12 nur gilt, wenn in der Stichprobe keine gleichen Werte enthalten

sind [12].Schatzer mit einem hoheren Bruchpunkt als 1

2 existieren nicht, da bei einem Wert großer 12

der Anteil an der veranderten Stichprobe großer als der Anteil der unveranderten Stichprobeist und somit unklar ist, von welcher Stichprobe ein Schatzwert berechnet wird.

Die einzige Ausnahme von dieser Aussage bietet der Schatzer θ = c, c ∈ R, welcher einenBruchpunkt von 1 besitzt. Jedoch verhalt sich ein stets konstanter Schatzer bei anderenGutekriterien wie Konsistenz, Suffizienz und Erwartungstreue ungunstig.

2.2 Empirische Einflussfunktion

Die empirische Einflussfunktion EIFi(x∗i ; θ, x1, ..., xn) gibt an, was der neue Schatzwert θ ist,wenn eine einzelne Beobachtung xi durch x∗i ersetzt wird. Die EIF ist wie folgt definiert.

DefinitionEIFi(x∗i ; θ, x1, ..., xn) = θ(x1, ...x

∗i , ..., xn)

Alternativ ist auch die Definition durch Hinzufugen eines neuen Wertes x∗n+1 statt Erset-zen eines Wertes xi moglich.

Beispiel

> x <- sample(seq(40,60, length = 100), 20, replace = T)

[1] 40.40 40.81 41.41 41.62 42.22 44.65 45.05 45.66 47.68 48.69

[11]49.29 49.70 52.12 53.54 54.34 54.55 57.58 58.59 58.79 59.19

Tabelle 3: In R simulierte Datenwerte (Ziehen mit Zurucklegen aus dem Intervall [40, 60]).

11

Page 15: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Anhand der in R durch Ziehen mit Zurucklegen simulierten Daten aus dem in 100-Teilintervallen zerlegten Intervall [40, 60] mit n=20 wird die empirische Einflussfunktionfur das arithmetische Mittel, den Median und das 20%-gestutzte Mittel berechnet und inAbbildung 4 dargestellt.

30 40 50 60 70

48.5

49.0

49.5

50.0

xn+1Stern

EIF

(x;θ

)

X =49.293X~

=48.990X0.2=49.048

Abbildung 4: Die empirische Einflussfunktion fur arithmetische Mittel, den Median und das20%–gestutzte Mittel bei Hinzufugen eines neuen Wertes x∗n+1 (nach [4], S. 94).

Zu erkennen ist, dass die EIF vom arithmetischen Mittel X linear ist. Dies deutet daraufhin, dassX nur wenig robust ist, da das Hinzufugen eines beliebig großen Wertes den Schatzerbeliebig groß verandern kann. Ein ahnliches Ergebnis fur X wurde bereits beim Bruchpunktfestgestellt.

Das 20%–gestutzte Mittel verhalt sich im Bereich der ungestutzen Werte auch linear, wieX. Wird jedoch ein Wert hinzugefugt, welcher zu den 20% der großten oder kleinsten Wertegehort und daher beim Berechnen von X0.2 nicht berucksichtigt wird, so ist die EIF in diesemBereich horizontal, d.h. der Schatzwert X0.2 wird durch einen solchen oder extremeren Wertnicht weiter beeinflusst.

Der Median ist identisch mit dem 50%–gestutzten Mittel und daher ein Spezialfall derobigen Beschreibung. Auch dieser ist linear rund um seinen ursprunglichen Wert, jedoch wirddurch Hinzufugen eines minimal anderen Wertes als X = 48.990 der Median stark verandert.Bei großeren Abweichungen vom ursprunglichen Wert 48.990 ist die Abweichung der EIF desMedians nicht so stark wie beim 20%–gestutzten Mittel.

Die letzten beiden Schatzer sind robust. Zusammenfassend sollte der nicht robuste Schat-zer X nur bei Daten verwendet werden, bei denen keine Ausreißer enthalten sind. Der Schat-zer X0.2 bzw. X bei Daten mit Ausreißern, wobei bei Daten mit einer Anzahl an Ausreißerngroßer 20% der Median besser geeignet ist.

12

Page 16: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

2.3 Sensitivitatsfunktion

Die Sensitivitatsfunktion SC misst, welchen Einfluss eine neue Beobachtung x∗n auf denSchatzwert hat und ist wie folgt definiert.

DefinitionSC(x∗n; θ, x1, ...xn−1) = n[θ(x1, ..., xn−1, x

∗n)− θ(x1, ...xn−1)]

• Im Vergleich zur EIF wird nun hier ein Wert x∗n hinzugefugt. Eine analoge Definitionmit Ersetzen eines Wertes xi ist ebenso moglich.

• Der Einfluss durch Hinzufugen von x∗n auf den Schatzer θ sinkt mit einer hoherenAnzahl an Datenpunkten. Um dies zu berucksichtigen wird die Differenz mit n multi-pliziert.

• Die Sensitivitatsfunktion ist anschaulich die normierte EIF. Vom Wert der EIF, namlichθ(x1, ..., xn−1, x

∗n), wird der ursprungliche Schatzwert θ(x1, ...xn−1) abgezogen und die

Differenz wird mit n multipliziert.

In Abbildung 5 ist fur die Daten aus Tabelle 3 die Sensitivitatsfunktion fur das arithme-tische Mittel, den Median und das 20%-gestutzte Mittel abgebildet.

30 40 50 60 70

−20

−10

010

20

xnStern

SC

(x;θ

)

X =49.293X~

=48.990X0.2=49.048

Abbildung 5: Die Sensitivitatsfunktion fur das arithmetische Mittel, den Median und das20%-gestutzte Mittel (nach [4], S. 94).

Am Wert der Sensitivitatsfunktion kann man erkennen, fur welche Beobachtung x∗n wel-cher Schatzer am robustesten ist, also am Wenigsten von seinem ursprunglichen Schatzwertabgewichen ist. Dies ist der Schatzer fur einen festen Wert x∗n, welcher den betragsmaßig

13

Page 17: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

kleinsten Wert SC(x∗n; θ, x1, ...xn−1) besitzt. Im gegebenen Beispiel ist das arithmetischeMittel im Wertebereich von etwa [42, 56] robuster als X0.2 und X. Zu erkennen ist auch,dass X0.2 im Bereich von etwa [46, 52] robuster als X ist. Dies bedeutet, dass bei nur kleinenAbweichungen der Daten das 20%-gestutzte Mittel dem Median in Bezug auf die Robustheitvorzuziehen ist.

Uberleitung zur EinflussfunktionIm Folgenden wird die Einflussfunktion anhand der Sensitivitatsfunktion motiviert.

• Ist θ ein Schatzer, welcher abhangig von einer empirischen Verteilungsfunktion Fn−1ist, also θ(x1, ..., xn−1) = θ(Fn−1), d.h, θ kann als Funktional gesehen werden, so kanndie Sensitivitatsfunktion wie folgt dargestellt werden

• SC(x∗n; θ, x1, ..., xn−1) = n[θ(x1, ..., xn−1, x∗n)− θ(x1, ..., xn−1)]

mit θ(x1, ..., xn) = θ(Fn) folgt

SC(x∗n; θ, F ) = [θ{(1− 1n)Fn−1 + 1

nδx∗

n} − θ(Fn−1)]/ 1

n

wobei

• θ(Fn−1) der Schatzwert vor Hinzufugen von x∗n ist,

• δx∗n

das Diracmaß zu x∗n bezeichnet und

• θ{(1− 1n)Fn−1 + 1

nδx∗

n} der Schatzer der an der Stelle x∗n kontaminierten Verteilung ist.

Der Zusammenhang zur Einflussfunktion ist folgender.

• Die Kontamination betrage t := 1/n.

• Fur n→∞ gilt t→ 0 und

• SC(x∗n; θ, Fn) konvergiert nun (”in vielen Situationen“ [4], S. 94) zur Einflussfunktion

IF (x∗n; θ, F ).

14

Page 18: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

3 Einflussfunktion - Maß der Robustheit

In diesem Kapitel wird die Einflussfunktion definiert und anhand von Beispielen erlautert,bevor in Kapitel 3.2 verschiedene Maße der Einflussfunktion eingefuhrt werden.

3.1 Definition

Die Einflussfunktion (influence function, IF) ist wie folgt definiert.

IF (x; θ, F ) = θ′x(F ) = limt→0+

θ{(1− t)F + tδx} − θ(F )t

Hierbei gilt

• Die IF ist unabhangig von einer Stichprobe (im Gegensatz zu bisher erwahnten Ver-fahren.

• Die IF beschreibt, wie sich der Schatzer θ durch eine infinitesimale Verschmutzung ander Stelle x verandert.

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

x

IF(x

;θ,F

)

XX~

k=0.5k=1k=1.5

Abbildung 6: Die Einflussfunktion fur das arithmetische Mittel, den Median und die Huber-Schatzer fur k=0.5, 1, 1.5 bei Standardnormalverteilung (nach [4], S. 45).

Die Interpretation der Einflussfunktion, wie in Abbildung 6 fur das arithmetische Mit-tel, den Median und die Huber-Schatzer fur k=0.5, 1, 1.5 fur die Verteilungsfunktion F derStandardnormalverteilung, ist ahnlich der Interpretation der Sensitivitatsfunktion. Fur einenfesten Wert x konnen die Betrage der Einflussfunktionen von Schatzer miteinander verglichen

15

Page 19: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

werden. Derjenige Schatzer mit der kleinsten Einflussfunktion weist die geringste Verande-rung des Schatzwertes fur den Wert x auf und ist somit am robustesten. Die Große derVeranderung des Schatzwertes kann aus der Einflussfunktion nicht abgelesen werden. Diesedient lediglich als Vergleich zwischen Schatzern und es konnen, wie in Kapitel 3.2 dargestellt,quantitative Maße anhand der Einflussfunktion definiert werden, welche die Robustheit einesSchatzers beschreiben.

Berechnung der Einflussfunktion am Beispiel des arithmetischen Mittels

• Der Schatzer fur das arithmetische Mittel basiert auf θ(F ) =∫udF (u).

• Einsetzen in IF (x; θ, F ) = limt→0+

θ{(1− t)F + tδx} − θ(F )t

liefert

limt→0+

∫u d[(1− t)F + tδx](u)− ∫ u dF (u)

t=

limt→0+

(1− t) ∫ u dF (u) + t∫u dδx(u)− ∫ u dF (u)t

=

mit∫u dδx(u) = x und

∫u dF (u) = c, c ∈ R

limt→0+

(1− t)c+ tx− ct

=

limt→0+

tx− tct

= x− c

also IF (x; θ, F ) = x− cMan erkennt, dass die Einflussfunktion des arithmetischen Mittels eine Gerade ist, d.h. fur

beliebig großes x ist der Wert IF (x; θ, F ) beliebig groß, d.h. die gross-error sensitivity (sieheKapitel 3.2) ist nicht beschrankt. Diese Eigenschaft spricht gegen einen robusten Schatzer.

3.2 Maße der Einflussfunktion

In diesem Kapitel werden Maße behandelt, anhand welcher eine quantitative Einschatzungder Robustheit getroffen werden kann, da die Einflussfunktion lediglich qualitativ feststellenkann, ob der Schatzer robust ist. Es werden die gross-error sensitivity, die B-Robustheit, dielocal-shift sensitivity und der rejection point behandelt. Eine grafische Darstellung dieserMaße gibt Abbildung 7 anhand der Einflussfunktion des Tukey biweight-Schatzers wieder.

Definition gross-error sensitivityγ∗ = sup

x|IF (x; θ, F )|

• Die gross-error sensitivity gibt das Maximum der Einflussfunktion an, also den großtenWert, welchen IF (x; θ, F ) vom Betrag annimmt.

16

Page 20: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

x

IF(x

;θ,T

)

0

rejection point

gross−error sensitivity

local−shift sensitivity

Abbildung 7: Maße der Einflussfunktion am Beispiel der Einflussfunktion des Tukey biweight-Schatzers (nach [4], S. 44).

Definition B-Robustheitγ∗ <∞⇒ θ ist B(ias)-robust

• Wenn das Maximum der IF endlich ist, wird θ als B-robust bezeichnet.

• Beispielsweise ist beim Median |IF (x;xmed, F )| = 1/(2 · f((µ)) fur alle moglichen x(Herleitung in [10]). Daher ist auch γ∗ auf diesen Wert beschrankt und der Median istB-robust.

• Das arithmetische Mittel hat eine |IF (x;X,F )| = x (Herleitung in [10]), d.h. γ∗ =∞.Somit ist X kein B-robuster Schatzer.

Definition local-shift sensitivity

λ∗ = supx 6=x0

|IF (x0; θ, F )− IF (x; θ, F |)|x0 − x|

• Die local-shift sensitivity ist ein Maß fur kleine Veranderungen in den Daten, z.B. durchRunden oder lokale Ungenauigkeiten.

• Sie misst den Einfluss auf den Schatzer, wenn x auf x0 verandert wird, wobei davonausgegangen wird, dass x und x0 Werte sind, welche nahe beieinander liegen.

• Anschaulich ist λ∗ die Steigung von IF im Punkt x, d.h. je großer λ∗ ist, desto sensibleroder starker reagiert die Einflussfunktion auf lokale Veranderungen.

17

Page 21: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Definition rejection pointρ∗ = inf

r>0{IF (x; θ, F ) = 0 : |x| > r}

• Der rejection point ρ∗ gibt an, ab welcher Große r ein Ausreißer keinen Einfluss mehr aufden Schatzer hat. Dies ist gleichbedeutend mit dem Wert x, ab welchem IF (x; θ, F ) = 0ist. Beispielsweise existiert fur den Tukey biweight-Schatzer aus Abbildung 3.2 einrejection point. Fur die Schatzer aus Abbildung 6 existiert kein rejection point, da dieEinflussfunktionen durch jeden beliebig großen Wert stets verandert werden kann, auchwenn die Veranderungen ab einem gewissen Wert x konstant sind.

Wunschenswerte Eigenschaften eines Schatzers bezuglich der EinflussfunktionHampel (1974 [10]) beschreibt Eigenschaften, welche ein Schatzer in Bezug auf die Ein-

flussfunktion besitzen soll.

• Begrenzte gross-error sensitivity (also θ soll B-robust sein)

• Niedrige local-shift-sensitivity

• Niedrigen (endlichen) rejection point

18

Page 22: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

4 M-Schatzer

In diesem Kapitel wird der M-Schatzer definiert, ein Konzept welches von Huber [5] erarbeitetwurde. Nach der Definition in Kapitel 4.1 wird der M-Schatzer in Kapitel 4.2 anhand einesBeispiels fur Lokationsschatzung erlautert und in Kapitel 4.3 wird die Einflussfunktion undder Bruchpunkt eines M-Schatzers skizziert.

4.1 Definition

Der M-Schatzer wird basierend auf [11], (S. 486 f.) im Folgenden hergeleitet.

Ausgehend von X = (X1, ...Xn) mit Xiiid∼ F kann der maximum likelihood Schatzer

angegeben werden als

ML-Schatzer (maximum likelihood)n∑

i=1−logf(xi; θ)→ min

θ!

Das Problem ist hierbei, dass die Likelihood nicht robust gegen Ausreißer ist.Durch Ersetzen von−logf(x; θ) durch eine robustere Funktion ρ(x; θ) versucht man dieses

Problem zu umgehen und man erhalt die Definition des M-Schatzers.

M-Schatzer (maximum likelihood type)n∑

i=1ρ(xi; θ)→ min

θ!

Um∑ni=1 ρ(xi; θ) zu minimieren, kann man alternativ folgende Gleichung losen.

n∑

i=1

∂θρ(xi; θ) =

n∑

i=1Ψ(xi; θ) != 0

• Jeder Schatzer θ, der eine der obigen Gleichungen erfullt, heißt M-Schatzer.

• Fur ρ(xi; θ) = −logf(xi; θ), erhalt man den ML-Schatzer.

Im Artikel [5], S. 74 ff., in welchem Huber (1964) den M-Schatzer zum ersten Mal be-schrieben hat, sind weitere folgende Eigenschaften angegeben.

• Als weitere Bedingung sei ρ eine nicht-konstante Funktion. Ansonsten wurde∑ni=1 ρ(xi; θ)

kein Minimum besitzen.

Unter weiteren Regularitatsbedingungen gilt:

• ([5], Lemma 3) θ ist”konsistent“: θ → c f.s. und in Verteilung

• ([5], Lemma 4)√n(θ(x)− c

)a∼ N

(0, V ar(Ψ, F )

)

19

Page 23: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

4.2 Beispiel fur Lokationsschatzung

Im Folgenden wird das Konzept eines M-Schatzers fur die Lokationsschatzung beschrieben.Ein Lokationsschatzer θ wird fur Daten x1, ...xn so erdacht, dass gilt

n∑

i=1zi :=

n∑

i=1

xi − θS

= 0

wobei S die Schatzung der Datenstreuung bezeichnet. Auf die Schatzung von S wird imFolgenden nicht naher eingegangen.

Große zi, d.h. große Abweichungen xi von θ, sollen, um die Schatzung robuster zu machen,vermindert einfließen.

Konstruiere hierfur ein Ψ(zi) =

−k fur zi < −kz fur |zi| ≤ k

k fur zi > k

d.h. Ψ(zi) gibt an, wie stark zi in die Schatzung von θ einfließt. Man erkennt, dass fur−k ≤ zi ≤ k die Werte ungewichtet in die Schatzung einfließen. Fur |zi| > k wird der Wertvon zi nur noch als k berucksichtigt, egal wie groß zi ist.

Im obigen Beispiel ist das Ψ(zi) des Huber-Schatzers angegeben. In Abbildung 8 wirdΨ(z) des Huber-Schatzers fur k = 1.5 im Vergleich zum ML-Schatzer fur die Standardnor-malverteilung gezeigt. Hierbei ist Ψ(z) beim ML-Schatzer bei Standardnormalverteilung

Ψ(z) = ∂

∂θρ(z; θ) = ∂

∂θ− logf(xi; θ)

∼N(0,1)= z · log(√

2π) ≈ 0.9189 · z

−3 −2 −1 0 1 2 3

−2

−1

01

2

z

Ψ(z

)

ML−Schätzer N(0,1)Huber−Schätzer k=1.5

Abbildung 8: Ψ(z) fur Huber-Schatzer (k = 1.5) und ML-Schatzer bei standardnormalver-teilten Daten.

20

Page 24: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Es ist zu erkennen, dass

• beim Huber-Schatzer fur −k ≤ z ≤ k die Beobachtungen vollstandig in die Schatzungvon θ eingehen,

• wobei fur |z| < k diese nur mit konstantem Wert k berucksichtigt werden,

• beim ML-Schatzer jede Beobachtung ungewichtet in die Schatzung einfließt, wodurchdie ML-Schatzung anfallig bei Ausreißern ist.

−3 −2 −1 0 1 2 3

0.5

0.6

0.7

0.8

0.9

1.0

z

w(z

)

Abbildung 9: Gewichtsfunktion w(z) fur den Huber-Schatzer fur k = 1.5.

Eine weitere Große, welche bei M-Schatzern oft angegeben wird, ist die Gewichtsfunktionw(z). Diese gibt an, wie stark der Wert z fur die Schatzung von θ gewichtet wird und es gilt

w(z) = Ψ(z)z

. In Abbildung 9 ist die Gewichtsfunktion fur den Huber-Schatzer (fur k = 1.5)dargestellt. Deutlich ist, dass fur Werte −1.5 ≤ z ≤ 1.5 der Wert z ohne Reduzierung, alsomit Gewicht w = 1 in die Schatzung einfließt. Großere z-Werte fließen nur noch konstant als1.5 ein. Zum Beispiel wird somit ein z-Wert von 3 nur zur Halfe berucksichtigt und somit istw(3) = 0.5.

Abbildung 10 zeigt Ψ-Kurven fur die folgenden M-Schatzer: Huber-Schatzer fur die Pa-rameter k = 0.5, k = 1 und k = 1.5, Hampel-Schatzer fur a = 1.2, b = 2, c = 2.5 und TukeyBiweight-Schatzer fur c = 2.5. Diese konnen in R mit der library(MASS) erzeugt werden.

Beispielsweise besitzen der Hampel und Tukey Biweight-Schatzer einen rejection point,welcher durch den Parameter c = 2.5 festgesetzt wird. Die gross-error sensitivity ist furden Tukey Biweight-Schatzer am geringsten, bei den Huber-Schatzern ist diese identisch mitdem Parameter k, beim Hampel-Schatzer mit dem Parameter a. Ersichtlich ist auch, dassalle Schatzer symmetrisch sind.

21

Page 25: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

−3 −2 −1 0 1 2 3

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

z

Ψ(z

)

Huber k=0.5Huber k=1Huber k=1.5Hampel a=1.2,b=2,c=2.5Tukey Biweight c=2.5

Abbildung 10: Ψ-Kurven bekannter M-Schatzer.

4.3 Einflussfunktion und Bruchpunkt eines M-Schatzers

Die Einflussfunktion eines M-Schatzers ist wie folgt. Eine Herleitung kann in [3], S. 45 ge-funden werden.

IF (x;F, θ) = − ψ(x; θ(F ))∫ ( ∂

∂θψ(x, θ(F ))

)dF (x)

Auffallend bei der Einflussfunktion IF (x;F, θ) ist, dass diese proportional zur Funktion

ψ(x, θ(F ) ist. Somit lassen sich rejection point, gross-error sensitivity und local-shift sensiti-vity, welche eigentlich auf der Einflussfunktion basieren, aus der Ψ-Funktion herleiten. DesWeiteren bietet sich so die Moglichkeit, einen robusten Schatzer zu konstruieren. Man be-stimmt eine Einflussfunktion, welche den Einfluss der Daten entsprechend steuert. Mithilfeobiger Gleichung kann so die Ψ-Funktion eines M-Schatzers hergeleitet werden.

Bruchpunkt eines M-SchatzersZur Vollstandigkeit ist im Folgenden der Bruchpunkt eines M-Schatzers angegeben. Eine

Herleitung findet sich in [3], S. 53.

b(θ;x) = η

1 + η

mit

η = min

{−ψ(−∞)ψ(+∞) ,−

ψ(+∞)ψ(−∞)

}

Die Werte ε∗ = 0.5 bzw. ε∗ = 0 ergeben sich in folgenden Fallen.

22

Page 26: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

• ε∗ = 0.5 fur ψ(−∞) = ψ(+∞)

• ε∗ = 0, wenn ψ unbeschrankt ist, also ψ(∞) =∞

Beispielsweise besitzen alle M-Schatzer, da diese eine symmetrische Ψ-Funktion haben,den großtmoglichen Bruchpunkt ε∗ = 0.5. Der ML-Schatzer hat ein ε∗ = 0, da fur diesen wiein Abbildung 8 ersichtlich, ψ(∞) =∞ gilt.

23

Page 27: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

5 Kritische Wurdigung

In diesem Kapitel erfolgt eine kritische Wurdigung des Begriffs der Robustheit.

Kritische Wurdigung - die schlechte Nachricht

• Keine einheitliche Definition vorhanden. (”

As Huber (1972) pointed out robustnesswas defined rather vaguely from the start by Box & Anderson (1955) and it has notgained in precision with time.“) (Bickel (1976) [13], S. 146).

• Robustheit eines Schatzers ist nicht das einzige Kriterium fur dessen Qualitat (wichtigsind auch Effizienz, Konsistenz, Suffizienz und Erwartungstreue).

• Die Losung der Nullstelle der Ψ-Funktion bei M-Schatzern ist i.A. nicht explizit losbar.Losung ist zum Beispiel durch das iterative Newton-Raphson Verfahren moglich.

• Viele Simulationsstudien uber robuste Verfahren beruhen meist auf kleinen Abweichun-gen der Normalverteilung. Ein Ubertrag auf echte Daten ergibt teilweise ein anderesBild als in den Studien (Stigler (1977) [14], S. 1057).

• Trotz vieler Simulationsstudien ist unklar, wann welcher robuster Schatzer (L-, R-, S-,M-Schatzer, etc.) am Besten zu verwenden ist [14].

• Stigler (2010 [15], S. 9) sagt, nachdem er die Vorteile einer großen Vergleichsstudievon robusten Methoden, der Princeton Study (1972 [16]), erwahnt hat:

”At another

extreme it could be seen as a fruitless exercise in self-indulgent ad hockery, beating asmall and uninterestingly limited problem to death by computer overkill.

Kritische Wurdigung - die gute Nachricht

• Parametrische Modelle sind nur Annaherung an die Realitat, nichtparametrische Ver-fahren nutzen jedoch nicht alle vorhandenen Informationen. Ein Kompromiss zwischenbeiden Verfahren fuhrt zu robusten Verfahren.

• Parametrische Verfahren gehen von (exakten) Verteilungsannahmen aus. Bei realenDaten treffen diese selten zu (z.B. exakte Normalverteilung). Durch die Verwendungvon robusten Methoden konnen trotz Abweichungen parametrische Verfahren einge-setzt werden.

• Robuste Statistiken weisen eine hohere Effizienz auf, falls die Annahmen nicht exaktzutreffen.

• Robuste Verfahren sind bereits fur viele Gebiete entwickelt, wie beispielsweise Lokations-und Skalenschatzung, Uberlebensanalyse, GLM oder Zeitreihen.

24

Page 28: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

• Die Verteilungsfamilie ist meist nicht exakt bekannt. Ware diese exakt bekannt, wurdeman beim Einsatz von ML-Schatzern fur jede explizite Verteilungsfamilie (asympto-tisch) optimale Schatzer erhalten. Man gehe nun von einer Menge von Verteilungsfa-milien F der Form

F = (1− γ) · F0 + γ ·G

aus. Diese Form entspricht dem gross-error model (siehe [3] S.11), wobei die bekannteVerteilung F0 durch eine unbekannte Verteilung G mit dem Grad γ verschmutzt wird.Nun sind fur F durch robuste Verfahren beinahe optimale (i.S.d. Effizienz) Schatzungenmoglich.

• Es sind quantitative Robustheitsmaße (Einflussfunktion, Bruchpunkt,...) vorhanden,um verschiedene Schatzer auf ihre Robustheitseigenschaft zu beurteilen.

Die Theorie der Robustheit spielt in vielen Gebieten eine wichtige Rolle und ihre Errun-genschaften sind aus der Statistik nicht mehr wegzudenken. Bei den meisten statistischenModellen fließen theoretische Annahmen ein, welche in der Praxis selten exakt zutreffen. Umtrotzdem diese Modelle anwenden zu konnen, konnen robuste Methoden helfen, da nie davonausgegangen werden kann, dass diese Modelle bzw. ihre Annahmen wirklich zutreffen.

In diesem Sinne kann auch das folgende Zitat von Martin Bradbury Wilk, welcher 1980bis 1985 das Amt des Obersten Statistikers von Kanada innehatte und zusammen mit SamuelShapiro den Shapiro-Wilk Test entwickelt hat, verstanden werden.

The hallmark of good science is that it uses models and ’theories’ butnever believes them

- Martin Bradbury Wilk -

25

Page 29: Seminararbeit zu Philosophische Grundlagen der Statistikcattaneo.userweb.mwn.de/pgs-ws1011/materials/Seminararbeit 7... · 1968 beschreibt Hampel in einem Artikel [6] die Ein ussfunktion

Literaturverzeichnis[1] K. Schmidt. Die historische Entwicklung der robusten Statistik. In Wissenschaftstheori-

en und Wissenstransformation im 20. Jahrhundert, Seminar des Instituts der Statistik derLudwig-Maximilians-Universität, Wildbad-Kreuth, März 2010.

[2] J.W. Tukey. A survey of sampling from contaminated distributions, chapter 39, pages 448–485. Contributions to probability and statistics: essays in honor of Harlod Hotelling, Band2. Stanford University Press, 1960.

[3] P.J. Huber. Robust statistics. Wiley Series in Probability and Mathematical Statistics, 1981.

[4] F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, and W.A. Stahel. Robust statistics. WileyNew York, 1986.

[5] P.J. Huber. Robust estimation of a location parameter. The Annals of Mathematical Stati-stics, 35(1):73–101, 1964.

[6] F.R. Hampel. Contributions to the theory of robust estimation. PhD thesis, 1968.

[7] G.E.P. Box and S.L. Andersen. Permutation theory in the derivation of robust criteria andthe study of departures from assumption. Journal of the Royal Statistical Society. Series B(Methodological), 17(1):1–34, 1955.

[8] Student. Errors of routine analysis. Biometrika, 19(1):151–164, 1927.

[9] F.J. Anscombe and I. Guttman. Rejection of outliers. Technometrics, 2(2):123–147, 1960.

[10] F.R. Hampel. The influence curve and its role in robust estimation. Journal of the AmericanStatistical Association, 69(346):383–393, 1974.

[11] H. Rinne. Taschenbuch der Statistik. Harri Deutsch Verlag, 2008.

[12] P.L. Davies and U. Gather. The breakdown point–examples and counterexamples. Revstat–Statistical Journal, 5(1):1–17, 2007.

[13] P.J. Bickel, S. Holm, B. Rosén, E. Spjøtvoll, S. Lauritzen, S. Johansen, and O. Barndorff-Nielsen. Another look at robustness: a review of reviews and some new developments [withdiscussion and reply]. Scandinavian Journal of Statistics, 3(4):145–168, 1976.

[14] S.M. Stigler. Do robust estimators work with real data? The Annals of Statistics, 5(6):1055–1098, 1977.

[15] S.M. Stigler. The changing history of robustness. In International Conference on RobustStatistics, Juni Prag, 2010.

[16] D.F. Andrews, P.J. Bickel, F.R. Hampel, P.J. Huber, W.H. Rogers, and J.W. Tukey. Robustestimates of location: survey and advances. Princeton University Press, 1972.

26