anwendbarkeit von benfords gesetz fälschungsforschung in den sozialwissenschaften johannes bauer

28
Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

Upload: rosalind-helber

Post on 05-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

Anwendbarkeit von Benfords Gesetz

Fälschungsforschung in den Sozialwissenschaften

Johannes Bauer

Page 2: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

2 von 25

Benfordverteilte Daten

Page 3: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

3 von 25

Benfordverteilung

1 2 3 4 5 6 7 8 9

(D₁ = d₁) 30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6

2.5

7.5

12.5

17.5

22.5

27.5

32.5

Erste gültige Ziffer

Page 4: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

4 von 25

Benfordverteilung

Entstehungsfaktoren

• Multiplikationen – Richard Hammering (1970)

• Verteilungen – Theodor Hill (1995)

Page 5: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

5 von 25

Fälschungen aufdecken

Ansatz:

• Welche Daten sind benfordverteilt?

• Abweichungen als Indiz für Fälschungen

Page 6: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

6 von 25

Was ist Benfordverteilt

Datenquelle: Kölner Zeitschrift für Soziologie und Sozialpsychologie Februar 1985 bis März 2007 (mit Unterstützung des Lehrstuhl Braun, LMU München)

N 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer

Unstand. Regressionen 2180 x x x xχ²-Testwerte 310 x x x x

Logistische Regressionen 2251 x xt-Verteilungen 1538 x x

Coxregressionen 599 x xR² 342 x x x

Pseudo-R² 248 x x -Gesamt 7468 x x

Page 7: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

7 von 25

Gleichverteilte Ziffern

Normalverteilung

• Mittelwert: 3

• Standardfehler: 2

Page 8: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

8 von 25

Gleichverteilte Ziffern

Normalverteilung

• Mittelwert: 3

• Standardfehler: 2

Page 9: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

9 von 25

Gleichverteilte Ziffern

Normalverteilung

• Mittelwert: 3

• Standardfehler: 2

N 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer

Unstand. Regressionen 2180 x x xχ²-Testwerte 310 x x x

Logistische Regressionen 2251 x xt-Verteilungen 1538 x x

Coxregressionen 599 x xR² 342 x x x

Pseudo-R² 248 x x -Gesamt 7468 x x

Page 10: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

10 von 25

Untersuchung des Lehrstuhl Braun

Zu fälschende Hypothese: “Je höher die Bildung einer Person, desto weniger Zigaretten raucht sie pro Tag”

1. Ziffer: Ho abgelehnt (χ ²=103.39,df = 8, p = 0.000)

2. Ziffer: Ho abgelehnt (χ ²=122.59,df = 9, p = 0.000)

1 2 3 4 5 6 7 8 9

Ben-ford

30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6

Stu-den-ten

30.9 17.3 13.5 8 7.2 4.8 5.3 6.1 6.7

3

8

13

18

23

28

33

Gefälschte Regressionskoeffizienten, erste gültige Ziffer (n = 4621)

Page 11: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

11 von 25

Untersuchung: 3. und 4. Ziffer

Ho abgelehnt(χ² = 304.89, df=9, p= 0.000)

Ho abgelehnt(χ ² = 622.20, df=9, p= 0.000)

0 1 2 3 4 5 6 7 8 9

Benford 10 10 10 10 10 10 10 10 10 10

Studen-ten

3.1 19 12 14.2

9.2 8.1 8.2 9.8 8 8.6

38

1318232833

Gefälschte RegressionenDritte gültige Ziffer (n = 4378)

0 1 2 3 4 5 6 7 8 9

Ben-ford

10.2 10.1 10 10 10 10 9.9 9.9 9.9 9.8

Studen-ten

9.1 15.1 10.8 14.9 9 7.5 7.4 10 8.6 7.7

38

1318232833

Gefälschte RegressionenVierte gültige Ziffer (n = 3867)

Page 12: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

12 von 25

Untersuchung: Individualdaten

Individuelle Abweichungen von Benfords Gesetz

1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer

35 40 42 41

47 Personen

0.744 0.851 0.893 0.872

absolut

prozentual

Page 13: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

13 von 25

Fälschungen entdecken

Ansatz:

• Ab wann wird eine Fälschung erkannt?Vorgehensweise:

1. Empirische Verteilung gefälschter Regressionskoeffizienten

2. Ziehen von Zufallszahlen

3. Test der Zufallswerte auf Benfords Gesetz (H0)

20 50 100 200 400 500 750 1000 1500

χ2 - Test 0 0 0 0 1 0 1 1 1

4. Wiederholung für höhere Fallzahlen

Page 14: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

Zweite gültige ZifferDritte gültige Ziffer Vierte gültige ZifferErste gültige Ziffer

14 von 25

Aggregatdaten

Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen:

1. Ziffer: 989 Fälle

2. Ziffer: 766 Fälle

3. Ziffer: 351 Fälle

4. Ziffer: 138 Fälle

Page 15: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

15 von 25

Erste gültige Ziffer ~ 50 % gefälschte Daten

2. Ziffer: 3308 Fälle

3. Ziffer: 1351 Fälle

4. Ziffer: 585 Fälle

Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen:

1. Ziffer: 4001 Fälle

Aggregatdaten

Page 16: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

16 von 25

Erste gültige Ziffer ~ 10 % gefälschte Daten

2. Ziffer: 78883 Fälle

3. Ziffer: 31266 Fälle

4. Ziffer: 12592 Fälle

Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen:

1. Ziffer: 94439 Fälle

Aggregatdaten

Page 17: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

17 von 25

Benötigte

Fallzahl (95 Proze

nt)

6000 4000 2000

0

0 0,2 0,4 0,6 0,8 1,0

Anteil gefälschter Daten

Erste Ziffer

Zweite Ziffer

Dritte Ziffer

Vierte Ziffer

Aggregatdaten

Page 18: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

18 von 25

Individualdaten

Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen:

1. Ziffer: 136 Fälle

2. Ziffer: 102 Fälle

3. Ziffer: 100 Fälle

4. Ziffer: 69 Fälle

Erste gültige Ziffer ~ 100 % gefälschte Daten

Page 19: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

19 von 25

Benötigte

Fallzahl (95 Proze

nt)

6000 4000 2000

0

0 0,2 0,4 0,6 0,8 1,0

Anteil gefälschter Daten

Erste Ziffer

Zweite Ziffer

Dritte Ziffer

Vierte Ziffer

Individualdaten

Page 20: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

20 von 25

Kombination von Ziffern

Erste gültige Ziffer Dritte gültige Ziffer

Zweite gültige Ziffer Vierte gültige Ziffer

730923245

092649808

016203355

621134114

Page 21: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

21 von 25

Kombination von Ziffern

0 1 2 3 4 5 6 7 8 9

Benford 8 15.4 12.1 10.7 9.9 9.3 9 8.7 8.4 8.2

3

8

13

18

23

28

33

Mischung der 1. bis 4. gültigen Ziffer

Page 22: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

22 von 25

Zweiter Schritt: Gemeinsame Ziffern

1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer

4621 4541 4378 3867

17407

Gewichtung

0,265 0,261 0,252 0,222

Page 23: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

23 von 25

Zweiter Schritt: Gemeinsame Ziffern

0 1 2 3 4 5 6 7 8 9

Benford 7.9 15.7 12.2 10.8 10 9.4 8.9 8.6 8.3 8.1

Studenten 6.1 19.9 13.1 13.7 8.5 7.9 6.6 8.4 8 7.9

3

8

13

18

23

28

33

Aggregierte Daten, gemeinsame Ziffern (n = 17407)

Page 24: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

24 von 25

Zweiter Schritt: Gemeinsame Ziffern

Benötigte Ziffern (95 Prozent)

6000

4000

2000

0

0 0,2 0,4 0,6 0,8 1,0

Anteil gefälschter Daten

Page 25: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

25 von 25

Zweiter Schritt: Vergleich

Gemeinsame Ziffern

4. gültige Ziffer

Anteil gefälschter Daten

100% 174 73

80% 299 116

60% 570 208

50% 843 301

40% 1344 472

20% 5526 1897

Gemeinsame Ziffern

0,265

174 46

299 79

570 151

843 223

1344 356

5526 1464

4. gültige Ziffer

100 / 18,5 =5,4

73 394

116 626

208 1123

301 1625

472 2549

1897 10243

Page 26: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

26 von 25

Ergebniszusammenfassung

Fälschungserkennung mit Benfords Gesetz:

• Untersuchung von Individualdaten

• Untersuchung gemeinsamer Ziffern

• Anwendung von Anpassungstests, welche stärker auf die Stichprogengröße reagieren (hier χ²-Anpassungstest)

• Die Effektivität des Verfahrens ist stark abhängig von der Vorgehensweise des Fälschers.

Page 27: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

27 von 25

Vorschläge

Fälschungserkennung mit Benfords Gesetz:

• Erfassen möglichst vieler metrischer Kennwerte

• Verwenden der Gleichverteilung

• Fälschertypen bilden

• Konzentration auf Abweichungen

• Konzentration auf die Ziffernreihenfolge

Page 28: Anwendbarkeit von Benfords Gesetz Fälschungsforschung in den Sozialwissenschaften Johannes Bauer

28 von 15

Literatur

Surowiecki, James, 2004: The Wisdom of Crowds. Why the Many are Smarter than the Few. New York: Doubleday.

Nigrini, Mark, 1999: I’ve Got Your Number. How a Mathematical Phenomenon can Help CPAs uncover Fraud and Other Irregularities, in: Journal of Accountancy: 79-83.

Newcomb, Simon, 1881: Note on the Frequency of use of the Different Digits in Natural Numbers, in: American Journal of Mathematics 4(1), 39-40.

Diekmann, Andreas, 2007: Not the First Digit! Using Benford’s Law to Detect Fraudulent Scientific Data, in: Journal of Applied Statistics 34(3), 321-329.

Busta, Bruce/Weinberg, Randy, 1998: Using Benford’s law and neural networks as a review procedure, in: Managerial Auditing Journal 13(6), 356-366.

Benford, Frank, 1938: The Law of Anomalous Numbers, in: Proceedings of the American Philosophical Society 78(4), 551-572.

Hill, Theodore P., 1995: Base-invariance implies Benford’s law, in: Proceedings of the American Philosophical Society 78, 551-572.