anwendbarkeit von benfords gesetz fälschungsforschung in den sozialwissenschaften johannes bauer
TRANSCRIPT
Anwendbarkeit von Benfords Gesetz
Fälschungsforschung in den Sozialwissenschaften
Johannes Bauer
2 von 25
Benfordverteilte Daten
3 von 25
Benfordverteilung
1 2 3 4 5 6 7 8 9
(D₁ = d₁) 30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6
2.5
7.5
12.5
17.5
22.5
27.5
32.5
Erste gültige Ziffer
4 von 25
Benfordverteilung
Entstehungsfaktoren
• Multiplikationen – Richard Hammering (1970)
• Verteilungen – Theodor Hill (1995)
5 von 25
Fälschungen aufdecken
Ansatz:
• Welche Daten sind benfordverteilt?
• Abweichungen als Indiz für Fälschungen
6 von 25
Was ist Benfordverteilt
Datenquelle: Kölner Zeitschrift für Soziologie und Sozialpsychologie Februar 1985 bis März 2007 (mit Unterstützung des Lehrstuhl Braun, LMU München)
N 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer
Unstand. Regressionen 2180 x x x xχ²-Testwerte 310 x x x x
Logistische Regressionen 2251 x xt-Verteilungen 1538 x x
Coxregressionen 599 x xR² 342 x x x
Pseudo-R² 248 x x -Gesamt 7468 x x
7 von 25
Gleichverteilte Ziffern
Normalverteilung
• Mittelwert: 3
• Standardfehler: 2
8 von 25
Gleichverteilte Ziffern
Normalverteilung
• Mittelwert: 3
• Standardfehler: 2
9 von 25
Gleichverteilte Ziffern
Normalverteilung
• Mittelwert: 3
• Standardfehler: 2
N 1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer
Unstand. Regressionen 2180 x x xχ²-Testwerte 310 x x x
Logistische Regressionen 2251 x xt-Verteilungen 1538 x x
Coxregressionen 599 x xR² 342 x x x
Pseudo-R² 248 x x -Gesamt 7468 x x
10 von 25
Untersuchung des Lehrstuhl Braun
Zu fälschende Hypothese: “Je höher die Bildung einer Person, desto weniger Zigaretten raucht sie pro Tag”
1. Ziffer: Ho abgelehnt (χ ²=103.39,df = 8, p = 0.000)
2. Ziffer: Ho abgelehnt (χ ²=122.59,df = 9, p = 0.000)
1 2 3 4 5 6 7 8 9
Ben-ford
30.1 17.6 12.5 9.7 7.9 6.7 5.8 5.1 4.6
Stu-den-ten
30.9 17.3 13.5 8 7.2 4.8 5.3 6.1 6.7
3
8
13
18
23
28
33
Gefälschte Regressionskoeffizienten, erste gültige Ziffer (n = 4621)
11 von 25
Untersuchung: 3. und 4. Ziffer
Ho abgelehnt(χ² = 304.89, df=9, p= 0.000)
Ho abgelehnt(χ ² = 622.20, df=9, p= 0.000)
0 1 2 3 4 5 6 7 8 9
Benford 10 10 10 10 10 10 10 10 10 10
Studen-ten
3.1 19 12 14.2
9.2 8.1 8.2 9.8 8 8.6
38
1318232833
Gefälschte RegressionenDritte gültige Ziffer (n = 4378)
0 1 2 3 4 5 6 7 8 9
Ben-ford
10.2 10.1 10 10 10 10 9.9 9.9 9.9 9.8
Studen-ten
9.1 15.1 10.8 14.9 9 7.5 7.4 10 8.6 7.7
38
1318232833
Gefälschte RegressionenVierte gültige Ziffer (n = 3867)
12 von 25
Untersuchung: Individualdaten
Individuelle Abweichungen von Benfords Gesetz
1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer
35 40 42 41
47 Personen
0.744 0.851 0.893 0.872
absolut
prozentual
13 von 25
Fälschungen entdecken
Ansatz:
• Ab wann wird eine Fälschung erkannt?Vorgehensweise:
1. Empirische Verteilung gefälschter Regressionskoeffizienten
2. Ziehen von Zufallszahlen
3. Test der Zufallswerte auf Benfords Gesetz (H0)
20 50 100 200 400 500 750 1000 1500
χ2 - Test 0 0 0 0 1 0 1 1 1
4. Wiederholung für höhere Fallzahlen
Zweite gültige ZifferDritte gültige Ziffer Vierte gültige ZifferErste gültige Ziffer
14 von 25
Aggregatdaten
Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen:
1. Ziffer: 989 Fälle
2. Ziffer: 766 Fälle
3. Ziffer: 351 Fälle
4. Ziffer: 138 Fälle
15 von 25
Erste gültige Ziffer ~ 50 % gefälschte Daten
2. Ziffer: 3308 Fälle
3. Ziffer: 1351 Fälle
4. Ziffer: 585 Fälle
Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen:
1. Ziffer: 4001 Fälle
Aggregatdaten
16 von 25
Erste gültige Ziffer ~ 10 % gefälschte Daten
2. Ziffer: 78883 Fälle
3. Ziffer: 31266 Fälle
4. Ziffer: 12592 Fälle
Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen:
1. Ziffer: 94439 Fälle
Aggregatdaten
17 von 25
Benötigte
Fallzahl (95 Proze
nt)
6000 4000 2000
0
0 0,2 0,4 0,6 0,8 1,0
Anteil gefälschter Daten
Erste Ziffer
Zweite Ziffer
Dritte Ziffer
Vierte Ziffer
Aggregatdaten
18 von 25
Individualdaten
Durchschnittliche Fallzahl um H0 mit einer Wahrscheinlich-keit von 95 % abzulehnen:
1. Ziffer: 136 Fälle
2. Ziffer: 102 Fälle
3. Ziffer: 100 Fälle
4. Ziffer: 69 Fälle
Erste gültige Ziffer ~ 100 % gefälschte Daten
19 von 25
Benötigte
Fallzahl (95 Proze
nt)
6000 4000 2000
0
0 0,2 0,4 0,6 0,8 1,0
Anteil gefälschter Daten
Erste Ziffer
Zweite Ziffer
Dritte Ziffer
Vierte Ziffer
Individualdaten
20 von 25
Kombination von Ziffern
Erste gültige Ziffer Dritte gültige Ziffer
Zweite gültige Ziffer Vierte gültige Ziffer
730923245
092649808
016203355
621134114
21 von 25
Kombination von Ziffern
0 1 2 3 4 5 6 7 8 9
Benford 8 15.4 12.1 10.7 9.9 9.3 9 8.7 8.4 8.2
3
8
13
18
23
28
33
Mischung der 1. bis 4. gültigen Ziffer
22 von 25
Zweiter Schritt: Gemeinsame Ziffern
1. Ziffer 2. Ziffer 3. Ziffer 4. Ziffer
4621 4541 4378 3867
17407
Gewichtung
0,265 0,261 0,252 0,222
23 von 25
Zweiter Schritt: Gemeinsame Ziffern
0 1 2 3 4 5 6 7 8 9
Benford 7.9 15.7 12.2 10.8 10 9.4 8.9 8.6 8.3 8.1
Studenten 6.1 19.9 13.1 13.7 8.5 7.9 6.6 8.4 8 7.9
3
8
13
18
23
28
33
Aggregierte Daten, gemeinsame Ziffern (n = 17407)
24 von 25
Zweiter Schritt: Gemeinsame Ziffern
Benötigte Ziffern (95 Prozent)
6000
4000
2000
0
0 0,2 0,4 0,6 0,8 1,0
Anteil gefälschter Daten
25 von 25
Zweiter Schritt: Vergleich
Gemeinsame Ziffern
4. gültige Ziffer
Anteil gefälschter Daten
100% 174 73
80% 299 116
60% 570 208
50% 843 301
40% 1344 472
20% 5526 1897
Gemeinsame Ziffern
0,265
174 46
299 79
570 151
843 223
1344 356
5526 1464
4. gültige Ziffer
100 / 18,5 =5,4
73 394
116 626
208 1123
301 1625
472 2549
1897 10243
26 von 25
Ergebniszusammenfassung
Fälschungserkennung mit Benfords Gesetz:
• Untersuchung von Individualdaten
• Untersuchung gemeinsamer Ziffern
• Anwendung von Anpassungstests, welche stärker auf die Stichprogengröße reagieren (hier χ²-Anpassungstest)
• Die Effektivität des Verfahrens ist stark abhängig von der Vorgehensweise des Fälschers.
27 von 25
Vorschläge
Fälschungserkennung mit Benfords Gesetz:
• Erfassen möglichst vieler metrischer Kennwerte
• Verwenden der Gleichverteilung
• Fälschertypen bilden
• Konzentration auf Abweichungen
• Konzentration auf die Ziffernreihenfolge
28 von 15
Literatur
Surowiecki, James, 2004: The Wisdom of Crowds. Why the Many are Smarter than the Few. New York: Doubleday.
Nigrini, Mark, 1999: I’ve Got Your Number. How a Mathematical Phenomenon can Help CPAs uncover Fraud and Other Irregularities, in: Journal of Accountancy: 79-83.
Newcomb, Simon, 1881: Note on the Frequency of use of the Different Digits in Natural Numbers, in: American Journal of Mathematics 4(1), 39-40.
Diekmann, Andreas, 2007: Not the First Digit! Using Benford’s Law to Detect Fraudulent Scientific Data, in: Journal of Applied Statistics 34(3), 321-329.
Busta, Bruce/Weinberg, Randy, 1998: Using Benford’s law and neural networks as a review procedure, in: Managerial Auditing Journal 13(6), 356-366.
Benford, Frank, 1938: The Law of Anomalous Numbers, in: Proceedings of the American Philosophical Society 78(4), 551-572.
Hill, Theodore P., 1995: Base-invariance implies Benford’s law, in: Proceedings of the American Philosophical Society 78, 551-572.