record linkage 21.05 - krebsregister nrw: willkommen · record linkage 21.05.2008. grundsätzliches...

Post on 21-Jul-2018

216 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Record LinkageRecord Linkage

21.05.200821.05.2008

Record Linkage

• Methode

• Blockvariable

• Matchvariable

• Übereinstimmungsgewicht

• Verteilung der Übereinstimmungsgewichte

• Grenzen

• Beispiel

• Aufruf eines Record Linkage

• Manuelle Nachbearbeitung

Record LinkageRecord Linkage

21.05.200821.05.2008

Voraussetzungen

Verfügbare Merkmale

Pseudonyme (19)

Name, Vorname, Geburtsname, früherer Name, Titel, Geburtstag

Klartexte (4)

Geburtsmonat, Geburtsjahr, Postleitzahl, Wohnort, Geschlecht

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (1) neue Meldung Datenbank

Meldungen bekannter Personen

Paare

neue Meldung

X

alle vorhandene Meldungen

Prüfung auf Identität

Bei 2.000 neuen Meldungen pro Tagund 1.000.000 bekannten Meldungen

mehr als 2.000.000.000 Prüfungen pro Tag

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (2) neue Meldung Datenbank

Meldungen bekannter Personen

Paare

neue Meldung

X

alle vorhandene Meldungen, die in bestimmten Merkmalen

mit der neuen Meldung übereinstimmen Blockvariable

Prüfung auf Identität

=

Berechnung des Übereinstimmungsgewichts

für jedes Meldungspaar

neue Meldung

bekannte Meldung 1 …. n

Vergleich bestimmter

Merkmalsausprägungen der neuen Meldung und der bekannten Meldung

Matchvariable

Entscheidung

identisch, nicht identisch, fraglich

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (3)

Blockvariable

Lauf 1 Name, Vorname, Geburtsdatum

Lauf 2 Name, Geschlecht, Wohnort

Lauf 3 Vorname, Geburtstag

Lauf 4 Vorname, Geburtsmonat

Lauf 5 Vorname, Geburtsjahr

Lauf 6 Geburtsdatum

Lauf 7 Geburtsdatum, Geschlecht

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (4)

Matchvariable

1. alle Teile des Namens

2. alle Teile des Vornamens

3. alle Teile des Geburtsnamens

4. Geburtstag

5. Geburtsmonat

6. Geburtsjahr

7. Geschlecht

8. Wohnort

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (5)

Übereinstimmungsgewicht

∑=

=n

iiGUEG

1

Das Übereinstimmungsgewicht ergibt sich als Summe der Übereinstimmungsgewichte für alle

Matchvariable i = 1 bis n

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (6)

Übereinstimmungsgewicht

Das Übereinstimmungsgewicht einer Matchvariable ergibt sich zu(ln(m/u))/ln(2)

wenn die Matchvariable der neuen Meldung mit der Matchvariablen der bekannten Meldung identisch ist

und zuln((1-m)/(1-u))/ln(2)

wenn die Matchvariable der neuen Meldung nicht mit der Matchvariablen der bekannten Meldung identisch ist

)2ln(

)ln(um

G =+ )2ln(

))1()1(ln(

um

G −−

=−

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (7)

Wahrscheinlichkeiten u und m

m = Wahrscheinlichkeit, dass identische

Merkmalsausprägungen vorliegen, wenn es sich um identische Personen handelt

u = Wahrscheinlichkeit, dass identische

Merkmalsausprägungen vorliegen, wenn es sich um unterschiedliche Personen handelt

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (8)

Wahrscheinlichkeiten u und m

Die Wahrscheinlichkeiten m können aus den vorliegenden Meldungen geschätzt werden:

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (9)

Wahrscheinlichkeiten u und m

Die Wahrscheinlichkeiten u können aus den vorliegenden Meldungen geschätzt werden:

Die Wahrscheinlichkeit u ergibt sich als Quotient der Häufigkeit der aktuellen Ausprägung dividiert

durch die Summe aller Ausprägungen

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (10)

Wahrscheinlichkeiten u und m

1 51.790 .086145524225

2 48.940 .081404942181

3 54.882 .091288639902

4 51.155 .085089289278

5 51.444 .085570000931

6 47.830 .079558610227

7 54.109 .090002860982

8 49.424 .082210009447

9 50.306 .083677094838

10 48.268 .080287162836

11 45.750 .076098817016

12 47.294 .078667048131

Häufigkeitsverteilung des Geburtsmonats Alle Wahrscheinlichkeiten u bewegen sich um den Wert

0.0833 (=1/12) herum.

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (11)

Wahrscheinlichkeiten u und m

Häufigkeitsverteilung der häufigsten Namen

.ekPU>LV\EjF+fS1AZJEx16 2.845 .004732336077

de7:Oe'GS'1$e4Sr//S/x16 2.584 .004298192064

6dfn)alcYbEka8e<rmDex16 1.719 .002859362290

,\$)VF3IE\#fJ<0:c'fbx16 1.566 .002604864076

5P9Mm3G.fr$aWkL+@##Xx16 1.428 .002375316667

o\/b)AfRD=H`uO?YQH#lx16 1.410 .002345375700

]7*R17.#IcRkN2n'RAa9x16 1.392 .002315434734

\tr2!'9f?/`NL(fEeZ"Hx16 1.389 .002310444573

:$G%F:B?3Kjq1Ou&isk5x16 1.308 .002175710224

n>_a*0GR>P7Q;aOO(u;nx16 1.245 .002070916842

^I'^Ge.Gq&f8j0\<</aTx16 1.222 .002032658940

#oo:9UB<Tq]9H)B`.nS+x16 1.139 .001894597817

A.cuS[U[#l5?!af#-,upx16 1.075 .001788141048

S&[]3JItj@4!j:j,f23sx16 1.064 .001769843791

?A#OnikpOQ=-J'LgO8CWx16 1.055 .001754873308

/&)ca0]j4/&+7[knS_DYx16 1.022 .001699981536

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (12)

Übereinstimmungsgewicht

Wenn die Ausprägung der neuen Meldung mit der Ausprägung der bekannten Meldung identisch ist, gilt

u < mDadurch ist G+ immer positiv

)2ln(

)ln(um

G =+ )2ln(

))1()1(ln(

um

G −−

=−

Wenn die Ausprägung der neuen Meldung mit der Ausprägung der bekannten Meldung nicht identisch ist, gilt

(1-u) > (1-m)Dadurch ist G- immer negativ

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (13)

Übereinstimmungsgewicht

Häufigkeitsverteilung des Übereinstimmungsgewichts

0

50

100

150

200

250

300

350

400

450

0 5 10 15 20 25 30 35 40

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (14)

Entscheidungsgrenzen

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (15)

Entscheidungsgrenzen

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (16)

Entscheidungsgrenzen

Record LinkageRecord Linkage

21.05.200821.05.2008

Beispiel

Beispiel eines Record Linkage

Programm KRNWRoutine\Record Linkage – AufrufAuswahl der Meldestellen 223, 4695 und 6600Dauer ca. 1 Minute

Manuelle Nachbearbeitung

Programm KRNWRoutine\Record Linkage – Nachbearbeitung

top related