tasty on · test datensatz objekte mit umls-ids & wikipediaverlinkung artikel: 5117 umls: 6192...

20
TASTY ON CLINICAL NAMED ENTITY LINKING Julius Brückner Kevin Mattutat Arnold Schwarz

Upload: others

Post on 07-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

TASTY ON CLINICAL NAMED ENTITY LINKING

Julius BrücknerKevin MattutatArnold Schwarz

Page 2: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Kleines Recap

�2

● Was war eigentlich unsere Aufgabe?● Wie hatten wir geplant zu Lösen?● Was hat uns davon Abgehalten?

Page 3: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Das große Ganze

�3

Page 4: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Architektur & Prozess

�4

1. Trainingsdaten erzeugen

2. NEL-Model trainieren

3. Tasty API mit FHIR

4. Tasty Frontend mit FHIR

Page 5: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Trainingsdaten

�5

Deutsche Wikipedia

TRAIN

TEST

Datensatz

Objekte mit UMLS-IDs & Wikipediaverlinkung

Artikel: 5117UMLS: 6192↳exact match: ↳Artikel: 1401 ↳UMLS: 1467

Artikel: 969UMLS: 6065

Artikel: 5846UMLS: 5837Query

Set

Durchsuche Wikipedia anhand Artikelname

erzeuge Datensatz

Dokumente: 61663Annotationen: 98517UMLS: 3124

80066

18451Wikipedia-Dump enthält viele Artikel nicht

Page 6: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

FHIR Daten Analyse

�6Insgesamt: 308387 UMLS IDs

Alle UMLS IDs aus der UMLS Datenbank und ihre Mapbarkeit auf FHIR Ressourcen.

Page 7: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

FIHR Daten Analyse

�7Insgesamt: 93647 UMLS IDs

3277 87854 1017 1071 428

Verteilung der FHIR Ressourcen-Typen auf die mapbaren UMLS IDs

Page 8: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Trainingsdaten Analyse (WIKIDATA)

�8Insgesamt: 308387 UMLS IDs

2192

UMLS IDs die mit genügend Text beschrieben sind und daher als Trainingsdaten genutzt werden können.Auf die Anzahl aller UMLS IDs in der Datenbank.

Page 9: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Trainingsdaten zu FHIR Daten

�9Insgesamt: 2192 UMLS IDs

UMLS IDs in den Trainingsdaten die sich auf FHIR Ressourcen mappen lassen

Page 10: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Verteilung der FHIR Res. in WIKIDATA

�10Insgesamt: 511 UMLS IDs

418 93

Verteilung der FHIR Ressourcen-Typen auf die mapbaren und gelernten UMLS IDs

Page 11: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Verteilung der FHIR Res. in WIKIDATA

�11

Verteilung der FHIR Ressourcen-Typen auf die mapbaren und gelernten UMLS IDs

Mithilfe der LOINC Datenbank konnten LOINC IDs auf Wikipedia und UMLS IDs gemappt werden

Page 12: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Trainingsdaten Analyse

�12Insgesamt: 308387 UMLS IDs

Nach dem aus LOINC weitere Dokumente extrahiert werden konnten.Wegen dopplungen konnten aber nur 969 Verwertet werden.

Page 13: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Trainingsdaten zu FHIR Daten

�13Insgesamt: 3161 UMLS IDs

UMLS IDs in den Trainingsdaten die sich auf FHIR Ressourcen mappen lassen steigt erheblich.

Page 14: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Datenfluss im Backend

�14

Page 15: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Implementierte FHIR Ressourcen

�15

Page 16: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Training und Evaluation

�16

Page 17: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Mehr Trainingsdate

n

Training und Evaluation

�17

Training Train Test Epochs A@1 A@3 P@1 P@3 R@1 R@3 MAP

1 79724 7591 2 4.58 7.94 4.58 2.65 4.58 7.94 8.35

2 89892 8625 2 5.54 10.02 5.54 3.34 5.54 10.02 10.17

3 80066 18451 4 9.49 16.08 9.49 5.36 9.49 16.08 15.54

1.Training

Mehr Epochen

&Verhältnis

Trainingsdaten

/Testdaten

2.Training

3.Training

Page 18: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Training und Evaluation - Probleme

Problem:

Erworbene Taubheit (Innenohrschaden) kann als Folge von z.B. (Meningokokken-)Meningitis, Enzephalitis, Scharlach, Masern, Tuberkulose, Osteomyelitis, Mittelohr-Erkrankungen, Otosklerose, (Baro-)Trauma u. a. (bei absoluter Taubheit stets mit Innenohr- oder Hörnervbeteiligung) auftreten.

(Insgesamt 10 UMLS-ID)

Lösung:Solche Ausreißer herausfiltern

Weitere Verbesserungen:

- Besser gelabelte Daten- dem Ziel entsprechender Daten

�18

Page 19: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Was fehlt?

�1919

1. Trainingsdaten erzeugen

2. NEL-Model trainieren

3. Tasty API mit FHIR

4. Tasty Frontend mit FHIR

Page 20: TASTY ON · TEST Datensatz Objekte mit UMLS-IDs & Wikipediaverlinkung Artikel: 5117 UMLS: 6192 ↳exact match: ↳Artikel: 1401 ↳UMLS: 1467 Artikel: 969 UMLS: 6065 Artikel: 5846

Ausblick

�20

● Verbesserung der Datenlage durch Übersetzung

UMLS Definitions DeepL API Tasty Wikipedia

Artikel

Trainings Daten

● Fixen der Tasty API○ Verursacht durch fehlerhafte Interpretation der Konfiguration○ Und was sonst noch schief hängt