‘fehler vorprogrammiert’ paul tours, senior consultant/human inference

27
“Fehler vorprogrammiert?!” Breakfast Session, 26.05.2009 – Hotel im Wasserturm/Köln

Upload: datavaluetalk

Post on 21-Jan-2015

722 views

Category:

Technology


1 download

DESCRIPTION

‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

TRANSCRIPT

Page 1: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”Breakfast Session, 26.05.2009 – Hotel im Wasserturm/Köln

Page 2: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Customer Data Integration (CDI) Projekte sind oftmals mit viel Zeit, Resourcen und hohen

Budget verbunden. • Worum geht es genau?

– Daten von einem Altsystem in ein Neusystem überführen– Transformation der Datenmodelle– Definiertes Ende, gehört nicht zum Betrieb

• Wann ist das notwendig?– Einführung eines neuen Systems, das existierende Aufgaben eines

oder meherer anderer Systeme übernimmt– Ablösung eines Altsystems durch ein bereits produktives System

• Was ist daran so schwierig?– Datensemantik– Datenkonsistenz und Datenqualität– Risikoeinschätzung

Page 3: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Schwierigkeiten bei der Datensemantik

• Abkürzungen & Akronyme:– Bayerische Motorenwerke = BMW

• Context– Art Gallery Jones ist nicht Art G. Jones

• Standardisierung– Müller, Markus = M. Müller = männlich

• Gilt das?– Le Galloudec ist richtig, aber Galloudec ohne ‘Le’ existiert als

Nachname nicht• Transcription und Transliteration

– ;Mohammad, Moehammet, Muhamet ,ڦکێگڝڗ• Kulturelle Aspekte

– Kasparov / Kasparova• Sonderzeichen:

– Güçlütürk = Goekloetoerk

Page 4: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Die Ursachen mangelnder Datenqualität sind vielfältig

Dubletten

Groß/Kleinschreibung

Inkonsistenzen

Mißbrauch von Feldern

Fehlerhafte Adressen

Page 5: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Risiken

• Imageschaden• Glaubwürdigkeit• Finanzielle Strafen (z.B. mangelnde

Compliance)

Page 6: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

DB 1

DB 2

DB n

extract

extract

extract Storage of Original records

UniformParse &Format

Storage of All

Uniformedrecords

load

Target System

ETL: Traditionelle Methodik

Im Hinblick auf die Datenqualität ist ETL zwar ein sinnvolles Tool für die Konvertierung oder Standardisierung, jedoch nicht für die Korrektur oder Verbesserung von Daten. Daneben ist ETL mit einer Konvertierung von Daten vor ihrer Speicherung in einem Data Warehouse, Datamart oder einer neuen Zieldatenbank eher auf den Datenfluss fokussiert. Subjektspezifische Daten wie Kunden- oder Produktdaten stehen nicht im Mittelpunkt.“

Data based Advisor “Data Quality: A Problem and an Approach”

Page 7: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

• Data Quality Audit: Analyse der zu migrierenden Daten

• Konzeption : Grob- und Detailkonzept

• Umsetzung (Installation, Konfiguration, Scripte, ...)

• Testphase

• Abnahme und Inbetriebnahme

Vorgehensweise bei Move & Improve

Page 8: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

DB 1

DB 2

DB n

extract

extract

extractStorage of

Original records

UniformParse &Format

Storage of All

Uniformedrecords

Validation Match

Storage of Golden record

load Target System

ETL mit Move & Improve

1. Datenanalyse durch Data Quality Audit

2. Konzeption

3. Transformierung und Standardisierung durch Transform und Scripting

4. Data Improver

5. Merge & Enrich„Golden Record“

Page 9: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

DB 1

DB 2

DB n

extract

extract

extract Storage of Original records

UniformParse &Format

Storage of All

Uniformedrecords

Validation Match

Storage of Golden record

load Target System

1. Datenanalyse durch ein Data Quality Audit

ETL mit Move & Improve

Page 10: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Data Quality Audit

Vorgehensweise:

- Durchführung eines Workshop in Zusammenarbeit mit dem Projektteam und Vertretern der IT- und Fachabteilungen.

- Analyse der Datenstruktur und der Feldinhalte hinsichtlich Vollständigkeit, Konsistenz und fehlerhaften Störelementen (Erika Mustermann, Test-Test, asdfg, qwertz, etc.).

- Analyse der Bestandsliste hinsichtlich Crossreferenzen durch Einsatz der im Workshop abgestimmten Regeln.

- Auswertung und Dokumentation der Ergebnisse.

- Präsentation der Ergebnisse

Page 11: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Ergebnis Feldprüfung

Page 12: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Adressprüfung

Abb. 6.1. Aufteilung der verschmutzten 36.057 Datensätze (12,32 %)

10%

18%

72%

Automatisch durch HIkorrigierbar

Nicht eindeutig korrigierbar

Manuelle KorrekturnotwendigAddressen Gesamt 36.057 100,00%

Saubere Adressen 33.130 77,68%

Verschmutze Adressen 2.927 12,32%

Automatisch Korrigiert 2.107 72,00%

Nicht eindeutig Korrigiert 292 10,00%

Manuelle Korrektor notwendig 528 18,00%

Page 13: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Ergebnis Data Quality Audit

0

200

400

600

800

1000

1200

1400

1600

1800

An

zah

l

Score

Scoreverlauf bei der Dublettenbestimmung mit HIquality Identify

ANZAHL 30 138 89 281186 239 19 341109 268 476842890 689221768437 161108 722428 288207242 426301 82 50 180 291144 113 51

100 99 98 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68

Page 14: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

DB 1

DB 2

DB n

extract

extract

extract Storage of Original records

UniformParse &Format

Storage of All

Uniformedrecords

Validation Match

Storage of Golden record

load Target System

1. Datenanalyse durch ein Data Quality Audit

2. Konzeption

ETL mit Move & Improve

Page 15: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Projektkonzeption „Move & Improve“

Analyse Grobkonzept FeinkonzeptUmsetzung der

MigrationsplanungInitialer

MigrationslaufInkrementellerMigrationslauf

•Migrationskonzept•Ergebnisse des DQA•Design und Architektur des Zielsystems

•Ablaufplanung•Detailplanung Architektur Zielsystem•Festlegung der Definitionen zu Datenkonvertierung, Datenmigration, Data Mapping •Regeln zur Datenbereinigung und Dublettensuche •Data Quality Prozess Definition •Fallback-Lösung •Regeln des “Golden Records”•Import ins Zielsystem•Behandlung der Deltadaten•Testkonzept

Page 16: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

DB 1

DB 2

DB n

extract

extract

extract Storage of Original records

UniformParse &Format

Storage of All

Uniformedrecords

Validation Match

Storage of Golden record

load Target System

1. Datenanalyse durch ein Data Quality Audit

2. Konzeption

3. Transformierung und Standardisierung durch Transform und Scripting

ETL mit Human Inference: Move & Improve

Page 17: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Transformieren und Standardisieren:

• unstrukturierte Kundendaten interpretieren und korrekt kennzeichnen

• Ursprungsdaten genau analysieren und korrekt in das System eingliedern

• höchste Qualitätsniveau durch Zurückgreifen auf länder- und kulturspezifisches Wissen.

• Kein aufwändiges Schreiben von Hunderten von Zerlegungs- und Transformationsskripts zum Laden der Daten in richtiger Weise

Human Inference ist eines der ersten Unternehmen, das die internationalen Standards im Bereich der Datenqualitätsformate (wie CEN/UPU) unterstützt.

Page 18: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

DB 1

DB 2

DB n

extract

extract

extract Storage of Original records

UniformParse &Format

Storage of All

Uniformedrecords

Validation Match

Storage of Golden record

load Target System

1. Datenanalyse durch ein Data Quality Audit

2. Konzeption

3. Transformierung und Standardisierung durch Transform und Scripting

ETL mit Move and Improve

4. Data Improver

Page 19: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

HI Data Improver (aka Waschstrasse )

Page 20: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

DB 1

DB 2

DB n

extract

extract

extract Storage of Original records

UniformParse &Format

Storage of All

Uniformedrecords

Validation Match

Storage of Golden record

load Target System

1. Datenanalyse durch ein Data Quality Audit

2. Konzeption

3. Transformierung und Standardisierung durch Transform und Scripting

ETL mit Move & Improve

4. Data Improver

5. Merge & Enrich„Golden Record“

Page 21: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Merge – Datenvermischung

• Golden Record - Generierung eines einzigen Datensatzes

• = Beste Informationen aus mehreren ähnlichen Datensätzen (Dubletten)

• schnelle Bewertung und Zusammenführung von Daten aus Gruppen potentiell doppelter Datensätze

• Zwei Standard-Methoden der Zusammenführung:– Automatisch: Auf Basis vordefinierter Business Rules können

Datensätze automatisch zusammengeführt werden. Effekt: Reduzierung der Verarbeitungszeit und Fehlerhäufigkeit in der Beurteilung durch den Menschen

– Manuell: Intuitive Schnittstelle lässt die Datensätze, die nicht automatisch zusammen geführt wurden, rasch bewerten und Werte, die bestehen bleiben sollen, auswählen.

Page 22: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Automatische Datenvermischung

Beispiele für Business Rules:• Automatisches Zusammenführen nur bei Datensätzen mit

ausreichender Übereinstimmung (Scorewert).• Attributwert(e) des „besten“ Datensatzes als

Referenzwert (Eyecatcher Datensatz)• Attributwert(e) des aktuellsten Datensatzes als

Referenzwert.• Attributwert(e) des vollständigsten Datensatzes als

Referenzwert.

Page 23: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Manuelle Datenvermischung

Page 24: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Ein Mass für den Erfolg des Projektes sind die Ergebnisse aus den Audits!

Führt man nach Abschluss der Datenmigration den gleichen Audit nochmal durch und vergleicht ihn mit den Ergebnissen des ersten Audits, hat man hier einen wesentlichen Indikator für den Erfolg des Projektes.

Page 25: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Warum sind dann in reinen Datenmigrationsprojekten Fehler vorprogrammiert?• Keine DQ Analyse der Ursprungsdaten.

• Länder- und kulturspezifische Eigenarten werden nicht berücksichtigt

• Keine Verbesserung der Datenqualität

• Erhöhung der Projektrisiken

• Schleichende Projektfolgekosten

• ROI?

Page 26: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Fragen?

Page 27: ‘Fehler vorprogrammiert’ Paul Tours, Senior Consultant/Human Inference

“Fehler vorprogrammiert?!”

Vielen Dank für Ihre Aufmerksamkeit

Kontakt: Paul ToursSenior ConsultantHuman InferenceHammfelddamm 4a41460 Neuss

Tel: +49 2131 403170Fax: +49 21314031770Mobile: +49 171 3811709

Internet: www.humaninference.com

Email: [email protected]