presentation holger wandt/hi 'vom zählerdenken zum kundendenken
DESCRIPTION
Presentation of Holger Wandt/Human Inference at the evu.it Business-BreakfastTRANSCRIPT
Vom Zählerdenken zum KundendenkenDatenqualitätsmangement für EnergieversorgungsunternehmenDrs. Holger Wandt, Principal Advisor
Energiemarkt in Deutschland• 1988: EU-Richtlinie zur Liberalisierung des
Energiemarktes führte 1998 zur Verabschiedung des neuen Energiewirtschaftsgesetzes in Deutschland
Einige Folgen:• Neue Marktteilnehmer• Auflösung der Versorgungsgebiete• Fusionswelle unter EVU’s• Regelung für Stromdurchleitung und Vergütung• Buchhalterliche Trennung der Unternehmensbereiche
Erzeugung, Übertragung und Verteilung Aus einstigen Monopolisten wurden
Energiedienstleistungunternehmen, die ihre Kunden kennen wollen
Einheitliche Kundensicht
Folgen? Ein fiktives Fallbeispiel.....• Mehrere Datenbanken von ungleicher Qualität (u.a.
durch Fusionen)• Aufbau eines zentralen Kundenbildes & Ermittlung von
potentiellen Dubletten im internen Datenbestand• Abgleich mit externen Dateien • Online–Kontrolle zur Vermeidung von neuen Dubletten• Online Suche• DQ-Maßnahmen für Adressen
Die Einführung einer Datenqualitätsstrategie, die beruht auf der Identifikation der Kundendaten
Beim erkennen der Kunden geht es also um die Frage: Was ist was in Kundendaten?
Was ist was?
• 3,14• π• 3,1415926535• 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, ….• 144 (Fibonacci-Reihe)
Relationship data? Adressdaten? Kundendaten? Kontaktdaten? Stammdaten?
Was ist was?
Frau Elisabeth Meier
Mme. Françoise Durand
Frau Anna Reiber-Sanders+49-69-445534-4600
7483 Peter Arnold Frank
7195 Mohammed Ouazzani Benhaddou
4704 Panos Ioanides
Int. Transp. Unt. GmbHHans-Dieter MeierBeim Schlump 1-520026 Hamburg
Sven NilssonNybyn 10SE-234 56 LillbynSWEDEN
ESAG Energieversorgung Sachsen Ost AG
CQCS International Consulting Ltd.
Dr. John J. Farren jr.
John J. Pharan jr. PhD
Suomen Posti OYTuotteet/ Mediapalvelut/ Osoitepalvelut
Was ist was in Kundendaten?
• Natural language processing:– Zergliederung der Bestandteile– Kontextanalyse – Überprüfung der Ambiguität– Syntaktische und semantische
Zusammenhänge– Phonetische Variation und Parität– Mustererkennung– Anwendung von landspezifischen Sprach-
und Kulturregeln
Erfassung des Wissens
• Segmentierung (Definition der verschiedenen Datengruppen)
• Attribute der Gruppen• Attribute der einzelnen Wissenselemente• Zusammenhang (z.B.: Abkürzung oder Plural
eines Elements)• Regeln: Groß- Kleinschreibung, Interpunktion,
Silbentrennung, usw.
Datenelemente näher betrachtet
Nachnamen:• Doppelnamen, Namen aus mehreren Teilen,
“ausländische” Namen, Adelsnamen• Diakritische Zeichen• Frequenzverteilung• Ambiguität
BeispieleKarin Schönfelder-Kindermann Mathilde Baader StephanJosefine Freifrau Arz von StraussenburgAntonio Gomes Martinez de Pereira Rodriguez
Hermann BündenbänderHülya Ümmügülsüm
Heinz Müller Heinz Müllet
Thomas Lutz Lutz Thomas
Namen aus anderen Sprachgebieten
Patronyme:
Sergei Ivanovich GolubevOlga Ivanovna Golubeva
Olav Svenson x Anna Thorgeirsdottir
Björn Olavson Majbritt Olavsdottir xHelga Nilsdottir
Sven Björnson
Familienname?• auf der Straße• Säugling• Todeskino• Direktor• Vor
• zum Norde (jedoch: Zumnorde)• Matthauer (jedoch: Mathauer)• Üding (jedoch: Uedink)
Natural Language Processing
Ambiguität, Kontextanalyse und Mustererkennung: natural language processingArt Gallery Meyer
Kunsthandel Art. Meyer
A. Meyer Fachgeschäft für Kunstart.
Ambiguität, Kontextanalyse und Mustererkennung: natural language processing
Thomas Lutz
Thomas & Lutz
Schubert, Thomas & Lutz
Muster
• Harry Edward Johnson / Harry Edward Ireallygotaweirdsurname
• IBM / HAL
• Maschinenfabrik Mertens / Vergaserinnenbeleuchtungsfabrik Mertens
Muster?
KARL OTTO GRAF LAMBSDORFFEVA MARIA BARON POTOCKI
Hi-Fi Johanson & Gruber GmbHEm-Lo Emmerich und Lohmeier GmbH
Zwischenfazit
• Verschiedene Arten von Kundendaten• Verschieden Attribute• Bedeutung ist abhängig vom länderspezifischen
Kontext und von semantischen und syntaktischen Zusammenhängen
Intelligente Interpretation is wissenbasiert. Wie hilft dieses Wissen bei Datenqualitätslösungen, wie z.B. Dublettenbereinigung?
Wie hoch ist die Übereinstimmung?
August Meier Speditionsgesellsch. m.b.H
AMSPED GmbHWissensbasiert: Hohe
Übereinstimmung
Mathematisch: Niedrige Übereinstimmung
Dublette
Zweifel
Keine Dublette
Einige Vergleichsmethoden
• Stringvergleich:– Wort– Wortbildvergleich– Trigrammvergleich
• Phonetischer Vergleich durch Graphem-Phonem-Umsetzung Milleaux oder Milo
• Wissensbasierter Vergleich: z. B. Wissen über Zusammensetzung Arabischer Namen Muhamad Abdullah al Musa Abu Ishaq oder Erkennung von kontextabhängiger Bedeutung Art Gallery Simon versus Paul Simon & Art Garfunkel
Die effiziente Kombination von Vergleichsmethoden ergibt das beste gewünschte Resultat.
Beispiele
Piet Pieter Peter .pi .pi .pepie pie petiet iet eteet. ete ter
ter er.er.
Beispiele
Src Global Id V-Id Name
M2 M2-0009424542
9424542 ANANSI BLUMEN
L1 L1-0039016324
39016324
GAERTNEREIBETRIEB ANANSI - WITT
M2 M2-0009439493
9439493 P.T.W.- FREIBURG
AS PH-PHYSIKWERK
46062 PHYSIK.TECHN.WERKSTÄTTEN
AS AS-0000018843
18843 TENHAGEN STAMM VERLAG
S1 DU-0403310154
10006645
Ten Hagen & Stamm GMBH
Database-IDKlang NachnameKlang Kernwort StraßeKlang Kernwort OrtVornamenGekürzte VornamenKernwort NachnameKernwort StraßeHausnummer RestnamePostleitzahl Geburtsdatum
100010050501000707310010080
0
100
Beschreibungen VergleichsmethodenGewichtungs-
faktor
1510105510101020201010
Sub-score
Score 78
70 Schwellenwert
Konfiguration
Phonologischer VergleichMatrixvergleich
WortbildBuchstabensequenzTrigrammvergleich
HausnummerPostleitzahlen
DatumvergleichKein Vergleich
Evaluation
Resultat
Die effiziente Kombination von Vergleichsmethoden ergibt das beste gewünschte Resultat.
75
Data Quality Life Cycle
Inspect
Merge
Enrich
Report
Cleanse
Transform
Identify
Datenqualitätsstrategie
Assessment der Daten- und
Informationsstruktur
Assessment der Datenqualität
Besprechen der DQ-Probleme
und der Ursachen
Definieren der Lösungen und
Bereinigung der existierenden
Daten
Definierte Lösungen
implementieren
Verbesserung der
Datenqualität messenDefinieren der
Lösungen um zukünftige
Verschmutzung vorzubeugen (technisch +
Prozess)
Verbesserung der
Datenqaulität melden
Messen VerbessernImplemen-
tieren Pflegen
Datenqualität pflegen
Fazit
• DQ-Probleme sind universell• Liberalisierung des Energiemarktes ist der
Katalysator für DQ-Lösungen für alle EVU’s• ROI für Energieversorgungsunternehmen ist
sehr hoch:– Know your customer– Operational excellence
Intelligente Tools führen zur effizienten DQ-Strategie:
Vom Zählerdenken zum Kundendenken