Knowledge DiscoveryErzeugung künstlicher Telekommunikationsdaten
Markus Höchstötter
Michael Wenzelburger
Agenda
Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze
Künstliche Telko-Daten
Warum künstlich? Wissenschaftliche Zwecke Datenschutz von „echten“ Daten
Wie erzeugt man Telko-Daten? Aggregierte Daten erhältlich Kundenklassen, Cluster Wahrscheinlichkeitsverteilungen
Künstliche Telko-Daten
Kundencluster mit ähnlichen Eigenschaften
Aggregierte Info über Kundencluster
Wahrscheinlichkeitsmodell und ZZ-Generator
Telko-Mikrodaten(Gesprächsspezifisch)
Agenda
Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze
Generierung von Daten
Monte-Carlo-Methode Milligan Algorithmus Promatis
Monte-Carlo-Methode
Definition: „Ein Verfahren, die Lösung eines Problems als Parameter einer hypothetischen Grundgesamtheit darzustellen und eine Folge von Zufallszahlen zu benutzen, um eine Stichprobe der Gesamtheit zu konstruieren, aus der dann statistische Schätzungen des Parameters gewonnen werden.“
Norbert Schmitz et al 1974
Monte-Carlo-Methode
Festlegung von Wahrscheinlichkeiten auf bestimmten Dimensionen
Erzeugung von Zufallszahlen Ablesen der Ausprägung der
Dimensionen
Monte-Carlo-Methode
Beispiel:
Zufallszahlen:
Ausprägung kurz mittel langP(x) absolut 22 15 18P(x) relativ 0,4 0,27 0,33P(x) kumuliert 0,4 0,67 1
0,44 => mittel
0,76 => lang
0,54 => mittel
0,01 => kurz
Milligan Algorythmus
Definition: „An algorythem for generating artificial data sets which contain distinct nonoverlapping clusters“
Glenn W. Milligan 1985
Milligan Algorithmus
Algorithmus: Festlegung der Cluster in den
Verschiedenen Dimensionen Erzeugung von Datensätzen
innerhalb der Clustergrenzen (3fache Standart Abweichung)
Erzeugung von „Ausreisern“ außerhalb der Clustergrenzen (15% - 30% der gesamten Daten)
Promatis
Software zur Erzeugung von mehrdimensionalen Datensätzen
Jede Dimension hat eigene Verteilung
Werden einzeln erzeugt und überlagert
Promatis
Promatis
Agenda
Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze
Telko-Datenstruktur
Gesprächsdauer/ Belegungsdauer
Zahl der Gespräche Einfallsabstand Verkehrswert
Gesprächs-/Belegungsdauer Gespräch vs Belegung ln-normalverteilt mit xm als
Lage und Qx als Steigung
2exp
2
1)(
2uxfy
) ln(
) ln( ) ln(
x
m
Q
x xu
Gesprächs-/Belegungsdauer
Zahl der Gespräche
Diskrete Wahrscheinlichkeitsverteilung
Kann durch ln-normalverteilte Verteilung dargestellt werden
duu
xFxu
y
)( 2
2exp
2
1)(
mit x=0,1,2,...,n
Zahl der Gespräche
Einfallabstand
Kann indirekt aus Zahl der Gespräche bestimmt werden
Somit auch ln-normalverteilt Problem: Bei Transformation
geht Info verloren Lediglich „mittlere“
Einfallabstände
Verkehrswert
Definition: „Summe der Belegungsdauern eines Kollektivs von Belegungen innerhalb eins Zeitraums bezogen auf diesen Zeitraum“ Robert Jäger 1990
Zwischen 0 und 1 Gemessen in Erlang ln-normalverteilt Kann aus anderen Daten ermittelt
werden
Telko-Datenstruktur
Alle annähernd ln-normalverteilt
Somit alle durch zwei Parameter darstellbar
Bei manchen Größen systematische Einflussgrößen zu bereinigen
Agenda
Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze
Spezielle Lösungsansätze Erzeugung von einzelnen
Kunden Erzeugung von einzelnen
Gesprächsdaten mit Zeitstrahlmodell
Erzeugung von Kunden
Kundengruppen unterteilt nach Telefonierverhalten
Ziehung der kundenspezifischen Parameter mit ZV aus Kundengruppen
Erzeugung von Gesprächsdaten Generierung für einzelnen
Kunden Beginn bei Null Fortlaufende Ziehung von
Gesprächsdauer und Zwischengesprächsabstand
Ermittlung der Tarifstruktur vor jeder Ziehung
Zeitenstrahl
t=0
}Zwischenzeit 1
t1
Gespräch 1
t2
Ziehung:•Tarifzone (Ort, Nah, Fern)•Gesprächsdauer
} Abhängig vom
Startzeitpunkt
t3
}Zwischenzeit 2
...
Fragen