vergleich von künstlichen neuronalen netzen und ... · multivariaten statistischen verfahren in...

175
Holger Schulze Vergleich von künstlichen Neuronalen Netzen und multivariaten statistischen Verfahren in der Primärforschung: Ein empirischer Vergleich Masterarbeit im wissenschaftlichen Studiengang Agrarwissenschaften an der Georg-August-Universität Göttingen, Fakultät für Agrarwissenschaften Studienrichtung: Wirtschafts- und Sozialwissenschaften des Landbaus 1. Prüfer: Prof. Dr. Achim Spiller 2. Prüfer: Prof. Dr. Stephan von Cramon-Taubadel Abgabetermin: 04.04.2005 angefertigt im: Institut für Agrarökonomie

Upload: lekhue

Post on 18-Sep-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

  • Holger Schulze

    Vergleich von knstlichen Neuronalen Netzen und

    multivariaten statistischen Verfahren in der

    Primrforschung: Ein empirischer Vergleich

    Masterarbeit im wissenschaftlichen Studiengang Agrarwissenschaften

    an der Georg-August-Universitt Gttingen,

    Fakultt fr Agrarwissenschaften

    Studienrichtung: Wirtschafts- und Sozialwissenschaften des Landbaus

    1. Prfer: Prof. Dr. Achim Spiller

    2. Prfer: Prof. Dr. Stephan von Cramon-Taubadel

    Abgabetermin: 04.04.2005

    angefertigt im: Institut fr Agrarkonomie

  • Inhaltsverzeichnis

    I

    Inhaltsverzeichnis:

    Abbildungsverzeichnis............................................................................................... III

    Tabellenverzeichnis..................................................................................................... V

    Symbolverzeichnis ....................................................................................................VII

    Abkrzungsverzeichnis .............................................................................................. IX

    1 Einleitung ............................................................................................................. 1

    2 Verwendung von statistischen Verfahren in der Primrforschung ...................... 3

    2.1 Der Ablauf des Marktforschungsprozesses.................................................. 3

    2.2 Analyseverfahren in der Primrforschung ................................................... 6

    3 Methodische Grundlegung................................................................................. 11

    3.1 Multivariate statistische Verfahren ............................................................ 11

    3.1.1 berblick ber multivariate statistische Verfahren................................ 11

    3.1.2 Regressionsanalyse ................................................................................ 12

    3.1.3 Clusteranalyse ........................................................................................ 22

    3.2 Knstliche Neuronale Netze ...................................................................... 34

    3.2.1 berblick ber Neuronale Netze............................................................ 34

    3.2.2 Grundstruktur und Funktionsweise Neuronaler Netze........................... 35

    3.2.3 Multi-Layer-Perceptrons ........................................................................ 42

    3.2.4 Self-Organizing-Maps............................................................................ 48

    3.3 Eigenschaften Neuronaler Netze im Vergleich zu den multivariaten

    Verfahren ................................................................................................... 52

    4 Empirische Anwendung und Vergleich der Verfahren...................................... 58

    4.1 Zum Stand der Forschung .......................................................................... 58

    4.2 Bewertungskriterien fr die Gte der Verfahren ....................................... 62

    4.3 Auswahl der Fallstudien und Vorgehensweise .......................................... 65

    4.4 Fallstudie 1: Meinungsforschung zum Stallbau in Diemarden .................. 68

    4.4.1 Empirische Basis und Problemstellung der Untersuchung .................... 68

    4.4.2 Ergebnisse der multivariaten Analyseverfahren .................................... 70

  • Inhaltsverzeichnis

    II

    4.4.3 Ergebnisse der knstlichen Neuronalen Netze....................................... 81

    4.4.4 Ergebnisse der Fallstudie und Verfahrensvergleich............................... 85

    4.5 Fallstudie 2: Markenprferenz bei chinesischen Konsumenten................. 88

    4.5.1 Empirische Basis und Problemstellung der Untersuchung .................... 88

    4.5.2 Ergebnisse der multivariaten Analyseverfahren .................................... 90

    4.5.3 Ergebnisse der knstlichen Neuronalen Netze....................................... 99

    4.5.4 Ergebnisse der Fallstudie und Verfahrensvergleich............................. 104

    5 Zusammenfassung der Ergebnisse und Verfahrensvergleich .......................... 108

    6 Schlussbemerkungen........................................................................................ 118

    Literaturverzeichnis.................................................................................................. 120

    Anhang ..................................................................................................................... 131

    A. Methoden der Datenanalyse ........................................................................ 131

    B. Berechnungen der Fallstudie 1 .................................................................... 131

    C. Berechnungen der Fallstudie 2 .................................................................... 139

    D. Vergleich der Verfahren.............................................................................. 145

    E. Fragebogen der Fallstudie 1 ........................................................................ 148

    F. Fragebogen der Fallstudie 2......................................................................... 157

  • Abbildungsverzeichnis

    III

    Abbildungsverzeichnis:

    Abbildung 1: Die Ablaufschritte des Marktforschungsprozesses.............................. 3

    Abbildung 2: Grundmethoden der Datengewinnung ................................................. 4

    Abbildung 3: Methoden der Primrdatenerhebung.................................................... 5

    Abbildung 4: Analyseverfahren in der Primrforschung........................................... 7

    Abbildung 5: Verwendung von KNN im Data Mining-Prozess ................................ 9

    Abbildung 6: Vergleich von KNN und multivariaten Verfahren............................. 10

    Abbildung 7: Grundlegende strukturen-prfende Verfahren................................... 11

    Abbildung 8: Die Ablaufschritte der Regressionsanalyse ....................................... 13

    Abbildung 9: Die Ablaufschritte der Clusteranalyse ............................................... 22

    Abbildung 10: berblick ber ausgewhlte Clusteralgorithmen............................... 24

    Abbildung 11: Dendogramm fr ein hierarchisches Clusterverfahren ...................... 25

    Abbildung 12: Scree-Test zur Bestimmung der Clusteranzahl.................................. 27

    Abbildung 13: Schematische Darstellung einer Nervenzelle .................................... 36

    Abbildung 14: Das menschliche Nervensystem als SOR-Modell ............................. 37

    Abbildung 15: Allgemeines Modell eines knstlichen Neurons................................ 37

    Abbildung 16: Kurvenverlauf ausgewhlter Aktivierungsfunktionen....................... 38

    Abbildung 17: Darstellung der Schichten eines Neuronalen Netzes ......................... 39

    Abbildung 18: Einige schematische Netzwerktopologien ......................................... 40

    Abbildung 19: Ausgewhlte knstliche neuronale Netzwerktypen ........................... 41

    Abbildung 20: Ablaufschritte der Multi-Layer-Perceptrons...................................... 43

    Abbildung 21: Test- und Validationsfehler im Lernverlauf ...................................... 45

    Abbildung 22: Topologie einer Self-Organizing-Map............................................... 49

    Abbildung 23: Ablaufschritte bei den Self-Organizing-Maps................................... 50

    Abbildung 24: Eigenschaften Neuronaler Netze und statistische

    Problemsituationen............................................................................. 52

    Abbildung 25: Dimension der Komplexitt............................................................... 54

    Abbildung 26: Blackbox-Ansatz................................................................................ 56

    Abbildung 27: Kriterien zur Beurteilung der Leistungsfhigkeit der Verfahren....... 63

    Abbildung 28: Clementine Oberflche mit Daten-Stream......................................... 67

    Abbildung 29: Regressionsmodell auf Grundlage der Faktorenanalyse

    (In-Sample) ........................................................................................ 74

    Abbildung 30: Modifiziertes Regressionsmodell (In-Sample) .................................. 75

  • Abbildungsverzeichnis

    IV

    Abbildung 31: Regressionsmodell auf Basis der Rckwrts-Methode...................... 79

    Abbildung 32: MLP-Modell auf Grundlage der Faktorenanalyse

    (Validationsdaten) .............................................................................. 82

    Abbildung 33: Modifiziertes MLP Model (Validationsdaten) .................................. 83

    Abbildung 34: Elbow-Kriterium zur Bestimmung der Clusteranzahl ....................... 93

    Abbildung 35: Beschreibung der Cluster durch die Statements der Faktoren........... 96

    Abbildung 36: Entwicklung der Fehlerquadratsumme bei den SOM...................... 100

    Abbildung 37: Beschreibung der Cluster durch die Statements der

    Faktoren (SOM) ............................................................................... 103

    Abbildung 38: SOM, K-Means und Ward im Vergleich ......................................... 104

    Abbildung 39: Validitt der Clusterlsungen im Verfahrensvergleich.................... 105

    Abbildung 40: Einordnung der Analyseverfahren nach anwender-, daten- und

    methodenorientierten Anforderungen .............................................. 116

    Abbildung 41: Methoden der Datenanalyse............................................................. 131

    Abbildung 42: Hufigkeitsverteilung der Residualwerte......................................... 133

    Abbildung 43: P-P-Normalverteilungsdiagramm der standardisierten

    Residualwerte................................................................................... 133

    Abbildung 44: Streudiagramm - Residualwerte gegen Vorhersagewerte................ 134

    Abbildung 45: Hufigkeitsverteilung der Residualwerte (Modell 2) ...................... 137

    Abbildung 46: P-P-Normalverteilungsdiagramm der standardisierten

    Residualwerte (Modell 2)................................................................. 137

    Abbildung 47: Streudiagramm - Residualwerte gegen Vorhersagewerte

    (Modell 2) ........................................................................................ 138

    Abbildung 48: Screeplot der Faktorenanalyse ......................................................... 139

    Abbildung 49: Komponentendiagramm im rotierten Raum .................................... 139

    Abbildung 50: 3D-Streudiagramm der Clusterlsung (K-Means)........................... 145

    Abbildung 51: 3D-Streudiagramm der Clusterlsung (SOM)................................. 146

    Abbildung 52: Hufigkeit der eingesetzten Verfahren in der betrieblichen Praxis . 146

    Abbildung 53: Bedeutung der Auswahlkriterien geeigneter Verfahren .................. 147

  • Tabellenverzeichnis

    V

    Tabellenverzeichnis:

    Tabelle 1: Annahmeverletzungen des linearen Regressionsmodells ....................... 15

    Tabelle 2: Terminologie der KNN im Vergleich zu den multivariaten Verfahren .. 35

    Tabelle 3: Ausgewhlte Literatur zum Verfahrensvergleich in der

    Sekundrforschung (Teil 1)..................................................................... 59

    Tabelle 4: Ausgewhlte Literatur zum Verfahrensvergleich in der

    Sekundrforschung (Teil 2)..................................................................... 60

    Tabelle 5: Ausgewhlte Literatur zum Verfahrensvergleich in der

    Primrforschung...................................................................................... 61

    Tabelle 6: bersicht ber die Fallstudien und die verwendeten Modelle................ 66

    Tabelle 7: Faktorladungen der einzelnen Statements............................................... 72

    Tabelle 8: Prognosegte des multiplen Regressionsmodells ................................... 78

    Tabelle 9: Prognosegte des multiplen Regressionsmodells auf Basis der

    Rckwrts-Methode ................................................................................ 81

    Tabelle 10: Prognosequalitt des Neuronalen Netzwerkes (MLP) ............................ 84

    Tabelle 11: Prognosequalitt im Verfahrensvergleich............................................... 85

    Tabelle 12: Faktorladungen der einzelnen Statements............................................... 91

    Tabelle 13: Kreuztabelle - K-Means versus Ward-Methode ..................................... 94

    Tabelle 14: Homogenitt der Cluster (F-Werte der extrahierten Faktoren)............... 94

    Tabelle 15: Charakterisierung der Cluster durch die T-Werte der aktiven Faktoren. 95

    Tabelle 16: Homogenitt der Cluster (F-Werte der extrahierten Faktoren)............. 101

    Tabelle 17: Charakterisierung der Cluster durch die T-Werte der Faktoren ........... 102

    Tabelle 18: Kreuztabelle - SOM versus K-Means ................................................... 106

    Tabelle 19: Bewertung von multivariaten Verfahren und KNN.............................. 115

    Tabelle 20: ANOVA der Regressionsanalyse.......................................................... 131

    Tabelle 21: Regressionskoeffizienten und Multikollinearittsdiagnose .................. 132

    Tabelle 22: ANOVA der Regressionsanalyse (Modell 2)........................................ 134

    Tabelle 23: Regressionskoeffizienten und Multikollinearittsdiagnose (Modell 2) 135

    Tabelle 24: Korrelationsmatrix der exogenen Variablen aus der

    Regressionsanalyse (Modell 2) ............................................................. 136

    Tabelle 25: Korrelationsmatrix der exogenen Variablen der Regressionsanalyse... 138

    Tabelle 26: Datenbasis zum Elbow-Kriterium......................................................... 140

    Tabelle 27: Mittelwertvergleich bei der Ward Methode.......................................... 140

  • Tabellenverzeichnis

    VI

    Tabelle 28: Mittelwertvergleich bei der K-Means Methode.................................... 141

    Tabelle 29: ANOVA-Tabelle bei der K-Means Clusterung .................................... 141

    Tabelle 30: Kreuztabelle der Ergebnisse der replizierten und der anfnglichen ..... 141

    Tabelle 31: Ergebnisse der Clusteranalyse (Ausgangslsung) ................................ 142

    Tabelle 32: Ergebnisse der replizierten Clusteranalyse ........................................... 142

    Tabelle 33: Vergleich der Dimensionen der SOM................................................... 143

    Tabelle 34: Mittelwertvergleich bei den SOM......................................................... 143

    Tabelle 35: ANOVA der aktiven Faktoren .............................................................. 143

    Tabelle 36: ANOVA-Tabelle bei den SOM............................................................. 144

    Tabelle 37: Kreuztabelle der Ergebnisse der replizierten und der

    anfnglichen SOM ................................................................................ 144

    Tabelle 38: Ergebnisse der SOM (Ausgangslsung) ............................................... 144

    Tabelle 39: Ergebnisse der replizierten SOM .......................................................... 145

  • Symbolverzeichnis

    VII

    Symbolverzeichnis:

    a Anzahl der Neuronen in der Ausgabeschicht

    0b Konstante der Regressionsfunktion

    jb Regressionskoeffizient (j= 1,2,,J)

    2D quadrierte Euklidische Distanz

    E durchschnittlicher Gesamtfehler

    ke Abweichung des Schtzwertes vom Beobachtungswert

    e(x) Eingangsfunktion

    J Zahl der unabhngigen Variablen

    K Zahl der Beobachtungen

    k Zahl der Ausprgungen

    M Zahl der bereinstimmungen

    N Gesamtzahl der berechneten Beobachtungen (i = 1,,N).

    ip relativer Anteil der einzelnen Ausprgungen an der

    Gesamtzahl der Flle

    R Korrelationskoeffizient

    S(J) Standardabweichung der Variablen J in der

    Erhebungsgesamtheit

    bjs Standardfehler von jb

    ts Streuung der empirischen (beobachteten) Ausgabewerte

    ys Streuung der berechneten (vorhergesagte) Ausgabewerte

    it empirische (beobachtete) Ausgabewerte

    empt Empirischer t-Wert fr den j-ten Regressor

    t Mittelwert der empirischen (beobachteten) Ausgabewerte

    u Strgre

    Anteil der tatschlich beobachteten bereinstimmungen

  • Symbolverzeichnis

    VIII

    E Anteil der erwarteten bereinstimmung

    V Zahl der Vergleiche

    V (J) Varianz der Variablen J in der Erhebungsgesamtheit

    V(J,G) Varianz der Variablen J in Gruppe G

    jw Verbindungsgewichte

    jX Wert der unabhngigen Variablen (j= 1,2,,J)

    jx Eingangsinformationen

    ij i jx (x ) Merkmalsausprgung des Objektes ie i(x ) auf dem Merkmal j

    X(J,G) Mittelwert der Variablen J ber die Objekte in Gruppe G

    X(J) Gesamtmittelwert der Variablen J in der Erhebungsgesamtheit

    Y Wert der j-ten Beobachtung fr die abhngige Variable

    iy berechnete (vorhergesagte) Ausgabewerte

    ky Wert der abhngigen Variablen (k=1,2,,K)

    $ky ermittelter Schtzwert von Y fr kx

    y Mittelwert der berechneten (vorhergesagte) Ausgabewerte

    0 Konstantes Glied der Regressionsfunktion

    j Regressionskoeffizient (j= 1,2,,J)

  • Abkrzungsverzeichnis

    IX

    Abkrzungsverzeichnis:

    ANN Artificial Neural Networks

    ANOVA Analysis of Variance

    BLUE Best Linear Unbiased Estimator

    CLU Clusteranalyse

    DA Diskriminanzanalyse

    DW Durbin-Watson-Statistik

    EB Entscheidungsbaum

    KDD Knowledge Discovery in Database

    KI Knstliche Intelligenz

    KNN Knstliche Neuronale Netze

    KQ Kleinstquadrat

    LOGR Logistische Regressionsanalyse

    MAE Mean Absolute Error

    MAPE Mean Absolute Percent Error

    MLP Multi-Layer-Perceptrons

    MRA Multiple Regressionsanalyse

    MS Mean Squares

    MSE Mean Square Error

    NDA Neuronale Diskriminanzanalyse

    OLS Ordinary Least Squares

    RCLU Replizierte Clusteranalyse

    RBF Radiale Basisfunktionen

    RMSE Root Mean Square Error

    SEA Sensitivittsanalyse

    SNNS Stuttgarter Neuronale Netze Simulator

    SOM Self-Organizing-Maps

    SOR Stimulus-Organismus-Response

    SPSS Statistical Package for the Social Sciences

    SS Sum of Squares

    VIF Variance Inflation Factors

    http://www-ra.informatik.uni-tuebingen.de/SNNS/

  • 1 Einleitung

    1

    1 Einleitung Die heutige Unternehmensfhrung bentigt fr die Entwicklung eines erfolgreichen

    Marketingkonzeptes umfassende und aktuelle Informationen. Das Ziel der

    Primrforschung ist, diese Informationen zu erheben und anschlieend die

    Komplexitt und Dynamik auf die relevanten Daten zu verdichten. Nur so kann den

    Entscheidungstrgern, die einem immer strkeren Wettbewerbsdruck unterliegen,

    eine schnellere individuelle Anpassung an die Marktbedingungen ermglicht werden.

    Dem Marktforscher obliegt somit die Aufgabe, eine mglichst effiziente Ausnutzung

    der zur Verfgung stehenden Daten zu erreichen. Dafr steht ihm ein breites

    Spektrum an Analyseverfahren zur Auswahl. Whrend es sich bei den klassischen

    uni-, bi- und multivariaten Verfahren um bereits erprobte Verfahren handelt, weisen

    die knstlichen Neuronalen Netze, im Einsatz fr die Primrforschung, einen

    innovativen Charakter auf. Sie sind ursprnglich als mathematisches Abbild

    neurobiologischen Lernens (knstliche Intelligenz) entstanden und haben sich nach

    vielen Weiterentwicklungen in verschiedenartigen Wissenschaftsdisziplinen

    etabliert. Im Gegensatz zu den meisten herkmmlichen multivariaten Verfahren

    ermglichen sie es unter anderem, nicht lineare Zusammenhnge darzustellen und

    eine sehr hohe Anzahl an Variablen zu verarbeiten.

    Folglich ist es Ziel der Arbeit, zu untersuchen, ob durch den Einsatz von knstlichen

    Neuronalen Netzen in der Primrforschung eine Verbesserung der Informa-

    tionsgewinnung im Vergleich zu den bisher eingesetzten multivariaten Verfahren

    mglich ist.

    Zur Beantwortung dieser Frage gliedert sich die vorliegende Masterarbeit in fnf

    Teile. Nach der Einleitung stellt Kapitel 2 die Einordnung der Primrforschung in

    den Marktforschungsprozess dar. Anschlieend erfolgt ein berblick ber die in der

    Primrforschung einsetzbaren Analyseverfahren. Im dritten Abschnitt werden die

    methodischen Grundlagen der zu vergleichenden Datenanalyseverfahren aufgezeigt.

    Da die Literatur zum Teil, auer bei der Regressionsanalyse, keine genauen und

    einheitlichen Ablaufschritte sowie Gtekriterien zur Verwendung dieser Verfahren

    (Clusteranalyse, Multi-Layer-Perceptrons und Self-Organizing-Maps) aufweisen,

  • 1 Einleitung

    2

    liegt der Schwerpunkt dieses Kapitels darin, diese anwenderbezogenen Ablufe

    darzulegen. Abgeschlossen wird dieser Abschnitt mit einem theoretischen berblick

    ber die Eigenschaften Neuronaler Netze im Vergleich zu den multivariaten

    Verfahren. Zu Beginn des empirischen Teils wird durch eine Vorstellung

    ausgewhlter Studien ein berblick zum Stand der Forschung gegeben. Auf Basis

    der in Kapitel 4.2 vorgestellten Bewertungskriterien wird anschlieend exemplarisch

    durch zwei Fallstudien der Vergleich zwischen den multivariaten Verfahren und den

    knstlichen Neuronalen Netzen durchgefhrt. In den abschlieenden Kapiteln 5 und

    6 und werden die wesentlichen Ergebnisse der Arbeit zusammengefasst, ein Ausblick

    auf weitere, auf diese Arbeit aufbauende wissenschaftliche Untersuchungs-

    mglichkeiten gegeben und Handlungsempfehlungen ausgesprochen.

  • 2 Verwendung von statistischen Verfahren in der Primrforschung

    3

    2 Verwendung von statistischen Verfahren in der Primrforschung

    2.1 Der Ablauf des Marktforschungsprozesses

    Fr die Festlegung der Marketingstrategien sowie die Entwicklung eines

    Marketingplans bentigt die Unternehmensfhrung vielfltige Informationen aus der

    Umfeld-, Markt-, und Unternehmensanalyse. Die methodische Fundierung fr diesen

    Marketing-Entscheidungsprozess liefert die Marktforschung. Sie umfasst die

    Erhebung, Auswertung und Interpretation von entscheidungsrelevanten

    Informationen im Rahmen der Marketingsituationsanalyse (BODENSTEIN/SPILLER

    1998: 75; BRUHN 1999: 89-92). Die Durchfhrung einer Marktforschungsunter-

    suchung verluft anhand des in Abbildung 1 dargestellten Prozesses.1

    Abbildung 1: Die Ablaufschritte des Marktforschungsprozesses

    Quelle: Eigene Darstellung in Anlehnung an HTTNER 1999: 17; BEREKOVEN et al. 1999: 49

    1 Einen detaillierten berblick ber den Marktforschungsprozess zeigen unter anderem

    BEREKOVEN et al. (1999), Bodenstein/Spiller (1998), BRUHN (1999), HERRMANN et al. (1999) und HTTNER (1999).

    Problemdefinition

    Datengewinnung

    Schritt 1

    Schritt 2

    Schritt 3

    Datenanalyse Schritt 4

    Schritt 5

    Marktforschungsdesign

    Kommunikation der Ergebnisse

  • 2 Verwendung von statistischen Verfahren in der Primrforschung

    4

    Demnach erfolgt zunchst die Strukturierung des Forschungsproblems

    (Modellbildung) mit anschlieender Definition eines Forschungsziels. Zur

    Konkretisierung dieses Zieles werden im zweiten Schritt Hypothesen aufgestellt, die

    mgliche theoretische Lsungen des Forschungsproblems darstellen (Modell-

    spezifikation). Darauf aufbauend wird ein detaillierter Forschungsplan (Arbeits-,

    Zeit-, Kostenplan) erstellt (Marktforschungsdesign) (HERRMANN et al. 1999: 18ff.).

    Im Rahmen der anschlieenden Datengewinnung knnen die Sekundrforschung

    (Desk Research) und die Primrforschung unterschieden werden (Abbildung 2).

    Abbildung 2: Grundmethoden der Datengewinnung

    Quelle: Eigene Darstellung in Anlehnung an HTTNER 1999: 23; BEREKOVEN et al. 1999: 49

    Die Sekundrforschung verwendet fr die Auswertung und Analyse bereits

    vorhandenes Datenmaterial. Zum einen knnen diese Daten aus

    unternehmensexternen Quellen (z. B. Panel, Statistisches Bundesamt, ffentliche

    Institutionen, Fachbcher) und zum anderen aus unternehmensinternen Quellen

    (z. B. Buchhaltungsunterlagen, Kundenstatistik, Controlling, Meldungen des

    Auendienstes) stammen (BODENSTEIN/SPILLER 1998: 75-77; BEREKOVEN et al.

    1999: 42-48). Diese Art der Informationsgewinnung verursacht einen relativ

    geringen finanziellen und zeitlichen Aufwand. Jedoch sind die ermittelten Daten

    hufig nicht speziell auf ein vorliegendes Informationsproblem ausgerichtet und

    weisen einen zu geringen Grad an Aktualitt, Detailliertheit, Objektivitt und

    Relevanz auf (ebd.).

    Ziel der Primrforschung ist es somit fr die Entscheidungsfindung konkrete

    originre Daten selbst zu erheben (BODENSTEIN/SPILLER 1998: 77). Abbildung 3

    verdeutlicht, dass im Rahmen der Primrdatenerhebung die Mglichkeit besteht

    Befragungen und Beobachtungen durchzufhren. Erstere knnen weiterhin in

  • 2 Verwendung von statistischen Verfahren in der Primrforschung

    5

    quantitative und qualitative Methoden differenziert werden. Whrend quantitative

    Befragungen standardisiert erfolgen und dadurch ein breites Spektrum an Verhaltens-

    und Denkmusterinformationen (z. B. Kundenzufriedenheit, Einstellungen,

    Kaufabsichten usw.) ber die Grundgesamtheit liefern knnen, bieten qualitative

    Befragungen die Mglichkeit einen vertieften Einblick in Bestimmungsfaktoren

    einzelner Handlungen zu erhalten (ebd.: 77-78). Beobachtungen haben im Gegensatz

    zu den Befragungen den Vorteil, dass sie unabhngig von der Auskunftswilligkeit

    und Auskunftsfhigkeit der Probanten sind. Es knnen apparative und persnliche

    Beobachtungen unterschieden werden (BRUHN 1999: 104f.).

    Abbildung 3: Methoden der Primrdatenerhebung

    Quelle: Eigene Darstellung

    Bevor im nchsten Schritt die Analyse der gewonnenen Daten vorgenommen werden

    kann, mssen diese zunchst aufbereitet werden. Das heit, die Datenquellen, z. B.

    Fragebgen, werden bezglich der Vollstndigkeit und Plausibilitt und ggf. auch

    auf unsachgeme Erhebung (Interviewereinfluss) hin berprft. Nach Feststellung

  • 2 Verwendung von statistischen Verfahren in der Primrforschung

    6

    der Responsequote muss unter Umstnden auch ber eine Nachbefragung

    entschieden werden. Fr die eigentliche Auswertung der Daten liegt eine Vielzahl

    von statistischen Methoden vor. Dieses breite Methodenspektrum wird in der

    vorliegenden Arbeit dadurch eingeschrnkt, dass nur der Einsatz von multivariaten

    Verfahren und knstlichen Neuronalen Netzen (KNN) bei der Analyse von Daten,

    die durch die Primrforschung erhoben wurden, betrachtet werden. Die

    unterschiedlichen Analyseverfahren der Primrforschung werden im anschlieenden

    Kapitel noch einmal ausfhrlicher dargestellt.

    Der abschlieende Schritt des Marktforschungsprozesses umfasst die Dokumentation

    und Interpretation der Analyseergebnisse. Die gewonnenen Informationen sind mit

    der in Schritt 1 (vgl. Abbildung 1) definierten Problemstellung zu vergleichen

    (Rckkopplung). Gegebenenfalls sind weitere Untersuchungen notwendig

    (BEREKOVEN et al. 1999: 36; HTTNER 1999: 26). Nur Marktforschungsergebnisse,

    die einen hohen Grad an Validitt, Reliabilitt und Objektivitt aufweisen, knnen

    den Ansprchen der Entscheidungstrger des Unternehmens gerecht werden und

    somit die Grundlage fr zuknftige Marketingstrategien bilden.2 Fr eine schnelle

    Entscheidungsfindung ist darber hinaus wichtig, dass die relevanten Informationen

    auf ein berschaubares Ma verdichtet werden. Die Datenauswertung und somit auch

    die Auswahl eines geeigneten Analyseverfahrens spielen dabei eine groe Rolle.

    2.2 Analyseverfahren in der Primrforschung

    Die Analyseverfahren in der Primrforschung lassen sich hinsichtlich der Anzahl der

    untersuchten Variablen in uni-, bi- und multivariate Verfahren unterscheiden (vgl.

    Abbildung 4). Kennzeichnend fr die einfachste Form der Datenanalyse (univariate

    Methoden) ist, dass sich diese nur auf die Auswertung einer Variablen und deren

    Ausprgung konzentrieren. Whrend es bei nominal- und ordinalskalierten Daten nur

    mglich ist Hufigkeiten zu analysieren, knnen bei metrischem Skalenniveau

    Hufigkeitsverteilungen durch die Berechnung von Mittelwerten und

    Streuungsmaen komprimiert charakterisiert werden. Das Ziel der univariaten

    2 Reliabilitt = Zuverlssigkeit der Ergebnisse; Reproduzierbarkeit der Daten; Validitt = inhaltliche Gltigkeit des Gemessenen; Objektivitt = Unabhngigkeit der Messergebnisse vom Untersuchungsleiter

  • 2 Verwendung von statistischen Verfahren in der Primrforschung

    7

    Datenanalyse ist somit insbesondere eine Datenverdichtung. Bei den bivariaten

    Verfahren wird durch die Verknpfung von zwei Variablen versucht,

    Zusammenhnge zwischen den Merkmalen in Form von Korrelationen oder

    Abhngigkeiten aufzudecken oder zu berprfen. Als Analysemethoden bieten sich

    hier unter anderem die Korrelationsanalyse, die Kreuztabellierung sowie die einfache

    Regressionsanalyse an.

    Abbildung 4: Analyseverfahren in der Primrforschung3

    Quelle: Eigene Darstellung

    In der Marktforschung lassen sich jedoch hufig komplexe Zusammenhnge nicht

    nur durch die Herauslsung von einer bzw. zwei Variablen darstellen. Dieses wrde

    leicht zu Fehlschlssen bzw. -interpretationen fhren. Aus diesem Grunde besitzt die

    multivariate Datenanalyse innerhalb der Primrforschung einen hohen Stellenwert.

    Sie ermglicht entweder die wechselseitigen Beziehungen (Interdependenzanalyse,

    Strukturentdeckung) oder die Abhngigkeiten (Dependenzanalyse, Struktur-

    abbildung) zwischen mehreren Variablen zu analysieren. Das heit whrend bei der

    3 Die wichtigsten Anwendungsfelder im Marketing sowie die Vorgehensweise der in Abbildung 1

    dargestellten Analyseverfahren werden im Anhang durch Abbildung 41 kurz vorgestellt.

  • 2 Verwendung von statistischen Verfahren in der Primrforschung

    8

    Dependenzanalyse (z. B. Regressionsanalyse) ein kausaler Zusammenhang

    unterstellt wird, indem eine Unterteilung in abhngige und unabhngige Variablen

    geschieht, erfolgt bei der Interdependenzanalyse (z. B. Clusteranalyse) keine

    Unterscheidung (BEREKOVEN et al. 1999: 191-204; HERRMANN et al. 1999: 29f.).

    Die KNN werden in der Literatur (BACKHAUS 2003: 742; PODDIG et al. 2001: 364),

    obwohl sie mehr als zwei Variablen analysieren nicht als spezielles multivariates

    Verfahren bezeichnet, sondern knnen neben den uni-, bi- und multivariaten

    Verfahren als eine eigenstndige Verfahrensklasse eingeordnet werden.4

    Analysemethoden, die in diese Verfahrensklasse fallen, sind durch Lernfhigkeit, die

    Mglichkeit nichtlineare Zusammenhnge darzustellen und durch die Fhigkeit, eine

    sehr hohe Anzahl an Variablen verarbeiten zu knnen, charakterisiert (vgl. Kapitel

    3.3).

    KNN wurden bisher hauptschlich im Rahmen des Data Mining eingesetzt (vgl.

    Kapitel 4.1). Der Terminus Data Mining bezeichnet eine relativ neue Forschungs-

    und Anwendungsrichtung. Auf Grund dessen erfolgt auch die Definition dieses

    Begriffes in der Literatur auf unterschiedlichste Art und Weise. bergreifend kann

    jedoch gesagt werden, dass beim Data Mining anspruchsvolle automatisierte

    Methoden (Verfahren der klassischen statistischen Datenanalyse, Anwendungen aus

    der knstlichen Intelligenz, der Mustererkennung und des maschinellen Lernens) auf

    relativ groe und komplexe Datenvolumina angewendet werden. Das Ziel ist dabei

    die entscheidungsrelevanten Informationen aus den Daten zu extrahieren und zu

    interpretieren (BERRY et al. 2004: 7f.; KPPERS 1999: 17-22).5

    Die erforderlichen Daten fr den Data Mining-Prozess werden aus dem Data

    Warehouse bezogen. Diese Daten wiederum entstammen grtenteils

    unternehmensinternen Quellen (z.B. Kundendaten). Der Data Mining-Prozess

    umfasst nach Abbildung 5 sechs Phasen. Erst nach der Aufgabendefinition

    (Bestimmung der analytischen Ziele, Modellbildung), Auswahl und Aufbereitung der

    4 Ein kurzer berblick ber die historische Entwicklung sowie dem Terminus der KNN findet sich

    in Kapitel 3.2.1. 5 Die Begriffe Knowledge Discovery in Database (KDD) und Data Mining werden von den

    meisten Autoren synonym verwendet (KPPERS 1999: 19; WILDE 2001: 13).

  • 2 Verwendung von statistischen Verfahren in der Primrforschung

    9

    relevanten Daten (z. B. Transformation und Entfernung von Ausreiern) erfolgt die

    eigentliche Anwendung der Data Mining-Methoden. Dabei stehen dem Anwender

    Methoden aus den verschiedensten Gebieten zur Verfgung (Data Mining als

    interdisziplinre Wissenschaft). So knnen die knstlichen neuronalen Netze der

    knstlichen Intelligenz (KI), die Entscheidungsbume als Element des maschinellen

    Lernens und die Assoziationsanalysen als eher heuristischer Ansatz betrachtet

    werden. Nach der Anwendung der Data Mining-Methoden und anschlieender

    erfolgreicher Evaluation und Interpretation der Ergebnisse erfolgt letztlich die

    Anpassung des Marketings an die Data Mining-Ergebnisse (WILDE 2001: 14f.).6

    Abbildung 5: Verwendung von KNN im Data Mining-Prozess

    Quelle: Eigene Darstellung

    6 Einen umfassenderen berblick zum Data Mining zeigen die Autoren BERRY et al. (2004),

    KPPERS (1999), SUBERLICH (2000) und WILDE (2001).

  • 2 Verwendung von statistischen Verfahren in der Primrforschung

    10

    Abbildung 5 verdeutlicht den Ansatz dieser Arbeit, KNN, die bislang im Rahmen des

    Data Mining-Prozesses Einsatz fanden, direkt auf die in der Primrforschung

    erhobenen Daten anzuwenden (gestrichelter Pfeil).7 Dabei wird jeweils ein

    multivariates Verfahren aus der Interdependenz- und Dependenzanalyse mit einem

    dem Verwendungszweck nach analogen knstlichen Neuronalen Netzwerk

    verglichen. Entsprechend der Abbildung 6 wird die Regressionsanalyse den Multi-

    Layer-Perceptrons (MLP) und die Clusteranalyse den Self-Organizing-Maps (SOM)

    gegenbergestellt.8

    Abbildung 6: Vergleich von KNN und multivariaten Verfahren

    Quelle: Eigene Darstellung

    Nachdem in den folgenden Kapiteln die methodischen Grundlagen der eben

    genannten Verfahren aufgezeigt werden, wird im empirischen Teil untersucht, ob

    und in wie weit die KNN fr die analytische Informationsgewinnung, im Rahmen

    des betrieblichen Informationsmanagements, potenzielle Vorteile erbringen knnen.9

    Die Grundlage fr diese Bewertung erfolgt durch die in Kapitel 4.2 aufgezeigten

    Gtekriterien.

    7 Die Daten unterscheiden sich dabei in der Hinsicht, dass die Primrforschung im Gegensatz zur

    Sekundrforschung mehr psychographische Variablen mit einem beschrnkten Skalenniveau erhebt. 8 Der praktische Verwendungszweck fr die Regressionsanalyse und die MLP ist z. B. die

    Kuferanalyse, in der die Bestimmungsgrnde von Kaufentscheidungen analysiert werden (Wirkungs-und Ursachenanalysen). Das Einsatzgebiet der Clusteranalyse und der SOM erfolgt z. B. im Rahmen des zielgruppenspezifischen Marketings durch Marktsegmentierungen (Clusterung).

    9 Das betriebliche Informationsmanagement beinhaltet unter anderem das Management von Informationen, Informationssystemen und der Informations- und Kommunikationstechnologie (BEREKOVEN et al.1999: 19-48).

  • 3 Methodische Grundlegung

    11

    3 Methodische Grundlegung

    3.1 Multivariate statistische Verfahren

    3.1.1 berblick ber multivariate statistische Verfahren

    In der Marktforschung liegen hufig sehr komplexe Zusammenhnge zwischen den

    erhobenen Daten vor. Um diese vieldimensionalen Beziehungen zwischen den

    Variablen aufzudecken, ist es notwendig, mehr als zwei Variablen gleichzeitig in die

    Datenanalysen mit einzubeziehen. Dafr stehen dem Marktforscher verschiedene

    multivariate Analyseverfahren zur Verfgung. Diese lassen sich, wie schon in

    Kapitel 2.2 aufgezeigt, in struktur-prfende und struktur-entdeckende Verfahren

    unterteilen (BEREKOVEN et al. 1999: 202). Bei den struktur-prfenden Verfahren

    unterstellt der Anwender aufgrund von sachlogischen oder theoretischen

    berlegungen einen kausalen Zusammenhang zwischen den Variablen. Zur

    berprfung des theoretischen Modells werden die relevanten Variablen in

    unabhngige und abhngige Variablen eingeteilt und mit Hilfe von multivariaten

    statistischen Verfahren geprft. Das Ziel der Analyse besteht darin, den Einfluss der

    unabhngigen Variablen auf die abhngigen Variablen zu beschreiben (BACKHAUS et

    al. 2003: 7f.). Die grundlegenden struktur-prfenden Verfahren lassen sich nach

    ihrem Skalenniveau gem Abbildung 7 zuordnen.

    Abbildung 7: Grundlegende strukturen-prfende Verfahren

    Quelle: BACKHAUS et al. 2003: 8

  • 3 Methodische Grundlegung

    12

    Bei den struktur-entdeckenden Verfahren erfolgt keine Unterteilung in abhngige

    und unabhngige Variablen. Der Anwender besitzt vor der Analyse keine

    Vorstellungen ber die wechselseitigen Beziehungen zwischen den Daten. Ziel der

    Interdependenzanalyse ist somit unbekannte Zusammenhnge zwischen den

    Variablen oder Datenobjekten aufzudecken (BEREKOVEN et al. 1999: 203).

    Grundlegende struktur-entdeckende Verfahren sind unter anderem die

    Faktorenanalyse, die Clusteranalyse, die Multidimensionale Skalierung und die

    Korrespondenzanalyse.10

    Um in der Marktforschung eine Problemstellung zu lsen, ist es vorteilhaft nicht nur

    ein einzelnes multivariates Verfahren zu verwenden, sondern mehrere Methoden

    miteinander zu kombinieren. Dieser Methodenmix ermglicht eine Aggregation der

    Strken jedes einzelnen Verfahrens. Beispielsweise wird die Faktorenanalyse hufig

    dafr eingesetzt, eine Vielzahl von Variablen auf einige wenige zu reduzieren, damit

    anschlieend auf Grundlage dieser Dimensionsreduktion eine Clusteranalyse oder

    Regressionsanalyse durchgefhrt werden kann.11 Eine ausfhrliche Betrachtung aller

    multivariaten Verfahren wrde sicherlich den Rahmen dieser Arbeit sprengen,

    deshalb wird in den folgenden Kapiteln jeweils nur ein Verfahren aus der

    Dependenzanalyse (Regressionsanalyse) und Interdependenzanalyse (Clusteranalyse)

    nher vorgestellt.12

    3.1.2 Regressionsanalyse

    Die Regressionsanalyse ist eines der vielseitigsten und am hufigsten eingesetzten

    multivariaten Analyseverfahren (BACKHAUS et al. 2003: 46). Sie wird verwendet, um

    die Beziehungen zwischen einer abhngigen (endogenen, Regressand) und einer oder

    mehreren unabhngigen (exogenen, Regressoren) Variablen zu analysieren (z. B. der

    10 Die wichtigsten Anwendungsfelder im Marketing sowie die Vorgehensweise der aufgezeigten

    struktur-entdecken und prfenden Analyseverfahren werden im Anhang durch Abbildung 41 kurz vorgestellt.

    11 Diese Vorgehensweise erfolgt auch im empirischen Teil dieser Arbeit. 12 Die Varianz-, Diskriminanz- und Faktorenanalyse werden zustzlich als Hilfsverfahren (der

    Regressions- und Clusteranalyse vor- oder nachgeschoben) im empirischen Teil dieser Arbeit verwendet. Eine ausfhrliche Darstellung dieser Verfahren wrde jedoch den Rahmen des methodischen Kapitels sprengen.

  • 3 Methodische Grundlegung

    13

    Einfluss des Preises auf die Nachfrage eines Produktes). Ist eine abhngige Variable

    nur von einer unabhngigen Variablen beeinflusst, so wird die Beziehung in einer

    Einfachregression analysiert. Wird hingegen eine abhngige Variable von mehreren

    unabhngigen Variablen bestimmt, kann von einer Mehrfach- oder auch multiplen

    Regression gesprochen werden. Im Folgenden wird die Vorgehensweise bei einer

    multiplen linearen Regression in Anlehnung an Abbildung 8 dargestellt (VON AUER

    2003: 8; BACKHAUS et al. 2003: 52).

    Abbildung 8: Die Ablaufschritte der Regressionsanalyse

    Quelle: Eigene Darstellung in Anlehnung an VON AUER 2003: 8; BACKHAUS et al. 2003: 52

    Demnach erfolgt zuerst die Spezifikation des Regressionsmodells, welches die

    vermutete Ursache-Wirkungs-Beziehung mglichst vollstndig enthalten sollte

    (BACKHAUS et al. 2003: 52). Prinzipiell geht die multiple lineare Regressionsanalyse

    von folgendem Grundmodell aus:13

    13 Die Notation orientiert sich in diesem Kapitel an BACKHAUS et. al. (2003).

    Spezifikation des Modells

    A- Annahmen

    B- Annahmen

    C- Annahmen

    funktional

    Strgre

    Variablen

    Schtzung des Modells

    Prfung des geschtzten Modells

    Prfung der

    Regressions-

    funktion

    Schritt 1

    Prfung der

    Regressions-

    koeffizienten

    Schritt 2

    Schritt 3

  • 3 Methodische Grundlegung

    14

    0 1 1 2 2 ... ...j j J JY b b X b X b X b X= + + + + + +

    mit

    Y = Wert der j-ten Beobachtung fr die abhngige Variable

    0b = Konstante der Regressionsfunktion

    jb = Regressionskoeffizient (j= 1,2,,J)

    jX = Wert der unabhngigen Variablen (j= 1,2,,J)

    Das lineare Regressionsmodell unterliegt dabei wichtigen grundlegenden Annahmen

    bzw. Prmissen, die erforderlich sind, um im zweiten Schritt, der Schtzung des

    Modells, die wahren unbekannten Parameter zu ermitteln (VON AUER 2003: 15).

    Tabelle 1 fasst die wichtigsten Prmissen, die Konsequenzen der Verletzung und die

    berprfung der Annahmen zusammen. Die A-Annahmen beziehen sich auf die

    funktionelle Spezifikation des Regressionsmodells. Dieses beinhaltet vor allem, dass

    alle relevanten und keine irrelevanten unabhngigen Variablen in die Gleichung (1)

    aufgenommen werden. Ebenfalls verdeutlicht Formel (1), dass der wahre

    Zusammenhang zwischen Y und den unabhngigen Variablen Xj linear sein soll. Es

    ist jedoch auch mglich, nicht-lineare Zusammenhnge in lineare zu transformieren,

    z. B. im Falle einer multiplikativen Verknpfung durch Logarithmieren (RUDOLPH

    1998: 43; VON AUER 2003: 277-299). Die B-Annahmen beziehen sich auf die

    Residuen bzw. die Strgre. Die Residuen entsprechen nach Formel (2) der

    Abweichung der tatschlich beobachteten Werte von den Schtzwerten (BACKHAUS

    et al. 2003: 56).

    $k k ke y y= 1, 2,...,=k K

    mit

    ke = Abweichung des Schtzwertes vom Beobachtungswert

    ky = Beobachtungswert der abhngigen Variablen Y fr xk $

    ky = ermittelter Schtzwert von Y fr xk

    K = Zahl der Beobachtungen

    Eine Verletzung der B-Annahmen kann unter anderem zu Heteroskedastizitt oder zu

    Autokorrelation fhren. Heteroskedastizitt liegt vor, wenn die Streuung der

    Residuen keine gleich bleibende Varianz aufweist. Autokorrelation ist gegeben,

    (1)

    (2)

  • 3 Methodische Grundlegung

    15

    wenn die Residuen in der Grundgesamtheit untereinander korrelieren (VON AUER

    2003: 353-404).

    Tabelle 1: Annahmeverletzungen des linearen Regressionsmodells

    Annahme Annnahme-verletzung

    Konsequenzen berprfung

    A1: Vollstndigkeit des Modells (Bercksichtigung aller relevanten Variablen)

    Unvollstndig-keit

    verzerrte oder ineffiziente Schtzer

    t-Test F-Test (korrigiertes R)

    A2: Linearitt in den Parametern

    Nichtlinearitt verzerrte oder falsche Schtzer

    (graphische Analyse) Box-Cox-Test

    A3: Die Parameter sind fr alle Beobach tungen konstant

    Strukturbruch falsches Modell F-Test Chow-Test

    B1: Erwartungswert der Strgre gleich null

    Erwartungswert der Strgre von null verschieden

    verzerrte Schtzer

    whrend der Datenerhebung

    B2: Homoskedastizitt der Strgre

    Hetero-skedastizitt

    ineffiziente Schtzer

    Goldfeld-Quandt-Test White-Test

    B3: Freiheit von Autokorrelation

    Autokorrelation ineffiziente Schtzer

    Durbin-Watson-Test

    B4: Normalverteilung der Strgre

    Strgre nicht normalverteilt

    Ungltige Signifikanztests (F-Test, t-Test) bei N < 40

    Graphische Analyse Jarque-Bera-Test

    C1: Keine lineare Abhngigkeit zwischen den unabhngigen Variablen

    Perfekte Multikollinearitt

    Verminderte Przision der Schtzwerte

    Korrelations-matrix Regression zwischen den erklrenden Variablen Variance Inflation Factor

    Quelle: Eigene Darstellung in Anlehnung an BACKHAUS et al. 2003: 92;VON AUER 2003: 237- 486

    Die C-Annahmen beziehen sich auf die Eigenschaften der unabhngigen Variablen.

    Wenn diese z. B. untereinander lineare Abhngigkeiten aufweisen, also korrelieren,

    liegt das Problem der Multikollinearitt vor (ebd.: 461-487). In diesem Fall ist der

    Einfluss der exogenen Variablen auf die endogene Variable nicht mehr eindeutig

    zurechenbar (ebd.). Als Konsequenz der Prmissenverletzungen kann es zu

  • 3 Methodische Grundlegung

    16

    verzerrten oder ineffizienten Schtzern kommen (vgl. Tabelle 1). Ein Schtzer ist

    unverzerrt (erwartungstreu), wenn die aus wiederholten Stichproben ermittelten

    Regressionskoeffizienten im Mittel den wahren Wert aus der Grundgesamtheit

    treffen (BACKHAUS et al. 2003: 79). Wenn ein unverzerrter Schtzer innerhalb der

    Gruppe der unverzerrten Schtzer die kleinste Streuung aufweist, ist er effizient

    (ebd.). Die unter dem zweiten Schritt erklrte Kleinstquadratmethode (KQ-Methode,

    englisch: Ordinary Least Squares, OLS) liefert unter den getroffenen A-, B- und C-

    Annahmen (ohne B4-Annahme) Regressionskoeffizienten, die innerhalb der Klasse

    der unverzerrten linearen Schtzern effizient sind. Dieser Zusammenhang wird als

    das Gauss-Markov-Theorem bezeichnet (BLEYMLLER et al. 2002: 150).14 In der

    Praxis werden die Prmissen des Modells hufig erst nach der Prfung des

    geschtzten Modells kontrolliert. Ohne vorherige Prfung der Prmissen drften

    jedoch streng genommen, nach dem Gauss-Markov-Theorem, der F- und t-Test nicht

    angewandt werden (HOFFMANN 2004: 40).15

    Nach der Spezifikation des Regressionsmodells wird im zweiten Schritt (vgl.

    Abbildung 8) mit Hilfe der KQ-Methode die Ermittlung der Schtzwerte fr die

    Regressionskoeffizienten vorgenommen. Dabei werden die Parameter so gewhlt,

    dass die Summe der quadrierten Residuen minimiert wird (FAHRMEIR et al. 2003:

    478; BACKHAUS et al. 2003: 60):

    ( )2

    20 1 1 2 2

    1 1... ... min

    K K

    k k k k j j J Jk k

    e y b b x b x b x b x= =

    = + + + + + +

    mit

    ke = Wert der Residualgre (k=1,2,,K)

    ky = Wert der abhngigen Variablen (k=1,2,,K)

    0b = Konstante der Regressionsfunktion

    jb = Regressionskoeffizient (j= 1,2,,J)

    jkx = Wert der unabhngigen Variablen (j= 1,2,,J; k=1,2,,K) J = Zahl der unabhngigen Variablen K = Zahl der Beobachtungen

    14 Im Englischen auch als BLUE (Best Linear Unbiased Estimator) ausgedrckt (ebd.). 15 Fr tiefer greifende Betrachtungen in die Regressionsanalyse, besonders in Bezug auf die ber-

    prfung der Annahmen, sei auf die Literatur von BACKHAUS et al. (2003: 77-104), BROSIUS et al. (1996: 488-497), BLEYMLLER et al. (2002: 139-179) und VON AUER (2003: 237-486) verwiesen.

    (3)

  • 3 Methodische Grundlegung

    17

    Im letzten Schritt (vgl. Abbildung 8) wird die Qualitt bzw. die Gte des geschtzten

    Modells berprft. Neben der globalen Prfung des Regressionsmodells erfolgt auch

    eine Kontrolle der einzelnen Regressionskoeffizienten. (BACKHAUS et al. 2003: 63).

    Bei der globalen Prfung wird untersucht, wie gut die unabhngigen Variablen die

    abhngige Variable erklren knnen. Die Kontrolle der einzelnen

    Regressionskoeffizienten hingegen berprft, wie gut jede einzelne exogene Variable

    zur Erklrung der endogenen Variablen beitrgt (ebd.). Am hufigsten wird zur

    Prfung der Erklrungskraft der Regressionsfunktion das Bestimmtheitsma

    verwendet. Dieses Ma berechnet, wieviel der Gesamtvarianz durch die

    Regressionsgleichung erklrt werden kann (ebd.: 66):

    $( )( )

    2

    2 12

    1

    erklrte StreuungGesamtstreuung

    K

    kkK

    kk

    y yR

    y y

    =

    =

    = =

    Das Bestimmtheitsma R ist jedoch kritisch zu sehen, denn mit jeder hinzugefgten

    exogenen Variablen wird der Erklrungsanteil, der mglicherweise nur zufllig

    bedingt ist, und somit der Wert des Bestimmtheitsmaes, zunehmen (VON AUER

    2003: 252). Damit der Wert des Maes nicht auch bei der Aufnahme einer

    irrelevanten Variablen (vgl. Annahme-A1) steigt, sollte das korrigierte

    Bestimmtheitsma, (englisch: adjusted R-squared) welches diesen Zusammenhang

    bercksichtigt, verwendet werden (BACKHAUS et al. 2003: 67):

    ( )22 2 11korr

    J RR R

    K J

    =

    mit

    J = Zahl der Regressoren 1 K J = Zahl der Freiheitsgrade

    K = Zahl der Beobachtungswerte

    Um die Gltigkeit des Regressionsmodells auch in der Grundgesamtheit zu

    gewhren, wird als weiteres Gtema zur globalen Prfung der Regressionsfunktion

    (4)

    (5)

  • 3 Methodische Grundlegung

    18

    der F-Test verwendet (ebd.: 68). Besonders wenn das Regressionsmodell nur

    aufgrund einer geringen Stichprobengre geschtzt wird, erweist sich dieser Test als

    Gewhr fr die Gltigkeit des Modells in der Grundgesamtheit (ebd.). Um diesen

    Test jedoch anwenden zu knnen, wird die geschtzte Regressionsfunktion (vgl.

    Formel (1)) zunchst als eine stochastische Funktion mit dem Term der Strgre

    dargestellt (vgl. Formel (6)). Es handelt sich dabei um eine stochastische Funktion,

    da sowohl 0, j, u und Y Zufallsvariablen sind (BACKHAUS et al. 2003: 69, VON

    AUER 2003: 68).

    0 1 1 2 2 ... ...j j J JY X X X X u = + + + + + + +

    mit

    Y = Abhngige Variable

    0 = Konstantes Glied der Regressionsfunktion

    j = Regressionskoeffizient (j= 1,2,,J)

    jX = Unabhngige Variable (j= 1,2,,J) u = Strgre

    Die Nullhypothese des F-Tests besagt, dass keiner der Regressionskoeffizienten zur

    Erklrung der abhngigen Variablen beitrgt (FAHRMEIER et al. 2003: 498):

    0 1 2: ... 0JH = = = =

    Der empirische F-Wert Femp berechnet sich aus dem Verhltnis der erklrten zu der

    nicht erklrten Streuung jeweils dividiert durch die Zahl der Freiheitsgrade

    (BACKHAUS et al. 2003: 70):

    $( )$( )

    2

    12

    1

    erklrte Streuungnicht erklrte Streuung 11

    K

    kk

    emp K

    k kk

    y y JJF

    K Jy y K J

    =

    =

    = =

    Wenn der empirische F-Wert grer ist als der theoretische F-Wert, kann die

    Nullhypothese abgelehnt werden. In diesem Fall liegt zumindest ein signifikanter

    kausaler Zusammenhang zwischen einer exogenen und der endogenen Variablen in

    (6)

    (7)

  • 3 Methodische Grundlegung

    19

    der Grundgesamtheit vor (HOFFMANN 2004: 38). Der theoretische F-Wert ergibt sich

    mit dem gewhlten Signifikanzniveau aus der F-Verteilung und kann aus der F-

    Tabelle16 entnommen werden. Das als letztes fr die Prfung der

    Regressionsfunktion vorgestellte Gtema ist der Standardfehler der Schtzung.

    Dieses Ma gibt an, welcher mittlere Fehler aus der Anwendung der

    Regressionsfunktion zur Schtzung der endogenen Variablen resultiert (BACKHAUS

    et al. 2003: 73):

    ( )

    2

    1

    1==

    K

    kk

    es

    K J

    Nach der globalen Prfung der Regressionsfunktion erfolgt die berprfung der

    einzelnen Regressionskoeffizienten. Whrend der F-Test in der Nullhypothese

    berprft, dass alle Regressionskoeffizienten gleich null sind, wird analog mit dem

    t-Test jeder einzelne Koeffizient geprft (ebd.):

    0 : 0jH =

    Der empirische t-Wert einer exogenen Variablen wird durch die Division des

    betreffenden Regressionskoeffizienten durch dessen Standardfehler ermittelt (ebd.:

    74):

    j j

    empbj

    bt

    s

    =

    mit

    empt = Empirischer t-Wert fr den j-ten Regresssor

    j = Wahrer Regressionskoeffizient (unbekannt)

    jb = Regressionskoeffizient des j-ten Regressors

    bjs = Standardfehler von jb

    16 F- sowie eine t-Tabelle sind unter anderem in den meisten statistischen Lehrbchern auffindbar.

    (8)

    (9)

  • 3 Methodische Grundlegung

    20

    Ist der empirische t-Wert grer als der theoretische t-Wert, kann die Nullhypothese

    abgelehnt werden. Demnach existiert dann ein signifikanter Zusammenhang

    zwischen der unabhngigen Variablen und der abhngigen Variablen in der

    Grundgesamtheit (FAHRMEIR et al. 2003: 497). Der theoretische t-Wert ergibt sich

    mit dem gewhlten Signifikanzniveau aus der Student-t-Verteilung und kann aus der

    t-Tabelle16 entnommen werden. Zustzlich zum t-test gibt das Konfidenzintervall den

    Bereich an, in dem sich der wahre Wert des Regressionskoeffizienten in der

    Grundgesamtheit befinden knnte (BACKHAUS et al. 2003: 76):

    j bj j j bjb t s b t s +

    mit

    empt = t-Wert aus der Student-Verteilung

    j = Wahrer Regressionskoeffizient (unbekannt)

    jb = Regressionskoeffizient der Stichprobe

    bjs = Standardfehler von Regressionskoeffizienten

    Je grer das Konfidenzintervall ist, desto unsicherer ist die Schtzung des

    betreffenden Regressionskoeffizienten auf die Grundgesamtheit bertragbar (ebd.:

    77). Anhand der Regressionskoeffizienten ist es mglich, den marginalen

    Zusammenhang zwischen den exogenen Variablen und der endogenen Variablen

    inhaltlich zu interpretieren (ebd.: 61). Ein Vergleich zwischen den Regressoren in

    Bezug auf die Einflussstrke auf den Regressanden ist allerdings nur dann mglich,

    wenn die unabhngigen Variablen ein gleiches Messniveau aufweisen (ebd.:). Sollte

    dieses jedoch nicht vorliegen, so knnen die Regressionskoeffizienten nach einer

    Standardisierung verglichen werden (BACKHAUS et al. 2003: 76; HOFFMANN 2004:

    40)17:

    Standardabweichung von Standardabweichung von

    jj j

    Xb b

    Y=$

    17 Die Standardabweichung berechnet sich wie folgt (BACKHAUS et al. 2003: 62):

    ( )2

    1

    1

    K

    kk

    x

    x xs

    K=

    =

    (10)

    (11)

  • 3 Methodische Grundlegung

    21

    Diese standardisierten Regressionskoeffizienten werden auch als Beta-Werte

    bezeichnet (BACKHAUS et al. 2003: 61). Im nachstehenden letzten Abschnitt ber das

    multivariate Verfahren der Regressionsanalyse werden kurz deren Schwchen und

    Strken diskutiert.

    Ein optimales Einsetzen der Regressionsanalyse erfordert bereits im Vorfeld, dass

    die Art der Beziehungen zwischen der abhngigen Variablen und den Unabhngigen

    klar ist. Diese Zusammenhnge erweisen sich aber oft als sehr komplex und sind

    dementsprechend nur schlecht als lineares Model darzustellen. Es ergibt sich zwar,

    wie schon oben angesprochen, die Mglichkeit der Linearisierung, jedoch reicht

    auch diese oft nicht aus. Denn bei vielen Fragestellungen, insbesondere im

    Marketing, ist die endogene Variable binr (dichotom oder zweiwertig) ausgeprgt.

    Als Beispiel dafr sei der Kauf bzw. Nichtkauf eines Produktes genannt. Die

    Regressionsanalyse kann in diesem Fall nicht verwendet werden, da die Residuen

    nicht normalverteilt sind und somit die Annahme-B4 verletzt ist (MEYER 2002: 198).

    Als Analyseverfahren bieten sich daher im Fall einer binren abhngigen Variablen

    die logistische Regressionsanalyse und die Diskriminanzanalyse an (BACKHAUS et al.

    2003: 418). Praktische und wissenschaftliche Fragestellungen, die komplexere

    kausale Abhngigkeiten zwischen bestimmten Variablen aufweisen, knnen

    konfirmatorisch, mit Hilfe von Strukturgleichungen im Rahmen von Kausalanalysen,

    untersucht werden (ebd.: 334).18 Die statistische Strke des Regressionsmodells ist

    eine umfassende theoretische Fundierung mit zahlreichen Erweiterungen und

    Spezialfllen. Deshalb setzt sie ein umfangreiches anwenderbasiertes Wissen voraus.

    So werden z. B. Ausreier bei der Gewichtung der einzelnen Regressions-

    koeffizienten durch die quadratische Minimierung der Abweichungen (KQ-Methode)

    zu stark bewertet. Demnach ist gegebenenfalls eine Voranalyse der Datenbasis

    erforderlich. Letztendlich ist die Regressionsanalyse jedoch mathematisch und

    sachlogisch einfach nachzuvollziehen und die Ergebnisse sind leicht zu

    interpretieren.

    18 Weiterfhrende Betrachtungen ber die eben genannten multivariaten Verfahren enthalten z. B.

    BACKHAUS et al. (2003) und JANSEN et al. (2003).

  • 3 Methodische Grundlegung

    22

    3.1.3 Clusteranalyse

    Whrend die Regressionsanalyse als struktur-prfendes Verfahren die Beziehungen

    zwischen den Variablen aufzeigt, betrachtet die Clusteranalyse als struktur-

    entdeckendes Verfahren die Beziehungsstrukturen zwischen den Objekten. Das Ziel

    der Clusteranalyse besteht darin, Gruppen (bzw. Cluster, Klassen, Typen) zu bilden,

    in denen die durch eine Anzahl von Variablen beschriebenen Objekte mglichst

    homogen sind. Objekte aus unterschiedlichen Gruppen sollten hingegen mglichst

    heterogen sein (BACHER 1996: 1-3). Der Einsatz der Clusteranalyse in der

    Primrforschung erfolgt z. B. zur Marktstrukturierung, Marktsegmentierung und

    Konsumententypologisierung.

    Abbildung 9: Die Ablaufschritte der Clusteranalyse

    Quelle: Eigene Darstellung

    Auswahl von Variablen

    Wahl des Clusteralgorithmus

    Prfung der Clusteranalyse

    Schritt 1

    Schritt 2

    Schritt 3

    Bestimmung der Clusteranzahl Schritt 4

    Schritt 5

    interne

    Prfung

    relative

    Prfung

    externe

    Prfung

    Wahl des Proximittsmaes

    Clusterzentrenanalyse

    Schritt 6

    Schritt 7 Interpretation der Cluster

  • 3 Methodische Grundlegung

    23

    Die Literatur (unter anderem BACHER 1996; BACKHAUS et al. 2003; BORTZ 2005;

    GIERL et al. 2001; JANSEN et al. 2003) beschreibt die Vorgehensweise bei der

    Clusteranalyse besonders in Bezug auf die Gtekriterien zum Teil sehr

    unterschiedlich. In Anlehnung an Abbildung 9 wird deshalb im Folgenden die

    Vorgehensweise der Clusteranalyse, wie sie im Rahmen dieser Arbeit durchgefhrt

    wird, vorgestellt.

    Der erste Schritt, die Auswahl der clusterbildenden Variablen (Inputvariablen, aktive

    Variablen), anhand derer die Zuordnung der Objekte zu den Clustern resultiert, ist als

    das ausschlaggebende Kriterium fr den Erfolg der Analyse anzusehen.19 Es sollten

    demnach nur die theoretisch relevanten Variablen fr die Analyse ausgewhlt

    werden (BACKHAUS et al. 2003: 537).20 Bei Datenstzen mit sehr vielen Variablen

    bietet eine vorgeschobene Faktorenanalyse hufig die Mglichkeit eine grere

    Anzahl von miteinander korrelierten Variablen auf einige wenige Faktoren zu

    reduzieren. Diese Faktoren knnen dann anschlieend als Inputvariablen verwendet

    werden (BACHER 1996: 126; BACKHAUS et al. 2003: 538; JANSEN et al. 2003: 437f.).21

    Nach GIERL et al. (2001: 130) wird die Anzahl der clusterbildenden Variablen in der

    Literatur meistens auf vier bis acht beschrnkt.

    Durch die Festlegung eines Proximittsmaes werden im zweiten Schritt der

    Clusteranalyse die Distanzen (Unterschiede) bzw. die hnlichkeiten

    (bereinstimmungen) zwischen den zu gruppierenden Objekten numerisch

    ausgedrckt. Das allgemein gebruchlichste, wie auch fr die meisten

    Clusteralgorithmen am besten geeignete Proximittsma, ist die quadrierte

    Euklidische Distanz (BORTZ 2005: 569; GIERL et al. 2001: 865):

    ( )K 22

    ij i jj 1

    D x x=

    =

    19 Variablen, die nicht in der Clusterbildung Verwendung fanden, werden als passive Variablen

    bezeichnet. 20 BACHER (1996: 410-412) und BERGS (1980: 51-62) zeigen eine umfassendere Beschreibung zur

    Auswahl der clusterbildenden Variablen auf. 21 Eine bersicht ber die Faktorenanalyse zeigen z. B. BACKHAUS et al. (2003); BORTZ (2005);

    BROSIUS et al. (1996) und JANSEN et al. (2003).

    (12)

  • 3 Methodische Grundlegung

    24

    mit: 2D = quadrierte Euklidische Distanz

    ij i jx (x ) = Merkmalsausprgung des Objektes ie i(x ) auf dem Merkmal j

    Diese Quantifizierung dient als Ausgangspunkt fr den sich anschlieenden Cluster-

    bzw. Fusionierungsalgorithmus (Clusterverfahren) (BROSIUS et al. 1996: 865). In der

    Literatur (BACHER 1996; BACKHAUS et al. 2003: 480-542; BERGS 1980;

    VAZIRGIANNIS et al. 2003; WEDEL et al. 2003) finden sich eine Vielzahl von

    unterschiedlichen Algorithmen. Abbildung 10 gibt deshalb nur einen berblick ber

    die in dieser Arbeit verwendeten Clusteralgorithmen. Neben den multivariaten

    Verfahren bieten auch die KNN (Self-Organizing-Maps) die Mglichkeit eine

    Clusterung durchzufhren (vgl. Kapitel 3.2.4). Bei den multivariaten statistischen

    Verfahren unterscheidet man die Gruppierungsalgorithmen in hierarchische und

    partitionierende Verfahren.

    Abbildung 10: berblick ber ausgewhlte Clusteralgorithmen

    Quelle: Eigene Darstellung in Anlehnung an PETERSOHN 1999: 553

    Die hierarchischen agglomerativen Verfahren beginnen mit der feinsten

    Objektgruppierung, d.h. jedes Objekt bzw. Fall bildet ein eigenes Cluster,

    Clusterverfahren

    Partitionierende Verfahren

    Self Organzing Maps

    Single- Linkage

    K-Means

    Multivariate Verfahren Knstliche Neuronale Netze

    Ward

    Hierarchische Verfahren

  • 3 Methodische Grundlegung

    25

    schrittweise werden diese dann zu immer umfangreicheren Clustern

    zusammengefasst (WEDEL et al. 2003: 48-50).22 Whrend das Single-Linkage

    Verfahren (oder auch Nearest-Neighbour-Verfahren) die Objekte (Gruppen)

    vereinigt, die die kleinste Distanz zueinander aufweisen, werden beim Ward-

    Verfahren diejenigen Gruppen fusioniert, die ein vorgegebenes Heterogenittsma,

    die Fehlerquadratsumme (Varianzkriterium), am geringsten erhhen (BORTZ 2005:

    575).23 In Abbildung 11 werden die Fusionierungsschritte, bei der Ward-Methode,

    bezogen auf die Fehlerquadratsumme (standardisiert von 0 bis 25), graphisch fr

    jedes Objekt (1-8) in Form eines Dendogramms dargestellt.

    Abbildung 11: Dendogramm fr ein hierarchisches Clusterverfahren24

    Quelle: Eigene Darstellung

    Unter die partitionierenden Verfahren fllt der K-Means-Algorithmus

    (Clusterzentrenanalyse). Dieser unterscheidet sich von den hierarchischen Verfahren

    dadurch, dass zunchst eine vorgegebene oder zufllige Startpartition durch iteratives

    Verschieben von Objekten zwischen den Clustern solange verbessert wird, bis sich

    jedes Objekt in einer Gruppe befindet, zu dessen Schwerpunkt (Mittelpunkt) es, im

    22 Man unterscheidet zwischen hierarchisch-divisiven Verfahren und hierarchischen-

    agglomerativen Verfahren. Die hierarchisch-divisiven Clusteralgorithmen beginnen mit der grbsten Partition, bei der alle Objekte in einem Cluster zusammengefasst sind (WEDEL et al. 2003: 50).

    23 Bei der Fusionierung zweier Gruppen im Ward-Algorithmus, entspricht die quadrierte Euklidische Distanz genau dem doppelten der Fehlerquadratsumme (BACKHAUS et al. 2003: 512).

    24 Einen berblick ber den Ablauf der Fusionierungsschritte innerhalb eines Dendogramms zeigt unter anderem BACKHAUS et al. (2004: 506-524), BROSIUS et al. (1996: 875-877) und PETERSOHN (1997: 118-120).

  • 3 Methodische Grundlegung

    26

    Vergleich zu den brigen Gruppen, die geringste Distanz aufweist (BORTZ 2005: 578;

    VAZIRGIANNIS et al. 2003: 25). Dieses Verfahren hat gegenber den hierarchischen

    Methoden den Vorteil, dass eine Neuzuordnung der Objekte (Flle) jederzeit mglich

    ist (GIERL et al. 2001: 131; GRABMEIER 2001: 329-332). Der Nachteil dieses

    Verfahrens liegt jedoch darin, dass man vor der Analyse die Struktur des Datensatzes

    und somit die Startpartitionen und die Clusteranzahl nicht kennt. Deshalb ist es nach

    BORTZ (2005: 575), JANSEN et al. (2003: 433) und WIEDENBECK et al. (2001: 14)

    vorteilhaft, zunchst mit dem Ward-Algorithmus die Anfangspartitionen zu

    berechnen und dann mit der K-Means-Methode das Ergebnis zu optimieren. Um die

    Anflligkeit des Ward-Verfahrens bei der Gruppierung der Objektmenge gegenber

    Ausreiern, welche den Fusionierungsprozess negativ beeinflussen, zu mindern,

    empfiehlt es sich, diese zunchst mit dem Single-Linkage-Algorithmus zu

    identifizieren und dann anschlieend zu entfernen (BACKHAUS et al. 2003: 537;

    KNIG 2001: 110).25 Demnach ergibt sich, in Bezug auf die Wahl der

    Fusionierungsalgorithmen, nachstehender Ablauf der Clusteranalyse:26

    1. Single-Linkage-Methode (zur Eliminierung der Ausreier)

    2. Ward-Methode (zur Bestimmung von Startpartitionen)

    3. K-Means (zur Bestimmung der optimalen Endpartitionen)

    Die Bestimmung der optimalen Clusteranzahl (vgl. Abbildung 9) ist innerhalb der

    hierarchischen und partitionierenden Verfahren nicht automatisiert. Die

    Entscheidung sollte deshalb aufgrund von mathematisch-statistischen und

    interpretationsbezogenen Kriterien erfolgen (KNIG 2001: 112). Als mathematisch-

    statistische Verfahren knnen das Dendogramm sowie das Scree-Test-Diagramm

    verwendet werden (ebd.: 522- 524).27 Der Scree-Test (vgl. Abbildung 12) basiert

    gegenber dem Dendogramm auf einem Koordinatensystem, auf dem die

    25 Ausreier sind Objekte, die im Vergleich zu den brigen Objekten eine vollkommen anders

    gelagerte Kombination der Merkmalsausprgungen aufweisen und dadurch von allen andern Objekten weit entfernt liegen (BACKHAUS et al. 2003: 537).

    26 Einen umfassenderen berblick ber die Proximittsmae und Algorithmen der Clusteranalyse zeigen unter anderem BACHER (1996); BACKHAUS et al. (2003); BERGS (1980); VAZIRGIANNIS et al. (2003); und WEDEL et al. (2003).

    27 Einen berblick ber weitere statistisch-mathematische Kriterien, die jedoch nicht in dieser Arbeit verwendet werden, zeigen unter anderem BORTZ (2005: 576-578); GIERL et al. (2001: 134f.); WEDEL et al. (2003: 91-93) und TIBSHIRANI (2000).

  • 3 Methodische Grundlegung

    27

    Clusteranzahl gegen die Entwicklung der Fehlerquadratsumme abgetragen wird

    (BORTZ 2005: 576 f.).

    Abbildung 12: Scree-Test zur Bestimmung der Clusteranzahl

    0

    50

    100

    150

    200

    250

    300

    350

    400

    450

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    Anzahl der Cluster

    Fehl

    erqu

    adra

    tsum

    me

    Quelle: Eigene Darstellung in Anlehnung an BACKHAUS et al. 2003: 524; BERGS 1980: 102

    Die Heterogenittszuwchse (Fehlerquadratsummen) nehmen mit sinkender

    Clusteranzahl und durch die Fusion immer heterogenerer Cluster berproportional

    zu. Dort, wo der Graph vor dem berproportionalen Anstieg einen deutlichen Knick

    (Elbow) aufweist, liegt bei der gegebenen Objektmenge die optimale Clusteranzahl

    vor (ebd.). BERGS (1980: 97) zeigte, dass der Scree-Test (oder auch das Elbow-

    Kriterium) bei den hierarchischen Algorithmen vor allem beim Ward-Verfahren die

    richtige Clusteranzahl signalisiert. Da jedoch dieser Knick nicht immer graphisch zu

    identifizieren ist, kann eine Tabelle mit den Koeffizienten (Fehlerquadratsummen)

    bei den einzelnen Fusionierungsschritten weiteren Aufschluss ber die optimale

    Elbow

  • 3 Methodische Grundlegung

    28

    Gruppenanzahl geben.28 Das Dendogramm kann parallel zum Scree-Test bei der

    Bestimmung der optimalen Gruppenanzahl verwendet werden. Es wird allerdings mit

    zunehmender Stichprobengre immer unbersichtlicher. Die Entscheidung fr die

    Anzahl der Cluster sollte jedoch nicht nur auf statistisch-mathematische Kriterien

    (Homogenittsanforderungen) beruhen, sondern vor allem aus der

    Handhabbarkeit bzw. der sachlogischen Interpretation der Clusterlsung

    resultieren (BACKHAUS et al. 2003: 521).29

    Nachdem die beste Clusteranzahl ermittelt wurde, wird dieses Ergebnis, wie oben

    dargestellt, mit einer Clusterzentrenanalyse (K-Means) optimiert (vgl. Abbildung 9).

    Im Anschluss erfolgt die berprfung der Clusterlsung. Dabei unterteilt man drei

    Bereiche zur Clustervalidierung (VAZIRGIANNIS et al. 2003: 95-123; WEDEL et al.

    2003: 59f.):

    - externe

    - interne

    - relative Kriterien

    Die externen Kriterien vergleichen die ermittelte Clusterstruktur mit der

    tatschlichen (VAZIRGIANNIS et al. 2003: 98-101). In vielen Untersuchungen, sowie

    auch im empirischen Teil dieser Arbeit, sind jedoch die wahren Gruppen nicht

    bekannt. Deshalb wird dieses Kriterium hier nicht weiter betrachtet.

    Anhand der internen Kriterien wird das Ausma der Homogenitt (Varianz)

    innerhalb der Cluster gemessen. Als Gtema stehen hier der F-Wert und eta zur

    Verfgung. Der F-Wert kann, sowohl fr jede Variable ber alle Gruppen, als auch

    fr jede Variable innerhalb eines Cluster berechnet werden. Bei der Ermittlung des

    F-Wertes fr eine Variable innerhalb einer Gruppe gilt (BACKHAUS et al. 2003: 533):

    28 Die meisten statistischen Programme (z. B. SPSS, ClustanGraphics) geben bei der Clusterlsung

    ein Dendogramm und eine Tabelle mit den Fehlerquadratsummen (Koeffizienten) an. Ein Scree-Test-Diagramm kann jedoch nur mit Hilfe dieser Tabelle in z. B. Excel erstellt werden.

    29 Dieser Konflikt bezieht sich z. B. auf Marktsegmentierungen. Denn eine zu groe Anzahl an Gruppen wrde die Gefahr der Oversegmentation und den damit im Marketing verbundenen zustzlichen Kosten mit sich bringen (KNIG 2001: 113).

  • 3 Methodische Grundlegung

    29

    V(J,G)FV(J)

    =

    mit

    V(J,G) = Varianz der Variablen J in Gruppe G V (J) = Varianz der Variablen J in der Erhebungsgesamtheit

    Je kleiner der Quotient aus der Streuung einer Variablen in einem Cluster und der

    Streuung dieser Variablen in der Grundgesamtheit ist, desto homogener ist die

    Gruppe in Bezug auf die betrachtete Variable. Wenn alle Variablen einen F-Wert von

    kleiner als eins aufweisen, gilt dieses Cluster als vollkommen homogen (BACHER

    1996: 334). Der F-Wert einer Variablen ber alle Gruppen berechnet sich

    entsprechend der Formel (7). Die Nullhypothese lautet dabei: Die Mittelwerte der

    Variablen sind in allen Gruppen gleich. Kann diese Hypothese nicht abgelehnt

    werden, dann liegt kein signifikanter Unterschied zwischen den Mittelwerten der

    Variablen in den Clustern vor.30 Analog zu R in der Regressionsanalyse bietet sich

    als weiteres Gtekriterium innerhalb der Varianzanalyse das Assoziationsma eta

    an.31 Es handelt sich dabei um ein spezielles Gtema fr den Fall, dass die

    unabhngige Variable (Cluster) nominalskaliert und die Abhngige (aktive oder

    passive Variable) mindestens intervallskalierte ist (JANSEN et al. 2003: 321-326;

    BACHER 1996: 334).32

    2 erklrte VarianzGesamtvarianz

    =eta

    Nach Formel (14) gibt eta darber Auskunft, wie viel Prozent der Streuung einer

    Variablen auf die Unterschiede zwischen den Clustern zurckzufhren sind. Oder

    anders gesagt, eta zeigt den Anteil der Varianz der abhngigen Variablen an, der

    durch die unabhngigen Variablen erklrt wird (BACHER 1996: 335; JANSEN et al.

    30 Das Ergebnis der Standardisierung der Quadratsummen (SS = Sum of Squares), also der Division der SS durch die Freiheitsgrade entspricht dem Mittel der Quadrate (MS = Mean Squares).

    31 Hinweise zur Terminologie: Fehlerquadratsumme = nicht erklrte Varianz (Streuung) = Varianz innerhalb der Gruppen = Innengruppenvarianz = Fehlervarianz = Residual Sum of Squares; Erklrte Varianz = Varianz zwischen den Gruppen = Explained Sum of Squares; Gesamte Streuung = Total Sum of Squares

    32 Die unhabhngige Variable kann jedes Skalenniveau annehmen.

    (13)

    (14)

  • 3 Methodische Grundlegung

    30

    2003: 325). Der Mittelwert von eta (Gesamt eta) aus mehreren Variablen gibt an,

    wie viel Prozent der Varianz der Variablen durch die Unterschiede zwischen den

    Gruppen erklrt wird (KAMINSKI et al. 2004: 24). Mit dem Eta-Koeffizienten lsst

    sich die Beziehung zwischen den Variablen beschreiben. Er zeigt an, wie sehr sich

    die Mittelwerte der clusterbildenden Variablen zwischen den verschiedenen Gruppen

    unterscheiden. Unterscheiden sie sich stark und ist auerdem die Varianz der

    einzelnen Gruppen gering, tendiert eta gegen 1. Unterscheiden sie sich gar nicht,

    tendiert er gegen 0. Eta entspricht der Wurzel aus eta und kann wie der

    Korrelationskoeffizient r interpretiert werden (JANSEN et al. 2003: 245ff.).33

    Variablen, die nach dem F-Test oder eta keinen signifikanten Beitrag zur Trennung

    der Gruppen leisten, sollten nicht als clusterbildene Variablen verwendet werden, da

    diese ansonsten das Ergebnis einer Clusteranalyse verzerren wrden (BACHER 1996:

    335). Zur nheren berprfung des Einflusses (Wirkungsanalyse) der aktiven und

    passiven Variablen auf die gebildeten Cluster, kann eine multinomial-logistische-

    Regressionsanalyse verwendet werden.34

    Als letztes werden im Rahmen der Validittsprfung die relativen Kriterien

    aufgezeigt. Diese dienen fr die berprfung der Stabilitt bzw. Generalisierbarkeit

    (Stichprobenabhngigkeit) der Clusterlsung (BORTZ 2005: 580; Knig 2001: 115).

    Die Objektmenge wird dabei zufllig in zwei oder mehrere gleich groe

    Teilstichproben getrennt. Anschlieend werden auf diese Teilmengen verschiedene

    oder gleiche Clusteralgorithmen angewendet (replizierte Clusteranalysen). Die

    Gruppenlsungen werden dann auf bereinstimmungen hin berprft (BORTZ 2005:

    581). Diese Vorgehensweise soll die Vielfalt von unterschiedlichen Cluster-

    algorithmen bercksichtigen. Zur Beurteilung der bereinstimmungen kommen

    dabei verschiedene Gtemae in Betracht (ebd.: 581-583; KNIG 2001: 115):35

    33 Die Zuordnung von eta in die internen Kriterien erfolgt aufgrund seiner varianzanalytischen

    Betrachtung. 34 Die multinomial-logistische-Regressionsanalyse wird jedoch nicht im empirischen Teil dieser

    Arbeit eingesetzt. Einen berblick ber dieser Verfahren zeigen unter anderem BACKHAUS et al. (2003: 417-477) und SPSS (2003e).

    35 Weitere hier nicht betrachtete Gtemae sind der Rand- und der Jaccard-Index (BORTZ 2005: 582; KNIG 2001: 115; GIERL et al. 2001: 129).

  • 3 Methodische Grundlegung

    31

    - Prozentsatz bereinstimmender Zuordnungen

    - Kappa-Ma

    - Diskriminanzanalyse

    Das einfachste Gtema betrachtet den prozentualen Anteil der bereinstimmenden

    Zuordnungen (JANSEN et al. 2003: 248):

    MV

    =

    mit:

    M = Zahl der bereinstimmungen V = Zahl der Vergleiche

    Bei diesem Ma wird jedoch nicht der mgliche Anteil an zufllig richtig

    zugeordneten bereinstimmungen bercksichtigt. Dieser komplexere

    Zusammenhang wird mit dem Kappa-Ma einkalkuliert (BORTZ 2005: 581f.; JANSEN

    et al. 2003: 249):

    E

    E

    1

    =

    mit:

    = Anteil der tatschlich beobachteten bereinstimmungen E = Anteil der erwarteten bereinstimmung

    Der Anteil der erwarteten bereinstimmungen berechnet sich durch (ebd.):

    ( )k

    2E i

    i 1 p

    =

    =

    mit:

    ip = relativer Anteil der einzelnen Ausprgungen an der Gesamtzahl der Flle k = Zahl der Ausprgungen

    (15)

    (16)

    (17)

  • 3 Methodische Grundlegung

    32

    Das Kappa-Ma kann maximal den Wert von 1 erreichen. Nur, wenn der Anteil an

    bereinstimmungen grer ist als der Anteil an zuflligen bereinstimmungen,

    nimmt Kappa positive Werte an. Im umgedrehten Fall weist Kappa negative Werte

    auf. (KNIG 2001: 116).

    Die Diskriminanzanalyse ist ein eigenstndiges multivariates Verfahren und bietet

    die Mglichkeit die Clusterlsung sowie die clusterbildenden Variablen zu

    berprfen (BORTZ 2005: 583; WIEDENBECK et al. 2001: 17). Auf Grundlage der

    Clusterlsung wird eine Diskriminanzfunktion geschtzt, die eine maximale

    Trennung der Cluster ermglicht. Anschlieend werden die Objekte nach der

    Bedingung der Diskriminanzfunktion den Gruppen neu zugeordnet. Die

    Diskriminanzkoeffizienten werden dabei hnlich der Regressions- oder

    Varianzanalyse, durch die Optimierung des Verhltnisses zwischen der erklrten

    Streuung (Varianz zwischen den Clustern) und der nicht erklrten Streuung (Varianz

    innerhalb der Cluster) berechnet. Die letztendliche bereinstimmung zwischen dem

    Gruppierungsergebnis der Diskriminanz- und der Clusteranalyse, kann als relatives

    Validittskriterium verwendet werden (BACKHAUS et al. 2003: 155-227, BROSIUS et

    al. 1996: 771-813; JANSEN et al. 2003: 439-456)36.

    Die abschlieenden Schritte der Clusteranalyse sind die Interpretation bzw. die

    Charakterisierung und die Beschreibung der einzelnen Gruppen (vgl. Abbildung 9).

    Dafr eigenen sich vornehmlich die t-Werte, welche einzeln fr jede Variable

    innerhalb einer Gruppe berechnet werden (BACHER 1996: 330; BACKHAUS et al.

    2003: 534):

    X(J,G) X(J)tS(J)

    =

    mit

    X(J,G) = Mittelwert der Variablen J ber die Objekte in Gruppe G X(J) = Gesamtmittelwert der Variablen J in der Erhebungsgesamtheit

    36 Weitere Ausfhrungen zur Diskriminanzanalyse finden sich bei BACKHAUS et al. (2003: 155-

    227), BROSIUS et al. (1996: 771-813) und JANSEN et al. (2003: 439-456).

    (18)

  • 3 Methodische Grundlegung

    33

    S(J) = Standardabweichung der Variablen J in der Erhebungsgesamtheit

    Positive bzw. negative t-Werte zeigen an, dass der Mittelwert einer Variablen

    innerhalb eines Clusters ber- bzw. unter dem Mittelwert der Erhebungsgesamtheit

    dieser Variablen liegt (ebd.).37 Nur eine Clusterlsung, die durch eine Interpretation

    logisch nachvollziehbar ist, erweist sich als sinnvoll. Fr die Beschreibung der

    einzelnen Gruppen sollten neben den clusterbildenden bzw. aktiven Variablen auch

    die nicht in die Clusterbildung eingeschlossenen Variablen (passive Variablen), die

    signifikante Unterschiede zwischen den Clustern aufweisen, herangezogen werden

    (KNIG 2001: 117).

    Insgesamt bietet die Clusteranalyse dem Nutzer durch die Vielzahl von

    Proximittsmaen und Algorithmen ein breites Anwendungsfeld. Dieses bedeutet

    aber auch gleichzeitig eine starke subjektive Beeinflussung. Die besonders durch die

    Auswahl der clusterbildenden Variablen und die Entscheidung fr die Anzahl der

    Gruppen erhht wird. Deshalb sollte gegenber Dritten eine umfassende

    Offenlegung, in Bezug auf die Ablaufschritte (vgl. Abbildung 9) und die damit

    verbundenen Entscheidungen des Anwenders, innerhalb der Clusteranalyse erfolgen.

    37 Die t-Werte stellen eine normierte Gre dar.

  • 3 Methodische Grundlegung

    34

    3.2 Knstliche Neuronale Netze

    3.2.1 berblick ber Neuronale Netze

    Ursprnglich wurden knstliche Neuronale Netze (KNN, artificial neural networks,

    ANN) entwickelt, um die neurobiologischen Prozesse innerhalb des Nervensystems

    bei Tieren und Menschen besser begreifbar zu machen. Dieser Ansatz wird unter der

    Terminologie des Konnektionismus zusammengefasst (Hoffmann 2004: 48). Das

    Paradigma des Konnektionismus besagt, dass Informationsverarbeitung als

    Interaktion einer groen Zahl einfacher Einheiten (Zellen, Neuronen) angesehen

    wird, die anregende oder hemmende Signale an andere Zellen senden (Zell 2003:

    26).38 Seit dem Ende der 80er Jahre des zwanzigsten Jahrhunderts entwickelte sich

    neben diesem neurobiologisch orientierten Forschungszweig ein eigener nur auf

    statistische Problemstellungen bezogener anwendungsorientierter Zweig (PODDIG et

    al. 2001: 363).39 In dieser Arbeit wird der Terminus der KNN nur im Zusammenhang

    mit der statistischen Forschungsrichtung weiter verwendet.

    Neuronale Netze knnen wie die multivariaten Verfahren als eine eigenstndige

    Verfahrensklasse mit vielen verschiedenen Typen (Verfahren) von KNN angesehen

    werden (BACKHAUS 2003: 742; PODDIG et al. 2001: 364). Diese Typen der

    Neuronalen Netze ermglichen es aber, hnliche statistische Problemsituationen wie

    in der multivariaten Statistik zu analysieren (Strukturentdeckung und

    Strukturabbildung). Die Literatur verwendet jedoch bei der Anwendung dieser

    beiden Verfahrensklassen (multivariate Statistik und KNN) unterschiedliche

    Fachtermini (vgl. Tabelle 2).

    38 Einen ausfhrlichen berblick ber die Historie KNN zeigen STRECKER et al. (1997: 9-12) und

    ZELL (2003: 28-33). LENZ et al (1995) stellt die Begriffsdefinitionen der Neuronalen Netze und der knstlichen Intelligenz nher dar.

    39 Beide Forschungsrichtungen fallen unter dem Begriff der Knstlichen Intelligenz (KI)

  • 3 Methodische Grundlegung

    35

    Tabelle 2: Terminologie der KNN im Vergleich zu den multivariaten Verfahren

    Quelle: Eigene Darstellung in Anlehnung an ANDERS 1996: 164

    In den folgenden Kapiteln wird zunchst ein berblick ber die Grundstruktur und

    die Funktionsweise Neuronaler Netze gegeben. Anschlieend werden zwei Typen

    von Neuronalen Netzen nher betrachtet, die Multi-Layer-Perceptrons und die Self-

    Organizing-Maps. Danach werden die spezifischen Eigenschaften der KNN im

    Vergleich zu den multivariaten Verfahren dargestellt.

    Im Vergleich zu der multivariaten Statistik wurde in der Literatur nur wenig zu der

    praktischen Vorgehensweise und Anwendung von KNN verfasst. Dementsprechend

    beruhen die hier dargestellten Verfahrensablufe zum Teil auf einer eigenen

    methodischen Erforschung im Rahmen dieser Arbeit.40

    3.2.2 Grundstruktur und Funktionsweise Neuronaler Netze

    Da die KNN ursprnglich dazu entwickelt wurden, biologische Lernprozesse besser

    darzustellen, bietet es sich zunchst an, die Informationsverarbeitung einer

    natrlichen Nervenzelle (Neuron) nher zu erlutern und diese dann der

    40 Anwenderbezogene Literatur fr multivariate Verfahren finden sich z.B. bei BACKHAUS et al.

    (2004); BORTZ (2005); BROSIUS (2004); RUDOLF et al. (2004) und JANSEN et al. (2004). Anwenderbezogene Literatur fr MLP Verfahren findet sich z.B. bei ALEX (1998); BACKHAUS et al. (2003) und WIEDMANN (2003).

  • 3 Methodische Grundlegung

    36

    Funktionsweise eines knstlichen Neurons gegenberzustellen. Nach Schtzungen

    besteht das menschliche Gehirn aus ca. 100 Milliarden Nervenzellen (ZELL 2003:

    35). Jede einzelne Nervenzelle (vgl. Abbildung 13) setzt sich aus dem Zellkrper

    (Soma) mit Zellkern (Nucleus), einer Nervenfaser (Axon) und vielen Dendriten

    zusammen. Die Verbindung zwischen Axon und Dendriten wird durch die Synapsen,

    die mit vielen verschiedenen Nervenzellen miteinander verbunden sind, realisiert

    (ebd. 37).

    Abbildung 13: Schematische Darstellung einer Nervenzelle

    Quelle: Eigene Darstellung in Anlehnung an ANDERSON et al. 1992; ZELL 2003: 36

    ber die Dendriten empfangene hemmende oder erregenden Signale werden an den

    Zellkrper weitergeleitet und aufaddiert. Haben die Signale einen bestimmten

    Schwellenwert berschritten wird der Zellkern aktiviert, die Signale analysiert,

    ausgewertet und schlielich ber das Axon durch einen kurzfristigen elektrischen

    Impuls weitergeleitet. Dieser Impuls wird dann durch die Synapsen an die Dendriten

    der nachgeschalteten Neuronen bertragen. Durch die Anpassung der Verbindungen

    (Synapsen) zwischen den Nervenzellen erfolgt der biologische Lernprozess. Das

    heit, mit zu-, bzw. abnehmenden Nutzungsgrad der Synapsen wachsen oder

  • 3 Methodische Grundlegung

    37

    degenerieren diese (ebd.: 35-38).41 Neben der Eigenschaft der Lernfhigkeit besitzt

    das Nervensystem sowie das KNN die Fhigkeit auf Signale der Umgebung

    (Stimulus) zu reagieren (Response) (BACKHAUS et al. 2003: 740). Abbildung 14

    verdeutlicht diesen Zusammenhang mit dem Stimulus-Organismus-Response-Modell

    (SOR-Modell).

    Abbildung 14: Das menschliche Nervensystem als SOR-Modell

    Quelle: BACKHAUS et al. 2003: 740

    Ein knstliches Neuron (Unit) lsst sich analog zu der biologischen Nervenzelle

    vereinfacht durch drei mathematische Rechenoperationen (Bildung des Inputs,

    Bildung des Aktivittsniveaus, Bildung des Outputs) abbilden (vgl. Abbildung 15).

    Abbildung 15: Allgemeines Modell eines knstlichen Neurons

    Quelle: Eigene Darstellung in Anlehnung an PODDIG et al.