business intelligence (bi)

30
FHTW Berlin Datenbanken Prof. Dr. Zschockelt Business Intelligence (BI) Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden des intelligenten Sammelns und Auswerten von Daten mit dem Ziel einen Mehrwert für die Unternehmenssteuerung zu erzielen. Das Messen der wich-tigsten Ist- Zustände (Key Performance Indicator) im Verbund mit analytischen Verfahren (OLAP, Data Mining) und daraus abgeleiteten Vorher-sagen (Forecasting) sollen den Produk- tivitätsfaktor "Informa-tion" maximal verwer- ten.

Upload: osmond

Post on 04-Jan-2016

54 views

Category:

Documents


0 download

DESCRIPTION

Business Intelligence (BI). FHTW Berlin Datenbanken Prof. Dr. Zschockelt. - PowerPoint PPT Presentation

TRANSCRIPT

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Business Intelligence (BI)Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden des intelligenten Sammelns und Auswerten von Daten mit dem Ziel einen Mehrwert für die Unternehmenssteuerung zu erzielen.

Das Messen der wich-tigsten Ist-Zustände (Key Performance Indicator) im Verbund mit analytischen Verfahren (OLAP, Data Mining) und daraus abgeleiteten Vorher-sagen (Forecasting) sollen den Produk-tivitätsfaktor "Informa-tion" maximal verwer-ten.

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Die Business-Intelligence-Pyramide

Hervor-ragende

Kapitalrendite

Zusammensetzung und Umsetzung

Wissen(Fähigkeit zum Beantworten aller

geschäftsrelevanten Fragen)

Erkenntnisse(gezielt, zeitnahe, vollständige, aber auch einfache Analyse)

Informationen(relevant, vollständig, kontextbezogen, zuverlässig, aktuell)

Daten(Integration, Bereinigung, Unternehmensmodellierung, Konsolidierung;

Transformation und Aggregation)

Quelle: frei nach IT-FOKUS 6/2003

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Data Warehouse

Ein Data Warehouse ist eine sachverhaltsbezogene, integrierte, unveränderliche und zeitraumbezogene Datensammlung zur Unterstützung von Managementent scheidungen.W. H. Inmon (USA 1996)

Mit dem Begriff Data Warehouse i.e.S. wird generell eine von den opera-tionalen DV-Systemen isolierte Datenbank umschrieben, die als unter-nehmensweite Datenbasis für alle Ausprägungen managementunter-stützender Systeme dient und durch eine strikte Trennung von operatio-nalen und entscheidungsunterstützenden Daten und Systemen gekenn-zeichnet ist.Mucksch, Behme (BRD 1997)

Ein Data Warehouse ist eine Sammlung von integrierten Informationen, welche von den betrieblichen operativen Systemen und anderen externen Datenquellen gewonnen werden. Der spezielle Zweck ist die Unterstützung von betrieblichen Entscheidungen, nicht betrieblichen Tätigkeiten.M. J. Corey, M. Abbey (USA 1997)

Es gibt sehr gute Portale, z. B.: http://www.datawarehousingonline.com/

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Grundlegende Architektur eines Data Warehouse( frei nach Quelle: Anahory/Murray: Datawarehouse, S. 59 )

AusführlicheInformationen

Zusammen-fassungsin-formationen

Meta-Daten

Archivierteausführliche

Informationen

Einfügem

anager

Abfragem

anager

Warehouse-Manager OLAP-Werkzeuge

OperationaleDaten

ExterneDaten

relational multidimensional(denormalisiert Star- bzw. Snowflake-Schema) (Cube)

Auswertung mittels OLAP(Online Analytical Processing)

ROLAP MOLAP (relationales OLAP) (multidimensionales OLAP)

HOLAP (hybrides OLAP)

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Speicherung im Data Warehouse

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Spezielle Data-Warehouse-Datenmodelle strukturieren das Data Warehouse (DWH)

Kernpunkt der Speicherung ausführlicher Data-Warehouse Informationen zu einem ausgewählten Thema ist immer

eine Faktentabelle mit zu analysierenden Messwerten.

Diese wird mit Dimensionswerten (vermutete Einflussgrößen auf die Entwicklung der Fakten) indiziert, um die Fakten aus unterschiedlichen Sichten analysieren zu können. Das daraus entstehende typische Schema des Modells wird Star-Schema (bzw. in erweiterter Form auch Star- oder Snowflake-Schema) genannt).

FaktDimension 1

Dimension 4Dimension 5

Dimension 3

Dimension 2

Dimension n

Legende: Faktentabelle

Star-Dimensionsdaten

Snowflake-Dimensionsdaten

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Starflake-Schema einer Datenbank Beispiel

Periode

Markt Vertrieb

Versand(Fakten)

Monat Quartal

Sommer-Saison

Produkt

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Beispiel einer Dimensionstabelle "Periode"

Schlüssel Bezeichnung Jahr Quartal Monat Saison

00001 Jan. 2000 2000 1 1 0

00002 Feb. 2000 2000 1 2 0

00003 Mär. 2000 2000 1 3 0

00004 Apr. 2000 2000 2 4 0

00005 Mai 2000 2000 2 5 1

00006 Jun. 2000 2000 2 6 1

… … … … … …

01007 Jul. 2001 2001 3 7 1

01008 Aug. 2001 2001 3 8 1

01009 Sep. 2001 2001 3 9 1

01010 Okt. 2001 2001 4 10 0

01011 Nov. 2001 2001 4 11 0

01012 Dez. 2001 2001 4 12 0

02001 Jan. 2002 2002 1 1 0

Spalten in Dimensionstabellen spiegeln Hierarchien wieder, z. B. Jahr Quartal Monat Bezeichnung aber auch Saison Jahr u.a.

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Hierarchien in Dimensionen

1. Ausgeglichene HierachienBeispiel Periode 1. Quartal Januar Februar März

2. Quartal April Mai Juni3. Quartal Juli August September4. Quartal Oktober November Dezember

Jahr Quartal MonatAnmerkung: Benennung der Hierarchien einfach.

2. Unausgeglichene HierachienBeispiel Abteilungsstruktur

Firmenkunden Großkunden KleinkundenPrivatkunden Region Süd Region NordÖffentlicher Dienst

Anmerkung: Benennung der Hierarchien schwierig.

2002

3. Unregelmäßige HierachienBeispiel Regionen

Land Region StaatAnmerkung: Benennung der Hierarchien einfach, aber bestimmte Hierarchie-stufen ggf. bedeutungslos für bestimmte Werte. Z. B. keine Region und kein Staat für Lichtenstein.

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Fragestellungen - Datenräume - Methoden

Fragestellung Raum Mathematische Disziplin

Welchen Preis hat Produkt 3497?

Datenraum Mengenlehre,Mengenalgebra

Welcher Umsatz wurde mit Produkt 3497 in Berlin im Monat Februar 2001 erzielt?

Multidimensionaler Raum Online Analytical Processing (OLAP):

Pivot Tabellen

Wie haben sich die Umsätze in den letzten drei Jahren verändert?

Varianzraum Data Mining:RegressionKorrelation

Welche Faktoren beeinflussen den Umsatz unserer Produkte in den Mittelmeerländern?

Raum der Einflussgrößen Data Mining:Entscheidungsbäume,

Cluster Analyse, Neuronale Netze

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Typisierung von OLAP-Abfragen

rotate ("Drehen" des OLAP-Würfels) Es interessiert der Zusammenhang einiger ausgewählter Dimensionen .

slice ("Ausschneiden" von Ebenen aus dem OLAP-Würfel) Eine Dimension wird auf einen interessierenden Wert eingeschränkt.

dice ("Abteilen" von Teilwürfeln aus dem OLAP-Würfel)Einschränkung der Dimensionen auf einen ausgewählten Wertebereich.

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Zur Methodik der Pivot-Tabelle(am Beispiel MS-Excel)

FaktenDimension 1 (vertikal)

Dimension 3 (Blatt) Dimension 2 (horizontal) Quelldaten

Fakten (Measures) Dimension Roll-up Drill-Down

1000 € Produkt A 1000 € 1000 €

960 € Produkt B 960 € 960 €

5345 € Produkt gruppe 1 5345 € 5345 €

2020 € Produkt E

450 € Produkt F

4600 € Produkt gruppe 2 4600 € 4600 €

123560 € Produkt-kategorie X

123560 € 123560 €

876500 € Gesamt 876500 € 876500

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Navigieren in multidimensionalen Speichern

Roll-up vom Detail zur AggregationDrill-down vom Aggregat zum Detail

OLAP-Datenbank Relationale Datenbank

Art der Abfrage analytisch transaktionsorientiert

Abfragesprache Herstellerspezifisch, zukünftig standar-disiert durch das OLAP-Council und Microsofts OLE DB for OLAP

Structured Query Language (SQL)

Abfragegeschwin-digkeit

vorhersagbar schnell nicht vorhersagbar

Berechnungsmög-lichkeiten

umfangreich und über mehrere Dimensionen (Cross Dimensional)

begrenzt

Update-Mechanismus

zyklisch Echtzeit

Speicherform mehrdimensional zweidimensional

Wachstum der Daten

Abhängig von der Dichte der Daten, daher schwierig vorhersagbar

einfach vorhersagbar

Technisches Symbol

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Gegenüberstellung OLAP/RDBMS

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Datentransformation mit ETL-Tools

Data WarehouseData Mart

OLTP-Datenbank

ETLExtract

TransformLoad

Datenquellen Ziel-Datenbank

ETL-Tools dienen zur Migration von Quelldaten in eine andere Datenressource in der Regel innerhalb einer analytischen Umgebung.

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Merkmale des ETL-Prozesses

Merkmal Ausprägung Beschreibung

Art der Extraktion

volle ExtraktionExtraktion aller in einem Quellsystem vorhandenen Datensätze

Delta-ExtraktionEinlesen eingefügter oder aktualisierter Datensätze

Extraktionsszenario

Push-SzenarioInitiator des ETL-Prozesses ist das Quellsystem

Pull-SzenarioInitiator des ETL-Prozesses ist das Data Warehouse

Warte-/Ladezeit

synchrone Extraktion Extraktion der Datensätze in Real-time

asynchrone ExtraktionDatensätze werden gespeichert und später weitergeleitet

asynchrones Batchingerfolgt auf Abruf, ereignisgesteuert oder per zeitlicher Einplanung (Scheduling)

Gültigkeitsbereich der Daten

MappingProjektion aller Datensätze der Quellsysteme

Selektion Auswahl analyserelevanter Daten

Aggregation festgelegte Granularitätsstufe

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Ausgewählte Analysewerkzeuge für BI

Anbieter Produkt WWW

Arcplan inSight/dynaSight www.arcplan.de

Business Objects

BusinessObjects/ OLAP@Work

www.businessobjects.com

Cognos NowaView/PowerPlay www.cognos.de

Comshare DecisionWeb www.codec.de

Hyperion Wired for OLAP www.hyperion.de

Information Builders

WebFOCUS www.informationbuilders.com

Intellicube Software AG

OnVision www.intellicube.de

Knosys ProClarity www.dcsoft.de

Microsoft MS-Excel 2000 www.microsoft.de

MIS AG Decisionware www.mis.de

Seagate Software

Info www.seagatesoftware.com

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Business Objekts Enterprise Beispiel eines BI-Tools

Quelle: IT-FOKUS 6/2003

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Portale als Data Warehouse Client

Beispiel BA: http://www.hyperwave.com/d/references/ba.html

Ziel: Kombination von Data Warehouse-, Analyse- und Reporting-Lösungen auf Basis einer integrierten Portalstruktur.

• Technologische Integration von OLTP- und Data Warehouse-Systemen.

• Online-Verfügbarkeit des Data Warehouse.• Abrufbarkeit von unterschiedlichen Endgeräten;

Wiedererkennungseffekte.• Angemessene Sicherheit bei parallelen Zugriffsmöglichkeiten.

Anforderungen

Portal-Framework (z. B. zur Personalisierung ). Einbindung heterogener Datenquellen durch Portlets. Endnutzergerechte BI-Tools. Data-Warehouse-Basisstruktur.

IT-Infrastruktur

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Beispiel InSight Marktführer der BI-Tools

Aus der MS-OLAP-Server-DEMO footmart werden ausgewählte Sichten (rechte Seite) als Grafik angezeigt. Quelle: http://www.dynasight.com/ von Arcplan.

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Übersicht über relevante Data Warehouse Anbieter

Anbieter Produkt WWW

Cognos BI Platform www.cognos.de *.com

Hyperion Hyberion Essbase www.hyberion.de *.com

IBM Visual Warehouse www.ibm.de

Information Builders SmartMart www.informationbuilders.com

Informix Informix MetaCube ROLAP www.informix.com

Microsoft OLAP- / Analysis Services www.microsoft.de *.com

MicroStrategy MicroStrategy www.microstrategy.com

NCR TeraData www.ncr.com

Oracle Express www.oracle.de

Pilot DSS Suite www.pilotsw.com

SAP Business Warehouse www.sap.de

SAS SAS System www.sas.com

Seagate Software Holos www.seagatesoftware.com

Sybase Sybase Warehouse Studio www.sybase.com

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

 Marktübersicht Data Warehouses  (Computer Zeitung Ausgabe 09/2004)

  Anbieter Hersteller Produktname Web-Adresse Installationszahl (D/USA)

  Aruba Informatik Aruba Informatik EIS / EIP www.aruba-informatik.de ca. 350 Installationen gesamt

  Bytesteps Bytesteps Olymp www.bytesteps.net auf Anfrage

  Group 1 Software Group 1 Software Sagent Solution www.group1.de 100 (Deutschland), 2.000 (weltweit)

  Informatica Informatica Powercenter www.informatica.com/de 500 (Deutschland), 5.000 (weltweit)

  MicroStrategy Deutschland MicroStrategy MicroStrategy 7i www.microstrategy.de keine Angabe

  MID MID Innovator www.mid.de auf Anfrage

  m:pro IT Consult m:pro IT Consult m:odm/m:pro object Data Model www.mpro.de 30

  Oracle Oracle Oracle Data Warehouse www.oracle.com/de keine Angabe

  Orenburg Orenburg Board M.I.T. www.board.de > 1.000

  PeopleSoft PeopleSoft Enterprise Warehouse www.peoplesoft.de keine Angabe

  Retek Deutschland Retek Deutschland Retek Data Warehouse www.retek.com ca. 50

  Samac Software Samac Software Dyna Server/400 www.samac.de keine Angabe

  Samac Software Samac Software Dyna Server/Windows www.samac.de keine Angabe

  Samac Software Samac Software Mining Server/400 www.samac.de keine Angabe

  Samac Software Samac Software MIT/400 www.samac.de keine Angabe

  Scopeland Technology Scopeland Technology Scopeland 2000 (DW) www.scopeland.de ca. 100

  Teradata, a division of NCR Teradata Teradate Warehouse Miner www.teradata.com 100 Kunden weltweit

  Transaction Software Transaction Software Transbase Hypercube www.transaction.de keine Angabe

Alle Daten beruhen auf Angaben der Hersteller oder Distributoren.Für die Richtigkeit der Daten wird keine Haftung übernommen. (c) AWi Verlag 1999-2004.

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Typische betriebliche Data-Warehouse-Umgebung

Data Marts für Abteilungen

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Anwendungsszenarien für Data Mining

Data Mining bietet eine Reihe von Methoden, die je nach Aufgabe und Fragestellung zum Einsatz kommen, um bisher verborgene Zusammenhänge in der Datenbasis aufzudecken.

Aufgaben desData Mining

Methoden desData Mining

BeispielhafteFragestellungenPrognosemodell Response-Wahr-

scheinlichkeit

Identifikationertragreicher

Segmente

Analyse von Kaufmustern

CustomerProfiling

Prognose

Segmentierung und

Kategorisierung

Assoziations-analyse

Klassifikation

NeuronaleNetze

Entscheidungs-bäume

Cluster-verfahren

Assoziations-verfahren

in MS-SQL-Server 2000 Analysis Services implementiert.

Beispielhafte Fragestellungen

Aufgaben des Data Mining

Methoden des Data Mining

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Prinzip des Training und der Vorhersage

"Training des Modells"

Einflussdaten Vorhersagedaten

Falldaten

Häufigkeiten

Vorhersage (apply)

Klassenbildung (build)

Ein Modell wird trainiert, auf Basis der ermittelten Wahrscheinlichkeiten werden Vorhersagedaten berechnet.

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

MS-Analysis-Services Begriffswelt

• Ziel eines Dataminingmodells ist das Erkennen von Mustern in einer datenbank-gespeicherten Datenmenge (= trainieren); zum Beispiel das Erkennen des Musters, nach dem Kunden ihre Kundenkarten auswählen.

• Um die für die Mustererkennung erforderlichen Daten auswerten zu können, muss eine Tabelle (Dimension) ausgewählt werden, welche die zu untersuchenden Fälle enthält (Fallschlüsseltabelle). Nach der Data Warehouse Begriffswelt sind die zu untersuchen-den Fälle immer Bestandteil einer Dimension (nicht der Fakten).

• Ein Fall bezeichnet die Datensammlung, aus der eine zu analysierende Einheit besteht (z. B. die Daten eines Kunden).Er wird durch die Fallschlüsselspalte (z. B. Kunden-ID) identifiziert.

• Eine Eigenschaft des Falls (Vorhersagbare Spalte(n)) ist auszuwählen. Für diese sollen verursachende Eingabewerte ermittelt werden.

• Dafür stehen unterschiedliche Methoden zur Verfügung: "Microsoft Decision Trees" für die Berechnung von Entscheidungsbäumen. "Microsoft Clustering" ("Nearest Neighbor-Verfahren") für die Clusteranalyse (hierbei entfallen vorhersagbare Spalten).

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

MS-Analysis-Service Plus und Minus

• Erweiterung der DB-Funktionalität

• Transfermöglichkeit des Mo-dells auf andere Datenquellen

• Gemeinsame Bedienoberfläche mit OLAP-Tools

• Enge Integration mit OLAP-Speicher und RDBMS MS-SQL-Server 2000

• Gute Dokumentation, inklusiveAnwendungsbeispiel

• Geringer Methodenvorrat

• Schlichte Ergebnisprä-sentation

• MS OLE DB Provider for Data Mining Services un-ausgereift.

+ -

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Bewertung von Data Mining Plattformen durch Gartner Group

Abilityto

Execute

Oracle

SAP SAS Information Builders

Microsoft

Hyperion

Seagate Comshare

Pilot Software

CA/Platinum Gentia

Sagent

AlphaBlox

Panorama Arcplan

Niche Player Visionaries

Completeness of Vision

Challengers Leaders

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Spezialisten machen Data Mining wahrnehmbar

Beispiel SPSS( http://www.spss.de )

Das Konzept des Predictive Analytics

soll aus der Analyse des Vergangenen Modelle für die Zukunft generieren.

"Predictive analytics connects data to effective action by drawing reliable conclusions about current conditions and future events. "

FHTW Berlin Datenbanken Prof. Dr. Zschockelt

Produktübersicht SPSS                        

Statistik

SPSS Produktlinie

SPSS WebApp    

   

Data Mining

AnswerTree

Clementine

LexiQuest

   

Business Intelligence

OLAP Hub

Showcase® Solutions

                       

Predictive Analytic Applications

DataDistilleries

Market Research

SPSS MR Dimensions

NetGenesis    

Predictive Web Analytics    

SPSS Predictive Marketing    

   

Components

Analytical components