data vault basisdatenbank modellierung für data …ubicomp/projekte/master... · motivation und...
Post on 04-Jun-2018
216 Views
Preview:
TRANSCRIPT
Data Vault – Basisdatenbank Modellierung für Data-Warehouse-
Systeme
Meik Sauerberg
Grundseminar WS 15/16
Betreuer: Prof. Dr. Wolfgang Gerken
Gliederung
I. Motivation und Anwendungsfälle
II. Data Warehouse
III. Data Vault
IV. Andere Modellierungsarten
V. Zielsetzung und Ausblick
VI. Konferenzen | Personen | Fachbereiche | Arbeitsgruppen
VII.Quellen
M-INF | GSM | Meik Sauerberg 2
Motivation und Anwendungsfälle
Wie bin ich zu Data Vault gekommen?
Interesse an Datenbanken Starkes Interesse an Data-Warehouse-Systemen
Fachbetreuer Gespräch Themenvorschlag durch Fachbetreuer: Data Vault
Themenwahl: Data Vault
Anwendungsfall: Basisdatenbank Modellierung für Data-Warehouse-Systeme
M-INF | GSM | Meik Sauerberg 3
Data Warehouse I
Definition nach W.H Inmon
„A data warehouse is a subject-oriented, integrated, nonvolatile, andtime-variant collection of data in support of management‘s decision.“
M-INF | Fach | Meik Sauerberg 4
[INM2005]
Data Warehouse II
„Thus, overall, we believe that research on DW Modeling and design ist far from being dead, …“
[SAJJ2006] Research in Data Warehouse Modeling and Design: Dead or Alive?
[AMP2011] COMPARISON PLAN FOR DATA WAREHOUSE SYSTEM ARCHITECTURES
M-INF | Fach | Meik Sauerberg 5
Data Vault
(relativ) neues Modellierungsschema für DW Entwicklung seit 1990, Deployment 2000
Dan Linstedt 600 Unternehmen Stand 2012 Kombination aus 3NF und Sternschema
Informationen eines Objektes werden in drei Kategorien eingeteilt
Strikte Trennung
M-INF | GSM | Meik Sauerberg 6
[INLI2014]
• Was ist Data Vault?
Data Vault - Entitäten
HUB
Kernobjekt
Speicherung eines Geschäftsschlüssels
Pro Hierachiestufe bzw. pro Entität existiert im Data Vault Datenmodell eine Hub-Tabelle
Metadaten der Hub-Tabelle Zeitstempel Sitzungs-ID Datenherkunft
M-INF | Fach | Meik Sauerberg 7
Data Vault – Entitäten II
M-INF | Fach | Meik Sauerberg 8
LINK
Abbildung von Beziehungen zwischen zwei oder mehreren Hub-TabellenReferenzen auf den Primärschlüssel der Hub-Tabelle
Metadaten Sitzungs-ID Fremdschlüssel Zeitstempel Datenherkunft
[LINK]
Data Vault – Entitäten III
M-INF | Fach | Meik Sauerberg 9
SATELLIT
Enthält keine Schlüssel
Beschreibung eines Objektes (HUB) und der Beziehung (Link)
Gruppierung nach der Änderungshäufigkeit
Attribute die sich normalererweise gar nicht ändern
Attribute die sich nur selten ändern
Attribute die sich sehr häufig ändern
Metadaten
Zeitstempel
Sitzungs-ID
Datenherkunft
Data Vault III
Vorteile
Trennung von Identitäten, Eigenschaften und Beziehungen
Inkrementell erweiterbar
Transparenz und zeitliche Nachvollziehbarkeit
Ideale Grundlage für agile Projekte
Nachteile
Bisher wenige wissenschaftliche Arbeiten zu Data Vault
Kleiner Kreis
Unübersichtlich
M-INF | GSM | Meik Sauerberg 11
[OCG]
Andere Modellierungsarten
3NF
Sternschema Denormalisiert
Bessere Verarbeitungsgeschwindigkeit
M-INF | GSM | Meik Sauerberg 12
[starwiki]
Andere Modellierungsarten II
Schneeflockenschema
Gleicher Aufbau
Mehr Dimensionshierachien
Verfeinert und normalisiert
Galaxy-Schema (Fact constellation schema)
Mehrere Faktentabellen, verknüpft mit
denselben Dimensionstabellen
M-INF | Fach | Meik Sauerberg 13
[JSM2011] Data Modeling Styles in Data Warehousing
[sflwiki]
[linearis]
Konferenzen
Data Vault-Konferenzen
Data Modeling Zone 2015 in Hamburg [DZM]
WWDVC (World Wide Data Vault Consortium) [WWDVC]
Allgemeine Konferenzen:
BigDataScience: Big Data Science and Computing (2014) [BDC]
ASBD: Architectures and Systems for Big Data (2011, 2012) [ASBD]
M-INF | GSM | Meik Sauerberg 14
Personen | Fachbereiche | Arbeitsgruppen
Wichtige Personen: Dan Linstedt, W.H Inmon, Hans Hultgren
GI-Fachbereich: DBIS – Datenbanken und Informationssysteme
Entwicklungsmethoden für Informationssysteme [DBIS]
ACM SIGMOD – SPECIAL INTEREST GROUP ON MANAGEMENT OF DATA [SIGM]
M-INF | Fach | Meik Sauerberg 15
[GI]
[SIG]
Zielsetzung und Ausblick
Grundseminar
Tieferes Verständnis von Data Vault
Vergleiche mit anderen Modellierungsschemata
Mögliche Problemstellungen
16 Grundlegende Regeln für Data Vault
Ausarbeitung eines Konzepts für das Grundprojekt
M-INF | GSM | Meik Sauerberg 16
Zielsetzung und Ausblick II
Grundprojekt
Basisdatenbank für ein Data-Warehouse-System Pentaho (PDI Data Vault Framework)
Stern-, Schneeflocken- oder Galaxyschema
M-INF | GSM | Meik Sauerberg 17
?
Quellen
Literatur[INLI2014] W.H Inmon Daniel Linstedt: Data Architecture: A Primer for the Data Scientist: Big Data, Data Warehouse
and Data Vault, 2014
[HHU2012] Hans Hultgren: Modeling the Agile Data Warehouse with Data Vault, 2012
[ABHG 2014] Andreas Bauer und Holger Günzel: Data-Warehouse-Systeme: Architetur, Entwicklung, Anwendung, 2014
[INM2005] William H. Inmon: Building the Data Warehouse, 2005
Paper[JSM2011] Data Modeling Styles in Data Warehousing V.Jovanovic, D. Subotic und S. Mrdalj, 2011
http://ieeexplore.ieee.org
[AMP2011] Abdolreza Hajmoosaei, Mehdi Kashfi und Punitha Kailasam: COMPARISON PLAN FOR DATA WAREHOUSE SYSTEM ARCHITECTURES, 2011 http://ieeexplore.ieee.org
[SAJJ2006] Stefano Rizzio, Alberto Abelló, Jens Lechtenbörger, Juan Trujillo: Research in Data Warehouse Modeling and Design: Dead or Alive? http://dl.acm.org/citation.cfm?id=1183515
[RJ2008] Ricardo Jorge Santos und Jorge Bernardiono: Real-Time Data Warehouse Loading Methodology http://dl.acm.org/citation.cfm?id=1451949
[JM1997] Joseph H. Hanson und Mary Jane Willshire: Modeling a Faster Data Warehouse http://ieeexplore.ieee.org/
[AA2015] Alberto Abelló: Big Data Design http://dl.acm.org/citation.cfm?id=2811235
M-INF | Fach | Meik Sauerberg 18
Keywords: Data Vault, Data Warehouse, Data Modeling, Data Warehouse schemas
Quellen II
Konferenzen und Arbeitsgruppen[DMZ] Data Modeling Zone 2015 in Hamburg http://www.datamodelingzone.eu/
[WWDVC] World Wide Data Vault Consortium http://wwdvc.com/
[BDC] BigDataScience: Big Data Science and Computing (2014) http://bigdata2014stanford.scienceengineering.org/
[ASBD] Architectures and Systems for Big Data (2011, 2012) http://acs.ict.ac.cn/
[SIGM] ACM SIGMOD – SPECIAL INTEREST GROUP ON MANAGEMENT OF DATA - http://www.sigmod.org/
[DBIS] GI-Fachbereich: DBIS – Datenbanken und Informationssysteme - Entwicklungsmethoden für Informationssysteme http://fb-dbis.gi.de/
Internetquellen[DVM] http://www.datavaultmodeling.de/
[DLS] http://danlinstedt.com/
[OCG] http://www.opitz-consulting.com/fileadmin/redaktion/veroeffentlichungen/factsheet/46-factsheet-data-vault_sicher.pdf
[tdan] http://tdan.com/data-vault-series-1-data-vault-overview/5054
M-INF | Fach | Meik Sauerberg 19
Keywords: Data Vault, Data Warehouse, Data Modeling, Data Warehouse schemas
Quellen III
Abbildungen[OCG] http://www.opitz-consulting.com/fileadmin/redaktion/veroeffentlichungen/factsheet/46-factsheet-data-vault_sicher.pdf
[DVK] http://www.devkass.de/?s=data+vault
[starwiki] https://de.wikipedia.org/wiki/Sternschema#/media/File:Star_Schema.png
[linearis] http://www.linearis.at/blog/2014/06/05/flex-reporting-release-5-0/
[sflwiki] https://de.wikipedia.org/wiki/Schneeflockenschema#/media/File:Snowflake_schema.png
[GI] http://www.gi.de/fileadmin/redaktion/GI-Logos/GI-Logo-text-2012_deutsch.png
[SIG] http://www.sigmod.org/about-sigmod/sigmod-logo
[LINK] http://de.dwhwiki.info/design/data-vault/entitaeten/link
M-INF | Fach | Meik Sauerberg 20
Keywords: Data Vault, Data Warehouse, Data Modeling, Data Warehouse Schemes
top related