Data Warehouse (DWH): Ihr Datenlager

22/07/2018

★★★★★Rating: 4.95 (3939 votes)

In der heutigen datengetriebenen Geschäftswelt ist die Fähigkeit, Informationen aus verschiedenen Quellen schnell zu sammeln, zu analysieren und für Entscheidungen zu nutzen, entscheidend. Hier kommt das Konzept eines Data Warehouses ins Spiel. Ein Data Warehouse, oft abgekürzt als DWH, ist ein spezielles Datenhaltungssystem, das darauf ausgelegt ist, operative und externe Daten für analytische Zwecke zu integrieren und aufzubereiten. Es dient als zentrale, einheitliche und konsistente Datenbasis, die idealerweise alle Arten von Entscheidungsunterstützungssystemen im Unternehmen versorgt.

https://www.youtube.com/watch?v=ygUfI3dhcmVob3VzZV9zZXJ2aWNlX2ludHJvZHVjdGlvbg%3D%3D

Ein Data Warehouse unterscheidet sich grundlegend von den Systemen, die die alltäglichen Geschäftsprozesse (operative Systeme wie ERP oder CRM) abbilden. Während operative Systeme für schnelle Transaktionen optimiert sind, ist ein DWH für komplexe Abfragen und Analysen optimiert. Es ist typischerweise eine Kernkomponente umfassender Business-Intelligence-Konzepte und wird zunehmend wichtiger, insbesondere aufgrund strengerer regulatorischer Anforderungen.

Was kostet ein Data Warehouse? — Basierend auf Ihren Antworten können die tatsächlichen Kosten für den Aufbau eines Data Warehouse zwischen 1,000 und 200 Millionen US-Dollar pro Jahr liegen.

Übersicht

Was genau ist ein Data Warehouse (DWH)?
Teilkomponenten eines DWH-Konzepts
DWH-Implementierungsansätze
Wie funktioniert ein Data Warehouse? Der Prozess
Data Warehouse vs. Data Lake
Der ETL-Prozess im Detail
Anwendungen und Nutzen eines Data Warehouses
Die Architektur eines Data Warehouse
Was kostet ein Data Warehouse?
- Wichtige Kostenkomponenten:
Ist ein Data Warehouse eine rentable Investition?
Wie baut man ein Data Warehouse auf?
Welche Rollen sind an einem DWH beteiligt?
Häufige Fragen zum Data Warehouse (FAQ)

Was genau ist ein Data Warehouse (DWH)?

Im Kern ist ein Data Warehouse ein System zur Speicherung dispositiver Daten, das von den operativen Datenbeständen getrennt ist. Dispositive Daten sind jene, die für die Entscheidungsfindung relevant sind. Das DWH integriert Daten aus einer Vielzahl von internen Systemen wie Kernbanksystemen oder Enterprise-Resource-Planning-Systemen sowie aus externen Quellen wie Börseninformationssystemen oder Systemen für externe Ratings. Das Ziel ist es, eine unternehmensweite, einheitliche und konsistente Datenbasis zu schaffen, die für alle Arten von Systemen der Entscheidungsunterstützung genutzt werden kann.

Die Definition eines Data Warehouses wurde maßgeblich von W.H. Inmon geprägt, der vier charakteristische Eigenschaften identifizierte:

Themenorientierung: Die Daten im DWH sind explizit an den Interessenslagen der Entscheidungsträger ausgerichtet. Operative und externe Daten werden so aufbereitet und transformiert, dass sie z.B. aus Kunden-, Produkt- oder Lieferantensicht analysiert werden können.
Integration: Daten aus unterschiedlichen Quellen werden im DWH zu einer inhaltlich widerspruchsfreien Sammlung zusammengeführt. Dies bedeutet, dass Inkonsistenzen und unterschiedliche Formate der Quellsysteme bereinigt werden.
Zeitraumbezug: Während operative Systeme Daten oft zeitpunktbezogen und transaktionsorientiert speichern, repräsentieren Daten im DWH in der Regel einen bestimmten Zeitraum (Tag, Woche, Monat). Dies ermöglicht historische Analysen und Trendbetrachtungen.
Nicht-Volatilität: Daten im DWH werden dauerhaft gespeichert und stehen für Analysen zur Verfügung. Sie werden in der Regel nicht mehr geändert, überschrieben oder gelöscht. Dies gewährleistet die historische Konsistenz der Daten.

Teilkomponenten eines DWH-Konzepts

Ein umfassendes DWH-Konzept besteht oft aus mehreren Komponenten, die sich in ihrem Detailgrad und ihrer Ausrichtung unterscheiden:

Core Data Warehouse (C-DWH)

Das Core Data Warehouse ist oft das Rückgrat des Konzepts. Es wird meist über sogenannte ETL-Prozesse (Extraktion, Transformation, Laden) direkt aus den Quellsystemen oder vorgeschalteten Operational Data Stores (ODS) befüllt. C-DWHs basieren häufig auf relationalen Datenbanken, sind applikationsneutral modelliert und können sehr große Datenmengen (Terabyte-Bereich) speichern.

Data Marts

Data Marts sind kleinere, themen- oder abteilungsspezifische Datenpools, die aus dem C-DWH abgeleitet werden. Sie sind für einen eingeschränkten Benutzerkreis aufgebaut und auf deren spezifische Anwendungsfelder zugeschnitten. Data Marts reduzieren die Komplexität und beschleunigen den Zugriff für spezifische Analysen.

Operational Data Store (ODS)

Ein ODS ist eine Vorstufe des C-DWH und beinhaltet aktuelle, transaktionsorientierte Daten aus verschiedenen Quellsystemen. Er stellt diese für spezielle Anwendungs- und Auswertungszwecke bereit. Im Gegensatz zum DWH verfügt ein ODS meist nicht über Mechanismen zur Historienbildung und stellt primär eine zeitpunktbezogene, volatile Datenhaltung dar. Ein ODS kann somit als konsistente Datenquelle für geschäftsprozessorientierte Anwendungssysteme dienen und gleichzeitig Daten für das DWH liefern.

DWH-Implementierungsansätze

Die Nutzung eines DWH im konkreten Analyseumfeld wird als Data Warehousing bezeichnet. Hierbei lassen sich grundsätzlich vier Varianten unterscheiden:

Klassisches Data Warehousing: Ermöglicht ausschließlich lesende Zugriffe auf das periodisch aktualisierte DWH. Dies ist die ursprüngliche Form und wird primär für standardisierte Planungs- und Kontrollsysteme genutzt.
Closed-loop Data Warehousing: Ermöglicht die Rückkopplung von Analyseergebnissen in operative oder andere dispositive Systeme. So können z.B. identifizierte Kundensegmente aus Analysen wieder in das CRM integriert werden, um Kampagnen zu steuern.
Real-time Data Warehousing: Bietet eine direkte, transaktionsnahe Datenversorgung des DWH, sodass Analysen auf harmonisierten Echtzeitdaten basieren. Relevant für zeitkritische Bereiche wie den Wertpapierhandel.
Active Data Warehousing: Baut auf Closed-loop auf und erweitert die Analysen um operative Komponenten, indem automatisierte Aktionen aufgrund spezifischer Datenkonstellationen ausgelöst werden. Unterstützt strukturierte, wiederkehrende Entscheidungssituationen, z.B. in der Logistik.

Diese Ansätze dienen unterschiedlichen betrieblichen Problemstellungen und können in leistungsfähigen DWH-Konzepten oft parallel realisiert werden, um den vielfältigen Anforderungen eines Unternehmens gerecht zu werden.

Wie baue ich ein Data Warehouse? — EIN DATA WAREHOUSE AUFBAUEN: GROBER ABLAUF-PLAN / FRAMEWORK1Identifikation und Ausformulierung der Anwendungsfälle (Stakeholder Research)2Erstellung Ziel-KPIs und Hierarchie (KPI-Tree)3Identifikation und Überprüfung entsprechender Datenquellen.4Definition der Architektur und der eingesetzten Lösungen / Software.

Wie funktioniert ein Data Warehouse? Der Prozess

Die Speicherung und Zusammenführung von Daten in einem zentralen DWH folgt einem mehrstufigen Prozess, der auch Data Warehousing genannt wird:

Schritt	Beschreibung
1. Datenbeschaffung und -integration	Daten aus Quellen extrahieren, transformieren und in das Data Warehouse laden (ETL-Prozess).
2. Datenhaltung	Langfristige Speicherung der aufbereiteten Daten im Data Warehouse.
3. Datenauswertung	Analyse der Daten mittels BI- und Analysetools.
4. Datenbereitstellung	Bereitstellung der Daten, oft über Data Marts, für spezifische Analysezwecke und Benutzergruppen.

Data Warehouse vs. Data Lake

Ein häufiges Missverständnis besteht in der Verwechslung eines Data Warehouses mit einem Data Lake. Obwohl beide große Datenmengen speichern, unterscheiden sie sich fundamental:

Merkmal	Data Warehouse (DWH)	Data Lake
Datenstruktur	Strukturiert, aufbereitet (Schema-on-Write)	Rohdaten, unstrukturiert, semi-strukturiert (Schema-on-Read)
Zweck	Analyse, Reporting, Business Intelligence (bekannte Anwendungsfälle)	Exploration, Data Science, Machine Learning (bekannte und unbekannte Anwendungsfälle)
Benutzer	Business Analysts, Entscheidungsträger	Data Scientists, Data Engineers
Datenqualität	Hoch, da transformiert und bereinigt	Variabel, Rohdaten
Kosten	Oft höher pro GB (wegen Aufbereitung)	Oft geringer pro GB (reine Speicherung)

Während das DWH aufbereitetes Wissen für die Analyse bereitstellt, ist der Data Lake eher ein riesiges Lager für Rohdaten, die erst bei Bedarf strukturiert und analysiert werden.

Der ETL-Prozess im Detail

Der ETL-Prozess (Extract, Transform, Load) ist zentral für die Befüllung eines Data Warehouses. Er umfasst drei Hauptschritte:

Extract: Daten werden aus den verschiedenen Quellsystemen (operativen Systemen, externen Quellen) extrahiert.
Transform: Die extrahierten Daten werden umgewandelt, bereinigt, integriert und in das Schema und Format der Zieldatenbank (des DWH) gebracht. Hier finden Datenqualitätsprüfungen und Aggregationen statt.
Load: Die transformierten Daten werden in das Data Warehouse geladen. Historisch erfolgte dies oft periodisch (z.B. nächtlich). Der Trend geht jedoch zunehmend zu kürzeren Intervallen bis hin zur Echtzeitbeladung (Real-time Data Warehousing).

Neben ETL gibt es auch den ELT-Ansatz (Extract, Load, Transform), der oft im Zusammenhang mit Data Lakes verwendet wird. Hier werden die Rohdaten zuerst in das Zielsystem geladen und erst dort transformiert. Moderne DWH-Architekturen können Elemente von ELT integrieren, indem sie Rohdaten zunächst in einem Staging-Bereich speichern.

Anwendungen und Nutzen eines Data Warehouses

Ein Data Warehouse ermöglicht datenbasiertes Arbeiten im Unternehmen und generiert Mehrwert durch die einfache Bereitstellung von qualitativ hochwertigen Daten für analytische Zwecke. Die Hauptanwendungsfälle sind:

Reporting: Erstellung von Standardberichten und KPIs zu wichtigen Kennzahlen des Unternehmens.
Dashboards: Visuelle Aufbereitung von Kennzahlen und deren Entwicklung zur schnellen Übersicht für Entscheidungsträger.
Business Intelligence (BI): Vertiefende Analysen der DWH-Daten zur Identifikation von Stärken, Schwächen, Chancen und Risiken. BI hilft, fundierte Entscheidungen zu treffen.
Data Science: Bei ausreichender Granularität der Daten können auch fortgeschrittene Analysemethoden und Algorithmen der künstlichen Intelligenz auf den DWH-Daten angewendet werden, um Muster zu erkennen und Vorhersagen zu treffen.

Durch die zentrale, integrierte Sicht auf die Unternehmensdaten können Abteilungen übergreifend agieren und Entscheidungen auf einer gemeinsamen, verlässlichen Grundlage treffen. Dies führt zu einer besseren Steuerung und letztlich zu einem Wettbewerbsvorteil.

Die Architektur eines Data Warehouse

Eine typische Data Warehouse Architektur lässt sich in verschiedene Schichten unterteilen:

Datenquellen: Hierbei handelt es sich um die Systeme, aus denen Daten extrahiert werden. Das können interne operative Systeme (ERP, CRM, Logistik) oder externe Quellen (Webanalytics, Social Media, Marktdaten) sein.
Staging Layer: In dieser Schicht werden die extrahierten Rohdaten zwischengespeichert und für die Transformation vorbereitet. Hier können erste Bereinigungen und Formatierungen stattfinden.
Transformation Layer: Hier findet die eigentliche Transformation der Daten statt. Daten werden integriert, bereinigt, aggregiert und in das Schema des DWH überführt.
Storage Layer (Das DWH selbst): Dies ist die persistente Speicherschicht, in der die aufbereiteten, strukturierten Daten abgelegt werden. Die Skalierbarkeit ist hier ein kritischer Aspekt, um mit wachsenden Datenmengen und Zugriffsanforderungen umzugehen.
Data Mart Layer: Hier werden themen- oder abteilungsspezifische Teilmengen (Data Marts) aus dem zentralen DWH für spezifische Analysezwecke abgeleitet.
Serve/Access Layer: Diese Schicht ermöglicht den Zugriff auf die Daten für Endanwender und Anwendungen (BI-Tools, Reporting-Tools, Data Science-Plattformen). Zugangskontrolle und Datensicherheit sind hier wichtig.

Moderne Architekturen können Variationen dieser Schichten aufweisen, insbesondere durch die Integration von Data Lake Konzepten oder Real-time Datenströmen. Die Wahl der Architektur hängt stark von den spezifischen Anforderungen und den vorhandenen Datenquellen ab.

Was kostet ein Data Warehouse?

Die Kosten für den Aufbau und Betrieb eines Data Warehouse können stark variieren und hängen von vielen Faktoren ab. Es gibt sowohl fixe als auch variable Kosten.

Was bedeutet die Abkürzung DWH? — Begriff: Ein Data Warehouse (DWH) ist ein Datenhaltungssystem dispositiver Daten, das von den operativen Datenbeständen getrennt, themenorientiert aufbereitet und logisch zentralisiert ist.

Wichtige Kostenkomponenten:

Infrastruktur (Cloud vs. On-Premises): Die Entscheidung, ob das DWH in der Cloud gehostet wird (z.B. AWS Redshift, Azure Synapse, Google BigQuery, Snowflake) oder im eigenen Rechenzentrum (On-Premises) betrieben wird, hat große Auswirkungen. Cloud-Lösungen haben oft geringere Vorabinvestitionen, aber laufende Kosten basierend auf Nutzung (Speicher, Rechenleistung). On-Premises erfordert hohe Anfangsinvestitionen in Hardware und Wartung, bietet aber oft mehr Kontrolle.
ETL-Prozesse und Datenintegration: Die Kosten entstehen entweder durch die Entwicklung von individuellem Code (erfordert qualifizierte Entwickler über längere Zeiträume) oder durch den Kauf und Betrieb von ETL-Tools (Lizenzkosten, aber oft schnellere Implementierung).
Business Intelligence und Reporting Tools: Lizenzen für BI-Software (Tableau, Power BI, Qlik etc.) oder Kosten für die Entwicklung und Wartung von Open-Source-Lösungen.
Personal (Human Resources): Die Personalkosten sind oft ein signifikanter Faktor. Benötigt werden Rollen wie Data Engineers, Datenarchitekten, BI-Experten, Datenanalysten, Datenbankadministratoren. Die Teamgröße hängt vom gewählten Ansatz ab (eigenentwicklung vs. Tool-basiert).
Wartung, Schulung und Support: Laufende Kosten für die Instandhaltung des Systems, Behebung von Fehlern, Anpassung an neue Anforderungen, Schulung der Benutzer und technischer Support. Diese Kosten können einen erheblichen Teil des jährlichen Budgets ausmachen (oft über 50%).

Eine genaue Kostenschätzung ist komplex, aber durchschnittliche jährliche Kosten können sich schnell auf mehrere Hunderttausend Dollar belaufen, abhängig von der Größe des Unternehmens, der Datenmenge und der Komplexität der Implementierung. Die Wahl von Cloud-Lösungen und Data Warehouse Automatisierungstools kann die Kosten, insbesondere die Personalkosten und Vorabinvestitionen, signifikant senken.

Ist ein Data Warehouse eine rentable Investition?

Obwohl die Implementierung eines Data Warehouse eine beträchtliche Investition darstellt, kann sie bei richtiger Umsetzung eine hohe Rendite (ROI) erzielen. Die Vorteile liegen in der Fähigkeit, bessere, datengesteuerte Entscheidungen zu treffen. Durch die zentrale und konsistente Datenbasis können Unternehmen:

Märkte besser verstehen und auf Veränderungen reagieren.
Kundenverhalten analysieren und personalisierte Angebote erstellen.
Operative Prozesse optimieren und Kosten senken.
Compliance-Anforderungen effizient erfüllen.
Neue Geschäftsmöglichkeiten identifizieren.

Moderne Tools und Cloud-Optionen haben die Kosten für den Aufbau eines DWH im Vergleich zu früher gesenkt und die Implementierung beschleunigt, was den ROI verbessert. Die Fähigkeit, verborgene Erkenntnisse aus Geschäftsdaten zu gewinnen, kann den entscheidenden Unterschied im Wettbewerb machen.

Wie baut man ein Data Warehouse auf?

Der Aufbau eines Data Warehouse ist ein komplexes Projekt, das sorgfältige Planung erfordert, aber idealerweise agil umgesetzt werden sollte. Ein stufenweiser Ansatz ist oft effektiver als ein monolithisches Großprojekt. Ein grober Ablaufplan könnte folgende Schritte umfassen:

Anwendungsfälle identifizieren und definieren: Welche Fragen sollen mit dem DWH beantwortet werden? Welche Entscheidungen sollen unterstützt werden? (Stakeholder Research)
Ziel-KPIs und Hierarchie festlegen: Welche Kennzahlen sind entscheidend für den Geschäftserfolg?
Datenquellen identifizieren und prüfen: Woher kommen die benötigten Daten? Wie ist ihre Qualität?
Architektur und Tools definieren: Welche Schichten werden benötigt? Welche Technologien (Cloud/On-Premises, Datenbank, ETL-Tool, BI-Tool) sollen eingesetzt werden?
Architektur umsetzen und Datenquellen anbinden: Aufbau der Infrastruktur und Implementierung der ETL-Prozesse (iterativ für ausgewählte Datenquellen).
Daten überprüfen, visualisieren und abnehmen lassen: Sicherstellen, dass die Daten korrekt im DWH ankommen und für die Analyse bereitstehen. Feedback von den Business-Stakeholdern einholen.

Ein agiles Vorgehen ermöglicht es, schnell erste Ergebnisse zu liefern und flexibel auf neue Anforderungen oder Herausforderungen zu reagieren. Das DWH wächst und entwickelt sich so sukzessive weiter.

Welche Rollen sind an einem DWH beteiligt?

Der Betrieb und die Nutzung eines Data Warehouse erfordern die Zusammenarbeit verschiedener Spezialisten:

BI Experten: Verantwortlich für den Aufbau, die Dokumentation und die Nutzung des DWH. Oft erstellen sie auch Reports.
Domänenexperten: Mitarbeiter aus Fachabteilungen (Sales, Marketing, Logistik), die das Geschäft verstehen und die benötigten Daten und Analysen definieren.
Controlling: Häufig enge Nutzer und Treiber von BI-Anwendungen.
Datenbankadministration: Verantwortlich für die technische Wartung und Optimierung der Datenbankinfrastruktur (insbesondere On-Premises).
Cloud Solution Engineers / Data Engineers / Data Architects: Verantwortlich für den Aufbau und Betrieb der Infrastruktur, die Datenflüsse und die Modellierung.
Business Analysts / Data Analysts: Analysieren die Daten aus dem DWH, um Erkenntnisse für das Geschäft zu gewinnen.
Visualisation Experts: Spezialisten für die Erstellung aussagekräftiger Dashboards und Visualisierungen.
Data Scientists: Nutzen hochaufgelöste DWH-Daten (ggf. in Kombination mit Data Lakes) für fortgeschrittene Analysen, Modellierung und Data Mining.

Häufige Fragen zum Data Warehouse (FAQ)

Hier beantworten wir einige oft gestellte Fragen:

Was ist ein Data Mart?

Ein Data Mart ist eine spezialisierte, kleinere Datenbank, die eine Teilmenge der Daten aus einem Data Warehouse enthält. Sie ist für einen bestimmten Zweck oder eine bestimmte Abteilung konzipiert, um die Komplexität zu reduzieren und den Zugriff für spezifische Analysen zu vereinfachen. Man könnte es als ein „Mini-Data Warehouse“ für eine bestimmte Domäne sehen.

Data Warehouse vs. Data Lake: Was ist der Unterschied?

Der Hauptunterschied liegt in der Struktur und dem Zweck der gespeicherten Daten. Ein Data Warehouse speichert strukturierte, aufbereitete Daten für definierte Analyse- und BI-Zwecke (Schema-on-Write). Ein Data Lake speichert Rohdaten in ihrem ursprünglichen Format, strukturiert und bereinigt sie erst bei Bedarf (Schema-on-Read) und dient der Exploration und Data Science mit potenziell unbekannten Anwendungsfällen.

Welche Anwendungen gibt es für ein Data Warehouse? — Data Warehousing bietet mehrere Anwendungsmöglichkeiten für Unternehmen. Im Wesentlichen sind die folgenden zu nennen: Schnelle und flexible Bereitstellung von Daten für Statistiken, Reports und Kennzahlen. Ermittlung von Zusammenhängen und Mustern in Daten durch Data Mining oder Online Analytical Processing.

DWH vs Enterprise Data Warehouse (EDW): Was ist der Unterschied?

Semantisch gibt es keinen fundamentalen Unterschied. Enterprise Data Warehouse (EDW) betont lediglich den Umfang und die Komplexität, da es sich typischerweise auf ein Data Warehouse bezieht, das die Daten und Analyseanforderungen eines gesamten großen Unternehmens abdeckt.

Basiert ein Data Warehouse auf ETL oder ELT?

Traditionell basiert ein DWH auf dem ETL-Prozess (Extract, Transform, Load), bei dem Daten vor dem Laden in das DWH transformiert werden. Mit dem Aufkommen von Data Lakes und leistungsfähigeren Datenbanken wird jedoch zunehmend auch der ELT-Ansatz (Extract, Load, Transform) in DWH-Architekturen integriert, oft in Kombination mit Staging-Bereichen, in denen Rohdaten zunächst gespeichert werden.

Wie oft werden die Daten in einem DWH aktualisiert?

Die Aktualisierungsfrequenz (Update Frequency) eines DWH hängt von den Anforderungen des Unternehmens, der Technologie, der Datenmenge und den Anwendungsfällen ab. Klassisch erfolgt dies oft in nächtlichen Batches. Moderne DWHs unterstützen jedoch zunehmend höhere Frequenzen bis hin zur Echtzeitaktualisierung, insbesondere für zeitkritische Analysen.

Zusammenfassend lässt sich sagen, dass ein Data Warehouse ein unverzichtbares Werkzeug für Unternehmen ist, die ihre Daten strategisch nutzen möchten. Es schafft die notwendige Grundlage, um aus einer Flut von Informationen wertvolle Erkenntnisse zu gewinnen und so fundierte Entscheidungen zu treffen, die den Geschäftserfolg fördern.

Wenn du mehr spannende Artikel wie „Data Warehouse (DWH): Ihr Datenlager“ entdecken möchtest, schau doch mal in der Kategorie Bürobedarf vorbei!