Data Warehouse-Konzepte
Das Grundkonzept eines Data Warehouse besteht darin, einem Unternehmen eine einzige Version der Wahrheit für die Entscheidungsfindung und Prognose zu ermöglichen. Ein Data Warehouse ist ein Informationssystem, das historische und kommutative Daten aus einer oder mehreren Quellen enthält. Data Warehouse-Konzepte vereinfachen den Berichts- und Analyseprozess von Organisationen.
Merkmale des Data Warehouse
Data Warehouse-Konzepte weisen folgende Merkmale auf:
- Fachorientiert
- Integriert
- Zeitunterschied
- Nicht flüchtig
Fachorientiert
Ein Data Warehouse ist themenorientiert, da es Informationen zu einem Thema anstelle der laufenden Geschäftstätigkeit von Unternehmen bietet. Diese Themen können Vertrieb, Marketing, Vertrieb usw. sein.
Ein Data Warehouse konzentriert sich niemals auf den laufenden Betrieb. Stattdessen lag der Schwerpunkt auf der Modellierung und Analyse von Daten für die Entscheidungsfindung . Es bietet auch eine einfache und präzise Sicht auf das spezifische Thema, indem Daten ausgeschlossen werden, die zur Unterstützung des Entscheidungsprozesses nicht hilfreich sind.
Integriert
In Data Warehouse bedeutet Integration die Einrichtung einer gemeinsamen Maßeinheit für alle ähnlichen Daten aus der unterschiedlichen Datenbank. Die Daten müssen außerdem auf gemeinsame und allgemein akzeptable Weise im Datawarehouse gespeichert werden.
Ein Data Warehouse wird durch die Integration von Daten aus verschiedenen Quellen wie einem Mainframe, relationalen Datenbanken, Flatfiles usw. entwickelt. Darüber hinaus müssen konsistente Namenskonventionen, Format und Codierung eingehalten werden.
Diese Integration hilft bei der effektiven Analyse von Daten. Konsistenz in Namenskonventionen, Attributmaßen, Kodierungsstruktur usw. muss gewährleistet sein. Betrachten Sie das folgende Beispiel:
Im obigen Beispiel gibt es drei verschiedene Anwendungen mit den Bezeichnungen A, B und C. In diesen Anwendungen gespeicherte Informationen sind Geschlecht, Datum und Kontostand. Die Daten jeder Anwendung werden jedoch auf unterschiedliche Weise gespeichert.
- In der Anwendung Ein Geschlechtsfeld speichert logische Werte wie M oder F.
- In Anwendung B ist das Feld Geschlecht ein numerischer Wert.
- In Anwendung C wird das Feld Geschlecht in Form eines Zeichenwerts gespeichert.
- Gleiches gilt für Datum und Saldo
Nach dem Transformations- und Bereinigungsprozess werden alle diese Daten jedoch im Data Warehouse in einem gemeinsamen Format gespeichert.
Zeitunterschied
Der Zeithorizont für Data Warehouse ist im Vergleich zu Betriebssystemen recht umfangreich. Die in einem Data Warehouse gesammelten Daten werden mit einem bestimmten Zeitraum erkannt und bieten Informationen aus historischer Sicht. Es enthält explizit oder implizit ein Zeitelement.
Ein solcher Ort, an dem Datawarehouse-Daten die Zeitabweichung anzeigen, befindet sich in der Struktur des Datensatzschlüssels. Jeder im DW enthaltene Primärschlüssel sollte entweder implizit oder explizit ein Zeitelement enthalten. Wie der Tag, die Woche, der Monat usw.
Ein weiterer Aspekt der Zeitabweichung besteht darin, dass Daten nach dem Einfügen in das Warehouse nicht mehr aktualisiert oder geändert werden können.
Nicht flüchtig
Data Warehouse ist auch nicht flüchtig, dh die vorherigen Daten werden nicht gelöscht, wenn neue Daten eingegeben werden.
Die Daten sind schreibgeschützt und werden regelmäßig aktualisiert. Dies hilft auch, historische Daten zu analysieren und zu verstehen, was und wann passiert ist. Es sind keine Mechanismen zur Transaktionsprozess-, Wiederherstellungs- und Parallelitätskontrolle erforderlich.
Aktivitäten wie Löschen, Aktualisieren und Einfügen, die in einer betrieblichen Anwendungsumgebung ausgeführt werden, werden in der Data Warehouse-Umgebung weggelassen. Es gibt nur zwei Arten von Datenoperationen, die im Data Warehousing ausgeführt werden
- Laden von Daten
- Datenzugriff
Hier sind einige wesentliche Unterschiede zwischen Anwendung und Data Warehouse aufgeführt
Betriebsanwendung | Data Warehouse |
Komplexe Programme müssen codiert werden, um sicherzustellen, dass Datenaktualisierungsprozesse eine hohe Integrität des Endprodukts gewährleisten. | Diese Art von Problemen tritt nicht auf, da keine Datenaktualisierung durchgeführt wird. |
Die Daten werden in einer normalisierten Form abgelegt, um eine minimale Redundanz sicherzustellen. | Daten werden nicht in normalisierter Form gespeichert. |
Die Technologie, die zur Unterstützung von Transaktionen, Datenwiederherstellung, Rollback und Auflösung benötigt wird, ist recht komplex. | Es bietet relative Einfachheit in der Technologie. |
Data Warehouse-Architektur
Die Data Warehouse-Architektur ist komplex, da es sich um ein Informationssystem handelt, das historische und kommutative Daten aus mehreren Quellen enthält. Es gibt drei Ansätze zum Erstellen von Data Warehouse-Ebenen: Single Tier, Two Tier und Three Tier. Diese dreistufige Architektur von Data Warehouse wird nachfolgend erläutert.
Einschichtige Architektur
Das Ziel einer einzelnen Schicht besteht darin, die gespeicherte Datenmenge zu minimieren. Dieses Ziel besteht darin, Datenredundanz zu beseitigen. Diese Architektur wird in der Praxis nicht häufig verwendet.
Zweistufige Architektur
Die zweischichtige Architektur ist eine der Data Warehouse-Schichten, die physisch verfügbare Quellen und Data Warehouse voneinander trennt. Diese Architektur ist nicht erweiterbar und unterstützt auch keine große Anzahl von Endbenutzern. Es gibt auch Konnektivitätsprobleme aufgrund von Netzwerkeinschränkungen.
Dreistufige Data Warehouse-Architektur
Dies ist die am weitesten verbreitete Architektur von Data Warehouse.
Es besteht aus der oberen, mittleren und unteren Ebene.
- Untere Ebene : Die Datenbank der Datawarehouse-Server als untere Ebene. Es ist normalerweise ein relationales Datenbanksystem. Daten werden mithilfe von Back-End-Tools bereinigt, transformiert und in diese Ebene geladen.
- Mittlere Schicht : Die mittlere Schicht im Data Warehouse ist ein OLAP-Server, der entweder mit dem ROLAP- oder dem MOLAP-Modell implementiert wird. Für einen Benutzer bietet diese Anwendungsebene eine abstrahierte Ansicht der Datenbank. Diese Schicht fungiert auch als Vermittler zwischen dem Endbenutzer und der Datenbank.
- Top-Tier: Die Top-Tier ist eine Front-End-Client-Schicht. Die oberste Ebene sind die Tools und die API, mit denen Sie eine Verbindung herstellen und Daten aus dem Data Warehouse abrufen. Dies können Abfragetools, Berichterstellungstools, verwaltete Abfragetools, Analysetools und Data Mining-Tools sein.
Datawarehouse-Komponenten
Wir werden die Datawarehouse-Komponenten und die Architektur von Data Warehouse anhand des folgenden Diagramms kennenlernen:

Das Data Warehouse basiert auf einem RDBMS-Server, einem zentralen Informationsrepository, das von einigen wichtigen Data Warehousing-Komponenten umgeben ist, um die gesamte Umgebung funktionsfähig, verwaltbar und zugänglich zu machen.
Es gibt hauptsächlich fünf Data Warehouse-Komponenten:
Data Warehouse-Datenbank
Die zentrale Datenbank bildet die Grundlage für die Data Warehousing-Umgebung. Diese Datenbank ist in der RDBMS-Technologie implementiert. Diese Art der Implementierung wird jedoch durch die Tatsache eingeschränkt, dass das herkömmliche RDBMS-System für die Verarbeitung von Transaktionsdatenbanken und nicht für das Data Warehousing optimiert ist. Beispielsweise sind Ad-hoc-Abfragen, Joins mit mehreren Tabellen und Aggregate ressourcenintensiv und verlangsamen die Leistung.
Daher werden alternative Ansätze für die Datenbank verwendet, wie nachstehend aufgeführt.
- In einem Data Warehouse werden relationale Datenbanken parallel bereitgestellt, um die Skalierbarkeit zu gewährleisten. Parallele relationale Datenbanken ermöglichen auch ein Shared-Memory- oder Shared-Nothing-Modell auf verschiedenen Multiprozessorkonfigurationen oder massiv parallelen Prozessoren.
- Neue Indexstrukturen werden verwendet, um den relationalen Tabellenscan zu umgehen und die Geschwindigkeit zu verbessern.
- Verwendung einer mehrdimensionalen Datenbank (MDDBs) zur Überwindung von Einschränkungen, die aufgrund der relationalen Data Warehouse-Modelle auftreten. Beispiel: Essbase von Oracle.
Tools für Beschaffung, Akquisition, Bereinigung und Transformation (ETL)
Die Tools für Datenbeschaffung, -transformation und -migration werden verwendet, um alle Konvertierungen, Zusammenfassungen und Änderungen durchzuführen, die zum Transformieren von Daten in ein einheitliches Format im Datawarehouse erforderlich sind. Sie werden auch als ETL-Tools (Extract, Transform and Load) bezeichnet.
Ihre Funktionalität umfasst:
- Anonymisieren Sie die Daten gemäß den gesetzlichen Bestimmungen.
- Vermeiden Sie das Laden unerwünschter Daten in Betriebsdatenbanken in das Data Warehouse.
- Suchen und ersetzen Sie allgemeine Namen und Definitionen für Daten, die aus verschiedenen Quellen stammen.
- Berechnung von Zusammenfassungen und abgeleiteten Daten
- Wenn fehlende Daten vorhanden sind, füllen Sie diese mit Standardeinstellungen.
- De-duplizierte wiederholte Daten, die aus mehreren Datenquellen stammen.
Diese Tools zum Extrahieren, Transformieren und Laden können Cron-Jobs, Hintergrundjobs, Cobol-Programme, Shell-Skripte usw. generieren, die regelmäßig Daten im Datawarehouse aktualisieren. Diese Tools sind auch hilfreich, um die Metadaten zu verwalten.
Diese ETL-Tools müssen sich mit den Herausforderungen der Datenbank- und Datenheterogenität befassen.
Metadaten
Der Name Meta Data weist auf einige hochrangige technologische Data Warehousing-Konzepte hin. Es ist jedoch recht einfach. Metadaten sind Daten zu Daten, die das Data Warehouse definieren. Es wird zum Erstellen, Verwalten und Verwalten des Data Warehouse verwendet.
In der Data Warehouse-Architektur spielen Metadaten eine wichtige Rolle, da sie die Quelle, Verwendung, Werte und Funktionen von Data Warehouse-Daten angeben. Außerdem wird definiert, wie Daten geändert und verarbeitet werden können. Es ist eng mit dem Data Warehouse verbunden.
Beispielsweise kann eine Zeile in der Verkaufsdatenbank Folgendes enthalten:
4030 KJ732 299.90
Dies sind bedeutungslose Daten, bis wir die Meta konsultieren, die uns mitteilen, dass dies der Fall war
- Modellnummer: 4030
- Vertriebsmitarbeiter-ID: KJ732
- Gesamtumsatz von 299,90 USD
Daher sind Metadaten wesentliche Bestandteile bei der Umwandlung von Daten in Wissen.
Metadaten helfen bei der Beantwortung der folgenden Fragen
- Welche Tabellen, Attribute und Schlüssel enthält das Data Warehouse?
- Woher kamen die Daten?
- Wie oft werden Daten neu geladen?
- Welche Transformationen wurden bei der Reinigung angewendet?
Metadaten können in folgende Kategorien eingeteilt werden:
- Technische Metadaten : Diese Art von Metadaten enthält Informationen zum Warehouse, die von Data Warehouse-Designern und -Administratoren verwendet werden.
- Geschäftsmetadaten: Diese Art von Metadaten enthält Details, mit denen Endbenutzer die im Data Warehouse gespeicherten Informationen leicht verstehen können.
Abfragetools
Eines der Hauptziele von Data Warehousing ist die Bereitstellung von Informationen für Unternehmen, um strategische Entscheidungen zu treffen. Mithilfe von Abfragetools können Benutzer mit dem Data Warehouse-System interagieren.
Diese Tools lassen sich in vier verschiedene Kategorien einteilen:
- Abfrage- und Berichterstellungstools
- Tools für die Anwendungsentwicklung
- Data Mining-Tools
- OLAP-Tools
1. Abfrage- und Berichterstellungstools:
Abfrage- und Berichterstellungstools können weiter unterteilt werden
- Berichterstellungstools
- Verwaltete Abfragetools
Berichterstellungstools:
Berichterstellungstools können weiter unterteilt werden in Produktionsberichterstellungstools und Desktop Report Writer.
- Berichtersteller: Diese Art von Berichtstool ist ein Tool, das für Endbenutzer zur Analyse entwickelt wurde.
- Produktionsberichterstattung: Mit dieser Art von Tools können Unternehmen regelmäßige Betriebsberichte erstellen. Es unterstützt auch Stapelaufträge mit hohem Volumen wie Drucken und Berechnen. Einige beliebte Berichterstellungstools sind Brio, Business Objects, Oracle, PowerSoft und SAS Institute.
Verwaltete Abfragetools:
Diese Art von Zugriffstools hilft Endbenutzern, Fehler in der Datenbank- und SQL- und Datenbankstruktur zu beheben, indem eine Meta-Schicht zwischen Benutzern und Datenbank eingefügt wird.
2. Tools zur Anwendungsentwicklung:
Manchmal erfüllen integrierte grafische und analytische Tools nicht die analytischen Anforderungen eines Unternehmens. In solchen Fällen werden benutzerdefinierte Berichte mithilfe von Anwendungsentwicklungstools entwickelt.
3. Data Mining-Tools:
Beim Data Mining werden sinnvolle neue Korrelationen, Muster und Trends entdeckt, indem große Datenmengen abgebaut werden. Data Mining-Tools werden verwendet, um diesen Prozess automatisch zu machen.
4. OLAP-Tools:
Diese Tools basieren auf Konzepten einer mehrdimensionalen Datenbank. Benutzer können die Daten mithilfe aufwändiger und komplexer mehrdimensionaler Ansichten analysieren.
Data Warehouse-Busarchitektur
Data Warehouse Bus bestimmt den Datenfluss in Ihrem Warehouse. Der Datenfluss in einem Data Warehouse kann in Inflow, Upflow, Downflow, Outflow und Meta Flow unterteilt werden.
Beim Entwerfen eines Datenbusses müssen die gemeinsamen Dimensionen und Fakten über Data Marts hinweg berücksichtigt werden.
Data Marts
Ein Data Mart ist eine Zugriffsschicht, mit der Daten an die Benutzer ausgegeben werden. Es wird als Option für ein großes Data Warehouse angeboten, da der Aufbau weniger Zeit und Geld kostet. Es gibt jedoch keine Standarddefinition für einen Datamart, der sich von Person zu Person unterscheidet.
Mit einem einfachen Wort: Data Mart ist eine Tochtergesellschaft eines Data Warehouse. Der Data Mart wird für die Partitionierung von Daten verwendet, die für die bestimmte Benutzergruppe erstellt werden.
Data Marts können in derselben Datenbank wie das Datawarehouse oder in einer physisch separaten Datenbank erstellt werden.
Best Practices für die Data Warehouse-Architektur
Um die Data Warehouse-Architektur zu entwerfen, müssen Sie die folgenden Best Practices befolgen:
- Verwenden Sie Data Warehouse-Modelle, die für das Abrufen von Informationen optimiert sind. Dies kann der dimensionale, denormalisierte oder hybride Ansatz sein.
- Wählen Sie in Data Warehouse den geeigneten Entwurfsansatz als Top-Down- und Bottom-Up-Ansatz
- Sie müssen sicherstellen, dass die Daten schnell und genau verarbeitet werden. Gleichzeitig sollten Sie einen Ansatz wählen, bei dem Daten in einer einzigen Version der Wahrheit zusammengefasst werden.
- Entwerfen Sie den Datenerfassungs- und Bereinigungsprozess für Data Warehouse sorgfältig.
- Entwerfen Sie eine MetaData-Architektur, die die gemeinsame Nutzung von Metadaten zwischen Komponenten von Data Warehouse ermöglicht
- Erwägen Sie die Implementierung eines ODS-Modells, wenn sich der Informationsabrufbedarf am Ende der Datenabstraktionspyramide befindet oder wenn auf mehrere Betriebsquellen zugegriffen werden muss.
- Man sollte sicherstellen, dass das Datenmodell integriert und nicht nur konsolidiert ist. In diesem Fall sollten Sie das 3NF-Datenmodell berücksichtigen. Es ist auch ideal für den Erwerb von ETL- und Datenbereinigungstools
Zusammenfassung:
- Data Warehouse ist ein Informationssystem, das historische und kommutative Daten aus einer oder mehreren Quellen enthält. Diese Quellen können traditionelles Data Warehouse, Cloud Data Warehouse oder virtuelles Data Warehouse sein.
- Ein Data Warehouse ist themenorientiert, da es Informationen zum Thema anstelle des laufenden Betriebs der Organisation bietet.
- Integration bedeutet im Data Warehouse die Einrichtung einer gemeinsamen Maßeinheit für alle ähnlichen Daten aus den verschiedenen Datenbanken
- Data Warehouse ist auch nicht flüchtig, dh die vorherigen Daten werden nicht gelöscht, wenn neue Daten eingegeben werden.
- Ein Datawarehouse ist eine Zeitvariante, da die Daten in einem DW eine hohe Haltbarkeit haben.
- Es gibt hauptsächlich 5 Komponenten der Data Warehouse-Architektur: 1) Datenbank 2) ETL-Tools 3) Metadaten 4) Abfragetools 5) DataMarts
- Dies sind vier Hauptkategorien von Abfragetools: 1. Abfrage- und Berichterstellungstools, Tools 2. Anwendungsentwicklungstools, 3. Data Mining-Tools 4. OLAP-Tools
- Die Tools für Datenbeschaffung, -transformation und -migration werden zum Durchführen aller Konvertierungen und Zusammenfassungen verwendet.
- In der Data Warehouse-Architektur spielen Metadaten eine wichtige Rolle, da sie die Quelle, Verwendung, Werte und Funktionen von Data Warehouse-Daten angeben.