Was ist Data Lake? Es ist Architektur

Inhaltsverzeichnis:

Anonim

Was ist Data Lake?

Ein Data Lake ist ein Speicher-Repository, in dem große Mengen strukturierter, halbstrukturierter und unstrukturierter Daten gespeichert werden können. Hier können Sie alle Datentypen in ihrem nativen Format ohne feste Beschränkungen für die Kontogröße oder -datei speichern. Es bietet eine hohe Datenmenge zur Steigerung der Analyseleistung und der nativen Integration.

Data Lake ist wie ein großer Container, der echten Seen und Flüssen sehr ähnlich ist. Genau wie in einem See kommen mehrere Nebenflüsse herein, ein Datensee hat strukturierte Daten, unstrukturierte Daten, Maschine zu Maschine, Protokolle, die in Echtzeit durchlaufen werden.

Der Data Lake demokratisiert Daten und ist eine kostengünstige Möglichkeit, alle Daten einer Organisation für die spätere Verarbeitung zu speichern. Research Analyst kann sich darauf konzentrieren, Bedeutungsmuster in Daten und nicht in Daten selbst zu finden.

Im Gegensatz zu einem hierarchischen Dataware-Haus, in dem Daten in Dateien und Ordnern gespeichert sind, verfügt Data Lake über eine flache Architektur. Jedes Datenelement in einem Data Lake erhält eine eindeutige Kennung und ist mit einer Reihe von Metadateninformationen versehen.

In diesem Tutorial lernen Sie:

  • Was ist Data Lake?
  • Warum Data Lake?
  • Data Lake-Architektur
  • Key Data Lake-Konzepte
  • Reifegrade von Data Lake
  • Best Practices für die Implementierung von Data Lake:
  • Unterschied zwischen Data Lakes und Data Warehouse
  • Vorteile und Risiken der Verwendung von Data Lake:

Warum Data Lake?

Das Hauptziel des Aufbaus eines Datensees besteht darin, Datenwissenschaftlern eine nicht verfeinerte Ansicht der Daten zu bieten.

Gründe für die Verwendung von Data Lake sind:

  • Mit dem Einsetzen von Speicher-Engines wie Hadoop ist das Speichern unterschiedlicher Informationen einfach geworden. Es ist nicht erforderlich, Daten mit einem Data Lake in ein unternehmensweites Schema zu modellieren.
  • Mit der Zunahme des Datenvolumens, der Datenqualität und der Metadaten steigt auch die Qualität der Analysen.
  • Data Lake bietet Business Agility
  • Maschinelles Lernen und künstliche Intelligenz können verwendet werden, um profitable Vorhersagen zu treffen.
  • Es bietet der ausführenden Organisation einen Wettbewerbsvorteil.
  • Es gibt keine Datensilostruktur. Data Lake bietet eine 360-Grad-Ansicht der Kunden und macht die Analyse robuster.

Data Lake-Architektur

Die Abbildung zeigt die Architektur eines Business Data Lake. Die unteren Ebenen stellen Daten dar, die sich größtenteils in Ruhe befinden, während die oberen Ebenen Echtzeit-Transaktionsdaten anzeigen. Diese Daten fließen ohne oder mit geringer Latenz durch das System. Im Folgenden sind wichtige Ebenen der Data Lake-Architektur aufgeführt:

  1. Aufnahmeebene : Die Ebenen auf der linken Seite zeigen die Datenquellen. Die Daten können stapelweise oder in Echtzeit in den Datensee geladen werden
  2. Insights Tier: Die Ebenen auf der rechten Seite stellen die Forschungsseite dar, auf der Erkenntnisse aus dem System verwendet werden. Für die Datenanalyse können SQL-, NoSQL-Abfragen oder sogar Excel verwendet werden.
  3. HDFS ist eine kostengünstige Lösung für strukturierte und unstrukturierte Daten. Es ist eine Landezone für alle Daten, die sich im System befinden.
  4. Die Destillationsstufe entnimmt Daten aus dem Speicherreifen und wandelt sie zur einfacheren Analyse in strukturierte Daten um.
  5. In der Verarbeitungsebene werden Analysealgorithmen und Benutzerabfragen mit unterschiedlichen interaktiven Echtzeitstapeln ausgeführt, um strukturierte Daten für eine einfachere Analyse zu generieren.
  6. Die einheitliche Betriebsebene regelt die Systemverwaltung und -überwachung. Es umfasst Auditing- und Kompetenzmanagement, Datenmanagement und Workflow-Management.

Key Data Lake-Konzepte

Im Folgenden finden Sie wichtige Data Lake-Konzepte, die Sie verstehen müssen, um die Data Lake-Architektur vollständig zu verstehen

Datenerfassung

Mit Data Ingestion können Konnektoren Daten aus verschiedenen Datenquellen abrufen und in den Data Lake laden.

Data Ingestion unterstützt:

  • Alle Arten von strukturierten, halbstrukturierten und unstrukturierten Daten.
  • Mehrfacheinnahmen wie Batch, Echtzeit, einmaliges Laden.
  • Viele Arten von Datenquellen wie Datenbanken, Webserver, E-Mails, IoT und FTP.

Datenspeicher

Die Datenspeicherung sollte skalierbar sein, eine kostengünstige Speicherung bieten und einen schnellen Zugriff auf die Datenexploration ermöglichen. Es sollte verschiedene Datenformate unterstützen.

Datenamt

Data Governance ist ein Prozess zur Verwaltung der Verfügbarkeit, Benutzerfreundlichkeit, Sicherheit und Integrität von Daten, die in einem Unternehmen verwendet werden.

Sicherheit

Sicherheit muss in jeder Schicht des Data Lake implementiert werden. Es beginnt mit Lagerung, Ausgraben und Verbrauch. Das Grundbedürfnis besteht darin, den Zugriff für nicht autorisierte Benutzer zu beenden. Es sollte verschiedene Tools für den Zugriff auf Daten mit einfach zu navigierender Benutzeroberfläche und Dashboards unterstützen.

Authentifizierung, Buchhaltung, Autorisierung und Datenschutz sind einige wichtige Merkmale der Sicherheit von Datenseen.

Datenqualität:

Die Datenqualität ist ein wesentlicher Bestandteil der Data Lake-Architektur. Daten werden verwendet, um den Geschäftswert zu ermitteln. Das Extrahieren von Erkenntnissen aus Daten von schlechter Qualität führt zu Erkenntnissen von schlechter Qualität.

Datenerkennung

Die Datenermittlung ist eine weitere wichtige Phase, bevor Sie mit der Vorbereitung von Daten oder Analysen beginnen können. In dieser Phase wird die Tagging-Technik verwendet, um das Datenverständnis auszudrücken, indem die im Data Lake aufgenommenen Daten organisiert und interpretiert werden.

Datenprüfung

Zwei wichtige Aufgaben der Datenüberwachung sind das Verfolgen von Änderungen am Schlüsseldatensatz.

  1. Verfolgen von Änderungen an wichtigen Datensatzelementen
  2. Erfasst, wie / wann / und wer diese Elemente ändert.

Die Datenprüfung hilft bei der Bewertung von Risiko und Compliance.

Datenherkunft

Diese Komponente befasst sich mit den Ursprüngen von Daten. Es geht hauptsächlich darum, wo es sich im Laufe der Zeit bewegt und was damit passiert. Es erleichtert Fehlerkorrekturen in einem Datenanalyseprozess vom Ursprung zum Ziel.

Datenexploration

Es ist die Anfangsphase der Datenanalyse. Es ist wichtig, den richtigen Datensatz zu identifizieren, bevor Sie mit der Datenexploration beginnen.

Alle gegebenen Komponenten müssen zusammenarbeiten, um eine wichtige Rolle beim Aufbau des Data Lake zu spielen.

Reifegrade von Data Lake

Die Definition der Reifegrade von Data Lake unterscheidet sich von Lehrbuch zu Lehrbuch. Obwohl die Krux gleich bleibt. Nach der Reife erfolgt die Bühnendefinition aus der Sicht eines Laien.

Stufe 1: Daten im Maßstab verarbeiten und aufnehmen

In dieser ersten Phase der Datenreife wird die Fähigkeit zur Transformation und Analyse von Daten verbessert. Hier müssen Geschäftsinhaber die Tools finden, die ihren Fähigkeiten entsprechen, um mehr Daten zu erhalten und analytische Anwendungen zu erstellen.

Stufe 2: Aufbau des analytischen Muskels

Dies ist eine zweite Phase, in der die Fähigkeit zur Transformation und Analyse von Daten verbessert wird. In dieser Phase verwenden Unternehmen das Tool, das für ihre Fähigkeiten am besten geeignet ist. Sie beginnen, mehr Daten zu erfassen und Anwendungen zu erstellen. Hier werden die Funktionen des Enterprise Data Warehouse und des Data Lake gemeinsam genutzt.

Stufe 3: EDW und Data Lake arbeiten zusammen

Bei diesem Schritt werden Daten und Analysen so vielen Menschen wie möglich zur Verfügung gestellt. In dieser Phase beginnen der Data Lake und das Enterprise Data Warehouse in einer Gewerkschaft zu arbeiten. Beide spielen ihre Rolle in der Analytik

Stufe 4: Unternehmensfähigkeit im See

In dieser Reifephase des Data Lake werden dem Data Lake Unternehmensfunktionen hinzugefügt. Einführung von Information Governance, Managementfunktionen für den Informationslebenszyklus und Metadatenverwaltung. Nur sehr wenige Unternehmen können diesen Reifegrad erreichen, aber diese Zahl wird in Zukunft zunehmen.

Best Practices für die Implementierung von Data Lake:

  • Architekturkomponenten, ihre Interaktion und identifizierte Produkte sollten native Datentypen unterstützen
  • Das Design von Data Lake sollte von dem abhängen, was verfügbar ist, anstatt von dem, was erforderlich ist. Die Schema- und Datenanforderung wird erst definiert, wenn sie abgefragt wird
  • Das Design sollte sich an Einwegkomponenten orientieren, die in die Service-API integriert sind.
  • Datenerkennung, -aufnahme, -speicherung, -verwaltung, -qualität, -transformation und -visualisierung sollten unabhängig voneinander verwaltet werden.
  • Die Data Lake-Architektur sollte auf eine bestimmte Branche zugeschnitten sein. Es sollte sicherstellen, dass die für diese Domäne erforderlichen Funktionen ein fester Bestandteil des Entwurfs sind
  • Ein schnelleres Einbinden neu entdeckter Datenquellen ist wichtig
  • Data Lake unterstützt das angepasste Management beim Extrahieren des Maximalwerts
  • Der Data Lake sollte vorhandene Techniken und Methoden zur Verwaltung von Unternehmensdaten unterstützen

Herausforderungen beim Bau eines Datensees:

  • In Data Lake ist das Datenvolumen höher, sodass der Prozess stärker auf die programmatische Verwaltung angewiesen sein muss
  • Es ist schwierig, mit spärlichen, unvollständigen und flüchtigen Daten umzugehen
  • Ein größerer Umfang an Datensätzen und Quellen erfordert eine größere Datenverwaltung und -unterstützung

Unterschied zwischen Data Lakes und Data Warehouse

Parameter Data Lakes Data Warehouse
Daten Datenseen speichern alles. Data Warehouse konzentriert sich nur auf Geschäftsprozesse.
wird bearbeitet Daten sind hauptsächlich unverarbeitet Hochverarbeitete Daten.
Art der Daten Es kann unstrukturiert, halbstrukturiert und strukturiert sein. Es ist meist in tabellarischer Form und Struktur.
Aufgabe Datenverwaltung teilen Optimiert für den Datenabruf
Beweglichkeit Sehr agil, konfigurieren und nach Bedarf neu konfigurieren. Im Vergleich zu Data Lake ist es weniger agil und hat eine feste Konfiguration.
Benutzer Data Lake wird hauptsächlich von Data Scientist verwendet Geschäftsleute verwenden Data Warehouse in großem Umfang
Lager Data Lakes-Design für kostengünstige Speicherung. Es wird teurer Speicher verwendet, der schnelle Reaktionszeiten bietet
Sicherheit Bietet weniger Kontrolle. Ermöglicht eine bessere Kontrolle der Daten.
Ersatz von EDW Data Lake kann Quelle für EDW sein Ergänzend zu EDW (kein Ersatz)
Schema Schema beim Lesen (keine vordefinierten Schemata) Schema beim Schreiben (vordefinierte Schemas)
Datenverarbeitung Hilft bei der schnellen Aufnahme neuer Daten. Zeitaufwändig, um neue Inhalte einzuführen.
Datengranularität Daten mit geringer Detailgenauigkeit oder Granularität. Daten auf der zusammenfassenden oder aggregierten Detailebene.
Werkzeuge Kann Open Source / Tools wie Hadoop / Map Reduce verwenden Meist kommerzielle Werkzeuge.

Vorteile und Risiken der Verwendung von Data Lake:

Hier sind einige wichtige Vorteile bei der Verwendung eines Data Lake:

  • Hilft bei der Produktionisierung und erweiterten Analyse
  • Bietet kostengünstige Skalierbarkeit und Flexibilität
  • Bietet Wert aus unbegrenzten Datentypen
  • Reduziert die langfristigen Betriebskosten
  • Ermöglicht die wirtschaftliche Speicherung von Dateien
  • Schnell an Änderungen anpassbar
  • Der Hauptvorteil von Data Lake ist die Zentralisierung verschiedener Inhaltsquellen
  • Benutzer aus verschiedenen Abteilungen, die über den gesamten Globus verteilt sind, können flexibel auf die Daten zugreifen

Risiko der Nutzung von Data Lake:

  • Nach einiger Zeit kann Data Lake an Relevanz und Dynamik verlieren
  • Beim Entwerfen von Data Lake besteht ein größeres Risiko
  • Unstrukturierte Daten können zu unregiertem Chao, nicht verwendbaren Daten, unterschiedlichen und komplexen Tools, unternehmensweiter Zusammenarbeit, einheitlich, konsistent und allgemein führen
  • Es erhöht auch die Speicher- und Rechenkosten
  • Es gibt keine Möglichkeit, Einblicke von anderen zu erhalten, die mit den Daten gearbeitet haben, da die Herkunft der Ergebnisse früherer Analysten nicht berücksichtigt wird
  • Das größte Risiko von Datenseen ist die Sicherheit und Zugangskontrolle. Manchmal können Daten ohne Aufsicht in einen See gestellt werden, da einige der Daten möglicherweise Datenschutz- und behördliche Anforderungen haben

Zusammenfassung:

  • Ein Data Lake ist ein Speicher-Repository, in dem große Mengen strukturierter, halbstrukturierter und unstrukturierter Daten gespeichert werden können.
  • Das Hauptziel des Aufbaus eines Datensees besteht darin, Datenwissenschaftlern eine nicht verfeinerte Ansicht der Daten zu bieten.
  • Unified Operations Tier, Processing Tier, Destillation Tier und HDFS sind wichtige Schichten der Data Lake-Architektur
  • Datenaufnahme, Datenspeicherung, Datenqualität, Datenprüfung, Datenexploration und Datenerkennung sind einige wichtige Komponenten der Data Lake-Architektur
  • Das Design von Data Lake sollte von dem abhängen, was verfügbar ist, anstatt von dem, was erforderlich ist.
  • Data Lake reduziert die langfristigen Betriebskosten und ermöglicht die wirtschaftliche Speicherung von Dateien
  • Das größte Risiko von Datenseen ist die Sicherheit und Zugangskontrolle. Manchmal können Daten ohne Aufsicht in einen See gestellt werden, da einige der Daten möglicherweise Datenschutz- und behördliche Anforderungen haben.