Was ist Datenabgleich?
Datenabstimmung (DR) ist ein Prozess zur Überprüfung von Daten während der Datenmigration. In diesem Prozess werden Zieldaten mit Quelldaten verglichen, um sicherzustellen, dass die Migrationsarchitektur Daten überträgt. Datenvalidierung und -abstimmung (DVR) bezeichnet eine Technologie, die mathematische Modelle zur Verarbeitung von Informationen verwendet.
In diesem Tutorial lernen Sie:
- Was ist Datenabgleich?
- Warum ist Datenabstimmung wichtig?
- Terminologie für die Datenabstimmung
- Geschichte der Datenabstimmung
- Datenabgleichsprozess
- Best Practices für die Verwendung der Datenabstimmung
- Tools für die Datenabstimmung
Warum ist Datenabstimmung wichtig?
Während des Datenmigrationsprozesses können Fehler in der Zuordnungs- und Transformationslogik gemacht werden. Probleme wie Laufzeitfehler wie Netzwerkausfälle oder fehlerhafte Transaktionen können Daten beschädigen.
Diese Art von Fehlern kann dazu führen, dass Daten in einem ungültigen Zustand belassen werden. Dies kann zu einer Reihe von Problemen führen, wie z.
- Fehlende Aufzeichnungen
- Fehlende Werte
- Falsche Werte
- Doppelte Datensätze
- Schlecht formatierte Werte
- Unterbrochene Beziehungen zwischen Tabellen oder Systemen
Hier sind wichtige Gründe für die Verwendung des Datenabstimmungsprozesses:
- Die Verwendung der Datenabstimmung hilft Ihnen dabei, genaue und zuverlässige Informationen über den Stand des Industrieprozesses aus rohen Messdaten zu extrahieren.
- Es hilft Ihnen auch dabei, einen einzigen konsistenten Datensatz zu erstellen, der den wahrscheinlichsten Prozessvorgang darstellt.
- Dies führt auch zu ungenauen Einsichten und Problemen mit dem Kundenservice.
- Der Datenabgleich ist auch wichtig für die Integration von Unternehmenssteuerung.
Abgesehen von oben gibt es viele Vorteile / Vorteile der Datenabstimmung.
Terminologie für die Datenabstimmung
Grober Fehler | Grobe Messfehler. Es werden nur Vorspannungsfehler, Instrumentenfehler oder abnormale Rauschspitzen angezeigt, wenn Sie nur eine kurze Mittelungszeit verwenden. |
Beobachtbarkeit | Die Beobachtbarkeitsanalyse kann Ihnen Details darüber geben, welche Variablen für einen bestimmten Satz von Einschränkungen und einen Satz von Messungen bestimmt werden können. |
Varianz | Die Varianz ist ein Maß für die Variabilität eines Sensors. |
Redundanz | Mithilfe der Einschränkungsgleichungen können Sie bestimmen, welche Messungen aus anderen Variablen geschätzt werden sollen. |
Geschichte der Datenabstimmung
Hier finden Sie wichtige Meilensteine aus der Geschichte der Datenabstimmung.
- DVR (Data Validation and Reconciliation) begann in den frühen 1960er Jahren. Ziel war es, Materialbilanzen in der Produktion zu schließen, in denen für alle Variablen Rohmessungen verfügbar waren.
- In den späten 1960er Jahren wurden alle nicht gemessenen Variablen bei der Datenabstimmung berücksichtigt.
- Die quasistationäre Dynamik zur Filterung und zeitlichen Abschätzung paralleler Parameter wurde 1977 von Stanley und Mah eingeführt.
- Der dynamische DVR wurde als nichtlineares Optimierungsmodell entwickelt, das von Liebman im Jahr 1992 herausgegeben wurde
Datenabgleichsprozess
Arten von Datenabgleichsmethoden sind:
Stammdatenabgleich
Die Stammdatenabstimmung ist eine Technik, bei der nur die Stammdaten zwischen Quelle und Ziel abgeglichen werden. Stammdaten ändern sich meist nicht oder nur langsam, und es wird keine Aggregationsoperation für das Dataset durchgeführt.
Einige gängige Beispiele für die Abstimmung von Stammdaten sind:
- Gesamtzahl der Zeilen
- Gesamtkunde in Quelle und Ziel
- Gesamtzahl der Elemente in Quelle und Ziel
- Gesamtzahl der Zeilen basierend auf der gegebenen Bedingung
- Anzahl der aktiven Benutzer
- Anzahl inaktiver Benutzer usw.
Genauigkeit der Aktivität
- Sie müssen sicherstellen, dass die Transaktionen gültig und zweckmäßig sind.
- Sie müssen überprüfen, ob die Transaktionen ordnungsgemäß autorisiert wurden.
Transaktionsdatenabgleich
Transaktionsdaten bilden die Basis für BI-Berichte. Daher kann eine Nichtübereinstimmung der Transaktionsdaten die Zuverlässigkeit des Berichts und des gesamten BI-Systems im Allgemeinen direkt beeinflussen.
Die Methode zur Abstimmung von Transaktionsdaten wird in Bezug auf die Gesamtsumme verwendet, um Fehlanpassungen zu vermeiden, die durch die Änderung der Granularität qualifizierender Dimensionen verursacht werden.
Beispiele für Maßnahmen zur Abstimmung von Transaktionsdaten sollten sein:
- Summe des Gesamteinkommens berechnet aus Quelle und Ziel
- Summe des gesamten verkauften Artikels, berechnet aus Quelle und Ziel usw.
Automatisierte Datenabstimmung:
In einem großen Data Warehouse-Verwaltungssystem ist es praktisch, den Datenabgleich zu automatisieren, indem dies als integraler Bestandteil des Datenladens betrachtet wird. Sie können separate Metadatentabellen für das Laden verwalten. Darüber hinaus werden durch die automatische Abstimmung alle Beteiligten über die Gültigkeit der Berichte informiert.
Best Practices für die Verwendung der Datenabstimmung
- Der Datenabgleich sollte auf korrekte Messfehler abzielen.
- Die groben Fehler sollten Null sein, um den Datenabgleich effizient zu gestalten.
- Der Standardansatz der Datenabstimmung basiert auf einfachen Datensatzzählungen, um zu verfolgen, ob die angestrebte Anzahl von Datensätzen migriert wurde oder nicht.
- Die Datenmigrationslösung bietet ähnliche Abstimmungsfunktionen und Datenprototyping-Funktionen, die Datenabgleichstests in vollem Umfang ermöglichen.
Tools für die Datenabstimmung
1) OpenRefine
OpenRefine, früher bekannt als Google Refine, ist ein nützliches Framework für die Datenbankabstimmung. Sie können damit unordentliche Daten bereinigen und übertragen.
Download-Link: https://openrefine.org/
2) TIBCO Klarheit
Dieses Datenabgleichstool bietet On-Demand-Softwaredienste aus dem Internet in Form von Software-as-a-Service. Benutzer können die Daten validieren und Daten bereinigen. Es bietet vollständige Funktionen für Abstimmungstests. Weit verbreitet im ETL-Prozess.
Download-Link: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure ist eine kostengünstige und genaue Datenbereinigungssoftware. Sie können damit eine große Datenmenge bereinigen, Duplikate entfernen, korrigieren und standardisieren, um den endgültigen Datensatz zu entwerfen.
Download-Link: https://winpure.com/
Zusammenfassung
- Datenvalidierung und -abstimmung (DVR) ist eine Technologie, die mathematische Modelle zur Verarbeitung von Informationen verwendet.
- Die Verwendung der Datenabstimmung hilft Ihnen dabei, genaue und zuverlässige Informationen über den Stand des Industrieprozesses aus rohen Messdaten zu extrahieren.
- Bruttofehler, Beobachtbarkeit, Varianz, Redundanz sind wichtige Begriffe, die im Datenabgleichsprozess verwendet werden
- Die Datenvalidierung und -abstimmung begann in den frühen 1960er Jahren.
- Drei Arten von Datenabgleichsmethoden sind: 1) Stammdatenabstimmung 2) Transaktionsdatenabstimmung 3) Automatisierte Datenabstimmung
- Die groben Fehler sollten Null sein, um den Datenabgleich effizient zu gestalten.
- Einige wichtige Tools für die Datenabstimmung sind: 1) OpenRefine 2) TIBCO 3) Winpure
- Diese Methode ist in der Leistungs- und Prozessüberwachung in der Ölraffinerie- / Nuklear- / Chemieindustrie weit verbreitet