Top 25 Fragen zum ETL-Testinterview & Antworten

Anonim

Im Folgenden finden Sie häufig gestellte Fragen in Interviews für Erstsemester sowie erfahrene ETL-Tester und -Entwickler.

1) Was ist ETL?

In der Data Warehousing-Architektur ist ETL eine wichtige Komponente, die die Daten für jeden Geschäftsprozess verwaltet. ETL steht für Extrahieren, Transformieren und Laden . Beim Extrahieren werden Daten aus einer Datenbank gelesen. Transform führt die Konvertierung von Daten in ein Format durch, das für die Berichterstellung und Analyse geeignet sein könnte. Während des Ladevorgangs werden die Daten in die Zieldatenbank geschrieben.

2) Erklären Sie, was die ETL-Testvorgänge beinhalten.

ETL-Tests umfassen

  • Überprüfen Sie, ob die Daten gemäß den Geschäftsanforderungen korrekt transformiert werden
  • Stellen Sie sicher, dass die projizierten Daten ohne Kürzung und Datenverlust in das Data Warehouse geladen werden
  • Stellen Sie sicher, dass die ETL-Anwendung ungültige Daten meldet und durch Standardwerte ersetzt
  • Stellen Sie sicher, dass die Daten zum erwarteten Zeitpunkt geladen werden, um die Skalierbarkeit und Leistung zu verbessern

3) Erwähnen Sie, welche Arten von Data Warehouse-Anwendungen es gibt und was der Unterschied zwischen Data Mining und Data Warehousing ist.

Die Arten von Data Warehouse-Anwendungen sind

  • Info-Verarbeitung
  • Analytische Verarbeitung
  • Data Mining

Data Mining kann als der Prozess des Extrahierens versteckter Vorhersageinformationen aus großen Datenbanken und des Interpretierens der Daten definiert werden, während Data Warehousing eine Datenmine zur schnelleren analytischen Verarbeitung der Daten verwenden kann. Beim Data Warehousing werden Daten aus mehreren Quellen in einem gemeinsamen Repository zusammengefasst

4) Welche verschiedenen Tools werden in ETL verwendet?

  • Cognos Decision Stream
  • Oracle Warehouse Builder
  • Geschäftsobjekte XI
  • SAS Business Warehouse
  • SAS Enterprise ETL-Server

5) Was ist Tatsache? Was sind die Arten von Fakten?

Es ist eine zentrale Komponente eines mehrdimensionalen Modells, das die zu analysierenden Maßnahmen enthält. Fakten beziehen sich auf Dimensionen.

Arten von Fakten sind

  • Additive Fakten
  • Halbadditive Fakten
  • Nichtadditive Fakten

6) Erklären Sie, was Cubes und OLAP Cubes sind.

Cubes sind Datenverarbeitungseinheiten, die aus Faktentabellen und Dimensionen aus dem Data Warehouse bestehen. Es bietet mehrdimensionale Analyse.

OLAP steht für Online Analytics Processing, und der OLAP-Cube speichert große Datenmengen zu Berichtszwecken in mehrdimensionaler Form. Es besteht aus Fakten, die als nach Dimensionen kategorisierte Kennzahlen bezeichnet werden.

7) Erklären Sie, was die Ablaufverfolgungsstufe ist und welche Typen es gibt.

Die Ablaufverfolgungsstufe ist die Datenmenge, die in den Protokolldateien gespeichert ist. Die Ablaufverfolgungsstufe kann in zwei normale und ausführliche Ebenen unterteilt werden. Die normale Ebene erklärt die Ablaufverfolgungsstufe detailliert, während die ausführliche Ebene die Ablaufverfolgungsstufen in jeder einzelnen Zeile ausführlich erläutert.

8) Erklären Sie, was Grain of Fact ist.

Getreidefakten können als die Ebene definiert werden, auf der die Fakteninformationen gespeichert werden. Es ist auch als Fact Granularity bekannt

9) Erklären Sie, was ein faktenloses Faktenschema ist und was Maßnahmen sind.

Eine Faktentabelle ohne Kennzahlen wird als Faktentabelle bezeichnet. Es kann die Anzahl der auftretenden Ereignisse anzeigen. Beispielsweise wird es verwendet, um ein Ereignis wie die Anzahl der Mitarbeiter in einem Unternehmen aufzuzeichnen.

Die numerischen Daten, die auf Spalten in einer Faktentabelle basieren, werden als Kennzahlen bezeichnet

10) Erklären Sie, was Transformation ist.

Eine Transformation ist ein Repository-Objekt, das Daten generiert, ändert oder weitergibt. Es gibt zwei Arten von Transformationen: Aktiv und Passiv

11) Erklären Sie die Verwendung der Lookup-Transformation?

Die Lookup-Transformation ist nützlich für

  • Abrufen eines verwandten Werts aus einer Tabelle mithilfe eines Spaltenwerts
  • Aktualisieren Sie die sich langsam ändernde Dimensionstabelle
  • Überprüfen Sie, ob bereits Datensätze in der Tabelle vorhanden sind

12) Erklären Sie, was Partitionierung, Hash-Partitionierung und Round-Robin-Partitionierung ist.

Um die Leistung zu verbessern, werden Transaktionen unterteilt. Dies wird als Partitionierung bezeichnet. Durch die Partitionierung kann Informatica Server mehrere Verbindungen zu verschiedenen Quellen herstellen

Die Arten von Partitionen sind

Round-Robin-Partitionierung:

  • Durch informatica werden die Daten gleichmäßig auf alle Partitionen verteilt
  • In jeder Partition, in der die Anzahl der zu verarbeitenden Zeilen ungefähr gleich ist, gilt diese Partitionierung

Hash-Partitionierung:

  • Zum Partitionieren von Schlüsseln zum Gruppieren von Daten zwischen Partitionen wendet der Informatica-Server eine Hash-Funktion an
  • Es wird verwendet, um sicherzustellen, dass die Prozessgruppen von Zeilen mit demselben Partitionierungsschlüssel in derselben Partition sichergestellt werden müssen

13) Erwähnen Sie, welchen Vorteil die Verwendung des DataReader-Zieladapters hat.

Der Vorteil der Verwendung des DataReader-Zieladapters besteht darin, dass er ein ADO-Recordset (bestehend aus Datensätzen und Spalten) im Speicher auffüllt und die Daten aus der DataFlow-Task durch Implementierung der DataReader-Schnittstelle verfügbar macht, sodass andere Anwendungen die Daten verwenden können.

14) Welche Möglichkeiten gibt es, die Tabelle mithilfe von SSIS (SQL Server Integration Service) zu aktualisieren?

Um die Tabelle mit SSIS zu aktualisieren, gibt es folgende Möglichkeiten:

  • Verwenden Sie einen SQL-Befehl
  • Verwenden Sie eine Staging-Tabelle
  • Cache verwenden
  • Verwenden Sie die Skriptaufgabe
  • Verwenden Sie den vollständigen Datenbanknamen zum Aktualisieren, wenn MSSQL verwendet wird

15) Wenn Sie eine Nicht-OLEDB-Quelle (Object Linking and Embedding Database) für die Suche haben, was würden Sie tun?

Wenn Sie eine Nicht-OLEBD-Quelle für die Suche haben, müssen Sie den Cache verwenden, um Daten zu laden und als Quelle zu verwenden

16) In welchem ​​Fall verwenden Sie dynamischen und statischen Cache in verbundenen und nicht verbundenen Transformationen?

  • Der dynamische Cache wird verwendet, wenn Sie die Mastertabelle aktualisieren und die Dimensionen (SCD) Typ 1 langsam ändern müssen
  • Für Flatfiles wird der statische Cache verwendet

17) Erklären Sie, was die Unterschiede zwischen nicht verbundener und verbundener Suche sind.

Verbundene Suche

Nicht verbundene Suche

  • Die verbundene Suche nimmt am Mapping teil

- Wird verwendet, wenn während der Zuordnung die Suchfunktion anstelle einer Ausdruckstransformation verwendet wird

  • Es können mehrere Werte zurückgegeben werden

- Gibt nur einen Ausgangsport zurück

  • Es kann mit anderen Transformationen verbunden werden und gibt einen Wert zurück
  • Eine andere Transformation kann nicht verbunden werden
  • Statischer oder dynamischer Cache kann für die verbundene Suche verwendet werden
  • Nicht verbunden als nur statischer Cache
  • Connected Lookup unterstützt benutzerdefinierte Standardwerte
  • Die Suche nach nicht verbundenen Verbindungen unterstützt keine benutzerdefinierten Standardwerte
  • In Connected Lookup können mehrere Spalten aus derselben Zeile zurückgegeben oder in den dynamischen Lookup-Cache eingefügt werden
  • Nicht verbundene Suche bezeichnet einen Rückgabeport und gibt eine Spalte aus jeder Zeile zurück

18) Erklären Sie, was Datenquellenansicht ist.

In einer Datenquellenansicht kann das relationale Schema definiert werden, das in den Analysedienstdatenbanken verwendet wird. Anstatt direkt aus Datenquellenobjekten werden Dimensionen und Cubes aus Datenquellenansichten erstellt.

19) Erklären Sie, was der Unterschied zwischen OLAP-Tools und ETL-Tools ist.

Der Unterschied zwischen ETL- und OLAP-Tool besteht darin, dass

Das ETL-Tool dient zum Extrahieren von Daten aus den Altsystemen und zum Laden in eine bestimmte Datenbank mit einem gewissen Prozess zum Bereinigen von Daten.

Beispiel: Datenphase, Informatica etc.

Während OLAP für Berichtszwecke in OLAP-Daten gedacht ist, die im multidirektionalen Modell verfügbar sind.

Beispiel: Geschäftsobjekte, Cognos usw.

20) Wie können Sie mit Informatica SAP-Daten extrahieren?

  • Mit der Option Power Connect extrahieren Sie SAP-Daten mit informatica
  • Installieren und konfigurieren Sie das PowerConnect-Tool
  • Importieren Sie die Quelle in den Source Analyzer. Zwischen Informatica und SAP fungiert Powerconnect als Gateway. Der nächste Schritt besteht darin, den ABAP-Code für das Mapping zu generieren. Dann kann nur informatica Daten aus SAP abrufen
  • Zum Verbinden und Importieren von Quellen von externen Systemen wird Power Connect verwendet

21) Erwähnen Sie, was der Unterschied zwischen Power Mart und Power Center ist.

Kraftzentrum

Power Mart

  • Angenommen, Sie verarbeiten ein großes Datenvolumen
  • Angenommen, Sie verarbeiten ein geringes Datenvolumen
  • Es unterstützt ERP-Quellen wie SAP, People Soft usw.
  • ERP-Quellen werden nicht unterstützt
  • Es unterstützt lokales und globales Repository
  • Es unterstützt das lokale Repository
  • Es konvertiert lokales in globales Repository
  • Es gibt keine Spezifikation zum Konvertieren von lokalem in globales Repository

22) Erklären Sie, was ein Bereitstellungsbereich ist und wozu ein Bereitstellungsbereich dient.

Data Staging ist ein Bereich, in dem Sie die Daten vorübergehend auf dem Data Warehouse-Server speichern. Die Datenbereitstellung umfasst die folgenden Schritte

  • Quelldatenextraktion und Datentransformation (Restrukturierung)
  • Datentransformation (Datenbereinigung, Werttransformation)
  • Ersatzschlüsselzuweisungen

23) Was ist ein Busschema?

Für die verschiedenen Geschäftsprozesse zur Identifizierung der gemeinsamen Dimensionen wird das BUS-Schema verwendet. Es kommt mit konformen Dimensionen zusammen mit einer standardisierten Definition von Informationen

24) Erklären Sie, was Datenbereinigung ist.

Beim Löschen von Daten werden Daten aus dem Data Warehouse gelöscht. Es löscht Junk-Daten wie Zeilen mit Nullwerten oder zusätzlichen Leerzeichen.

25) Erklären Sie, was Schemaobjekte sind.

Schemaobjekte sind die logische Struktur, die direkt auf die Datenbankdaten verweist. Schemaobjekte umfassen Tabellen, Ansichten, Sequenzsynonyme, Indizes, Cluster, Funktionspakete und Datenbankverknüpfungen

26) Erklären Sie diese Begriffe Sitzung, Worklet, Mapplet und Workflow?

  • Mapplet: Es arrangiert oder erstellt Transformationssätze
  • Worklet: Es stellt eine bestimmte Reihe von Aufgaben dar
  • Workflow: Es handelt sich um eine Reihe von Anweisungen, die dem Server mitteilen, wie Aufgaben ausgeführt werden sollen
  • Sitzung: Dies ist eine Reihe von Parametern, die dem Server mitteilen, wie Daten von Quellen zu Zielen verschoben werden sollen

Kostenloser PDF-Download: Fragen und Antworten zum ETL-Testinterview