Top 62 Fragen zum Data Engineer-Interview & Antworten

Hier finden Sie häufig gestellte Fragen zu Vorstellungsgesprächen für Dateningenieure, sowohl für Erstsemester als auch für erfahrene Kandidaten, um den richtigen Job zu finden.

1) Erklären Sie Data Engineering.

Data Engineering ist ein Begriff, der in Big Data verwendet wird. Es konzentriert sich auf die Anwendung der Datenerfassung und -forschung. Die aus verschiedenen Quellen generierten Daten sind nur Rohdaten. Data Engineering hilft dabei, diese Rohdaten in nützliche Informationen umzuwandeln.

2) Was ist Datenmodellierung?

Datenmodellierung ist die Methode, um komplexes Software-Design als Diagramm zu dokumentieren, damit jeder es leicht verstehen kann. Es ist eine konzeptionelle Darstellung von Datenobjekten, die zwischen verschiedenen Datenobjekten und den Regeln verknüpft sind.

3) Listen Sie verschiedene Arten von Entwurfsschemata in der Datenmodellierung auf

Bei der Datenmodellierung gibt es hauptsächlich zwei Arten von Schemata: 1) Sternschema und 2) Schneeflockenschema.

4) Unterscheiden Sie zwischen strukturierten und unstrukturierten Daten

Es folgt ein Unterschied zwischen strukturierten und unstrukturierten Daten:

Parameter	Strukturierte Daten	Unstrukturierte Daten
Lager	DBMS	Nicht verwaltete Dateistrukturen
Standard	ADO.net, ODBC und SQL	STMP, XML, CSV und SMS
Integrationstool	ELT (Extrahieren, Transformieren, Laden)	Manuelle Dateneingabe oder Stapelverarbeitung mit Codes
Skalierung	Die Schemaskalierung ist schwierig	Das Skalieren ist sehr einfach.

5) Erklären Sie alle Komponenten einer Hadoop-Anwendung

Im Folgenden sind die Komponenten der Hadoop-Anwendung aufgeführt:

Hadoop Common: Dies ist ein allgemeiner Satz von Dienstprogrammen und Bibliotheken, die von Hadoop verwendet werden.
HDFS: Diese Hadoop-Anwendung bezieht sich auf das Dateisystem, in dem die Hadoop-Daten gespeichert sind. Es ist ein verteiltes Dateisystem mit hoher Bandbreite.
Hadoop MapReduce: Es basiert auf dem Algorithmus für die Bereitstellung einer umfangreichen Datenverarbeitung.
Hadoop YARN: Wird für die Ressourcenverwaltung innerhalb des Hadoop-Clusters verwendet. Es kann auch zur Aufgabenplanung für Benutzer verwendet werden.

6) Was ist NameNode?

Es ist das Herzstück von HDFS. Es speichert HDFS-Daten und verfolgt verschiedene Dateien in den Clustern. Hier werden die eigentlichen Daten nicht gespeichert. Die Daten werden in DataNodes gespeichert.

7) Definieren Sie das Hadoop-Streaming

Es ist ein Dienstprogramm, mit dem die Karte erstellt, Jobs reduziert und an einen bestimmten Cluster gesendet werden können.

8) Was ist die vollständige Form von HDFS?

HDFS steht für Hadoop Distributed File System.

9) Definieren Sie Block und Block Scanner in HDFS

Blöcke sind die kleinste Einheit einer Datendatei. Hadoop teilt große Dateien automatisch in kleine Teile.

Block Scanner überprüft die Liste der Blöcke, die auf einem DataNode angezeigt werden.

10) Welche Schritte werden ausgeführt, wenn der Block-Scanner einen beschädigten Datenblock erkennt?

Die folgenden Schritte werden ausgeführt, wenn der Block-Scanner einen beschädigten Datenblock findet:

1) Wenn der Block-Scanner einen beschädigten Datenblock findet, meldet DataNode zunächst NameNode

2) NameNode startet den Prozess des Erstellens eines neuen Replikats unter Verwendung eines Replikats des beschädigten Blocks.

3) Die Replikationsanzahl der korrekten Replikate versucht, mit dem Replikationsfaktor übereinzustimmen. Wenn die gefundene Übereinstimmung beschädigt wurde, wird der beschädigte Datenblock nicht gelöscht.

11) Nennen Sie zwei Nachrichten, die NameNode von DataNode erhält.

Es gibt zwei Nachrichten, die NameNode von DataNode erhält. Sie sind 1) Blockbericht und 2) Herzschlag.

12) Verschiedene XML-Konfigurationsdateien in Hadoop auflisten?

In Hadoop gibt es fünf XML-Konfigurationsdateien:

Mapred-Site
Core-Site
HDFS-Seite
Garnstelle

13) Was sind vier Vs von Big Data?

Vier Vs von Big Data sind:

Geschwindigkeit
Vielfalt
Volumen
Richtigkeit

14) Erklären Sie die Funktionen von Hadoop

Wichtige Funktionen von Hadoop sind:

Es ist ein Open-Source-Framework, das als Freeware verfügbar ist.
Hadoop ist mit den vielen Hardwaretypen kompatibel und bietet einfachen Zugriff auf neue Hardware innerhalb eines bestimmten Knotens.
Hadoop unterstützt eine schneller verteilte Datenverarbeitung.
Es speichert die Daten im Cluster, der von den übrigen Vorgängen unabhängig ist.
Mit Hadoop können 3 Replikate für jeden Block mit unterschiedlichen Knoten erstellt werden.

15) Erklären Sie die wichtigsten Methoden des Reduzierers

setup (): Wird zum Konfigurieren von Parametern wie der Größe der Eingabedaten und des verteilten Caches verwendet.
cleanup (): Mit dieser Methode werden temporäre Dateien bereinigt.
redu (): Dies ist ein Herzstück des Reduzierers, das einmal pro Schlüssel mit der zugehörigen reduzierten Aufgabe aufgerufen wird

16) Was ist die Abkürzung für COSHH?

Die Abkürzung für COSHH lautet Classification and Optimization Based Schedule für heterogene Hadoop-Systeme.

17) Erklären Sie das Sternschema

Das Sternschema oder das Sternverknüpfungsschema ist der einfachste Typ eines Data Warehouse-Schemas. Es ist als Sternschema bekannt, weil seine Struktur wie ein Stern ist. Im Sternschema kann die Mitte des Sterns eine Faktentabelle und mehrere zugeordnete Dimensionstabellen haben. Dieses Schema wird zum Abfragen großer Datenmengen verwendet.

18) Wie kann eine Big-Data-Lösung bereitgestellt werden?

Führen Sie die folgenden Schritte aus, um eine Big-Data-Lösung bereitzustellen.

1) Integrieren Sie Daten mithilfe von Datenquellen wie RDBMS, SAP, MySQL, Salesforce

2) Speichern Sie die extrahierten Daten entweder in der NoSQL-Datenbank oder in HDFS.

3) Stellen Sie eine Big-Data-Lösung mithilfe von Verarbeitungsframeworks wie Pig, Spark und MapReduce bereit.

19) Erklären Sie FSCK

File System Check oder FSCK ist ein Befehl, der von HDFS verwendet wird. Der FSCK-Befehl wird verwendet, um Inkonsistenzen und Probleme in der Datei zu überprüfen.

20) Erklären Sie das Schneeflockenschema

Ein Schneeflockenschema ist eine Erweiterung eines Sternschemas und fügt zusätzliche Dimensionen hinzu. Es wird als Schneeflocke bezeichnet, da sein Diagramm wie eine Schneeflocke aussieht. Die Dimensionstabellen sind normalisiert, wodurch Daten in zusätzliche Tabellen aufgeteilt werden.

21) Unterscheiden Sie zwischen Stern- und Schneeflockenschema

Star	SnowFlake-Schema
Dimensionshierarchien werden in einer Dimensionstabelle gespeichert.	Jede Hierarchie wird in separaten Tabellen gespeichert.
Die Wahrscheinlichkeit einer Datenredundanz ist hoch	Die Wahrscheinlichkeit einer Datenredundanz ist gering.
Es hat ein sehr einfaches DB-Design	Es hat ein komplexes DB-Design
Bieten Sie eine schnellere Möglichkeit für die Cube-Verarbeitung	Die Cube-Verarbeitung ist aufgrund der komplexen Verknüpfung langsam.

22) Erklären Sie das verteilte Hadoop-Dateisystem

Hadoop arbeitet mit skalierbaren verteilten Dateisystemen wie S3, HFTP FS, FS und HDFS. Das verteilte Hadoop-Dateisystem wird im Google-Dateisystem erstellt. Dieses Dateisystem ist so konzipiert, dass es problemlos auf einem großen Cluster des Computersystems ausgeführt werden kann.

23) Erläutern Sie die Hauptaufgaben eines Dateningenieurs

Dateningenieure haben viele Verantwortlichkeiten. Sie verwalten das Quellsystem der Daten. Dateningenieure vereinfachen die komplexe Datenstruktur und verhindern die Verdoppelung von Daten. Oft bieten sie auch ELT und Datentransformation.

24) Was ist die vollständige Form von YARN?

Die vollständige Form von YARN ist ein weiterer Ressourcenverhandler.

25) Listen Sie verschiedene Modi in Hadoop auf

Die Modi in Hadoop sind 1) Standalone-Modus 2) Pseudo-Distributed-Modus 3) Vollverteilter Modus.

26) Wie erreicht man Sicherheit in Hadoop?

Führen Sie die folgenden Schritte aus, um die Sicherheit in Hadoop zu erreichen:

1) Der erste Schritt besteht darin, den Authentifizierungskanal des Clients auf dem Server zu sichern. Geben Sie dem Kunden einen Zeitstempel.

2) Im zweiten Schritt verwendet der Client den empfangenen Zeitstempel, um TGS für ein Serviceticket anzufordern.

3) Im letzten Schritt verwendet der Client das Serviceticket zur Selbstauthentifizierung bei einem bestimmten Server.

27) Was ist Herzschlag in Hadoop?

In Hadoop kommunizieren NameNode und DataNode miteinander. Heartbeat ist das Signal, das DataNode regelmäßig an NameNode sendet, um dessen Vorhandensein anzuzeigen.

28) Unterscheiden Sie zwischen NAS und DAS in Hadoop

NAS	DAS
Die Speicherkapazität beträgt 10 ⁹ bis 10 ¹² Byte.	Die Speicherkapazität beträgt 10 ⁹ in Byte.
Die Verwaltungskosten pro GB sind moderat.	Die Verwaltungskosten pro GB sind hoch.
Übertragen Sie Daten über Ethernet oder TCP / IP.	Übertragen Sie Daten mit IDE / SCSI

29) Listen Sie wichtige Felder oder Sprachen auf, die vom Dateningenieur verwendet werden

Hier sind einige Felder oder Sprachen, die vom Dateningenieur verwendet werden:

Wahrscheinlichkeit sowie lineare Algebra
Maschinelles Lernen
Trendanalyse und Regression
Hive QL- und SQL-Datenbanken

30) Was ist Big Data?

Es handelt sich um eine große Menge strukturierter und unstrukturierter Daten, die mit herkömmlichen Datenspeichermethoden nicht einfach verarbeitet werden können. Dateningenieure verwenden Hadoop zur Verwaltung von Big Data.

31) Was ist FIFO-Planung?

Es ist ein Hadoop-Jobplanungsalgorithmus. Bei dieser FIFO-Planung wählt ein Reporter Jobs aus einer Arbeitswarteschlange aus, wobei der älteste Job zuerst ausgeführt wird.

32) Erwähnen Sie die Standardportnummern, auf denen Task-Tracker, NameNode und Job-Tracker in Hadoop ausgeführt werden

Die Standardportnummern, auf denen Task-Tracker, NameNode und Job-Tracker in Hadoop ausgeführt werden, lauten wie folgt:

Der Task-Tracker wird auf dem 50060-Port ausgeführt
NameNode wird auf dem 50070-Port ausgeführt
Job Tracker wird auf dem 50030-Port ausgeführt

33) Deaktivieren des Blockscanners auf dem HDFS-Datenknoten

Um Block Scanner auf dem HDFS-Datenknoten zu deaktivieren, setzen Sie dfs.datanode.scan.period.hours auf 0.

34) Wie definiere ich den Abstand zwischen zwei Knoten in Hadoop?

Die Entfernung entspricht der Summe der Entfernung zu den nächstgelegenen Knoten. Mit der Methode getDistance () wird der Abstand zwischen zwei Knoten berechnet.

35) Warum in Hadoop Standardhardware verwenden?

Commodity-Hardware ist einfach zu beschaffen und erschwinglich. Es ist ein System, das mit Windows, MS-DOS oder Linux kompatibel ist.

36) Definieren Sie den Replikationsfaktor in HDFS

Der Replikationsfaktor ist die Gesamtzahl der Replikate einer Datei im System.

37) Welche Daten werden in NameNode gespeichert?

Namenode speichert die Metadaten für das HDFS wie Blockinformationen und Namespace-Informationen.

38) Was meinst du mit Rack Awareness?

In Haddop-Clustern verwendet Namenode den Datenknoten, um den Netzwerkverkehr zu verbessern, während Dateien gelesen oder geschrieben werden, die näher am nahe gelegenen Rack liegen, um Anforderungen zu lesen oder zu schreiben. Namenode verwaltet die Rack-ID jedes DataNode, um Rack-Informationen zu erhalten. Dieses Konzept wird in Hadoop als Rack Awareness bezeichnet.

39) Was sind die Funktionen von Secondary NameNode?

Im Folgenden sind die Funktionen von Secondary NameNode aufgeführt:

FsImage, das eine Kopie der EditLog- und FsImage-Datei speichert.
NameNode-Absturz: Wenn der NameNode abstürzt, kann das FsImage von Secondary NameNode verwendet werden, um den NameNode neu zu erstellen.
Prüfpunkt: Wird von Secondary NameNode verwendet, um zu bestätigen, dass Daten in HDFS nicht beschädigt sind.
Update: Die EditLog- und FsImage-Datei werden automatisch aktualisiert. Es ist hilfreich, die FsImage-Datei auf Secondary NameNode auf dem neuesten Stand zu halten.

40) Was passiert, wenn NameNode nicht verfügbar ist und der Benutzer einen neuen Job sendet?

NameNode ist der einzige Fehlerpunkt in Hadoop, sodass der Benutzer keinen neuen Job senden kann, der nicht ausgeführt werden kann. Wenn der NameNode nicht verfügbar ist, schlägt der Job möglicherweise fehl, da dieser Benutzer warten muss, bis NameNode neu gestartet wird, bevor ein Job ausgeführt wird.

41) Was sind die Grundphasen des Reduzierers in Hadoop?

Es gibt drei grundlegende Phasen eines Reduzierers in Hadoop:

1. Shuffle: Hier kopiert Reducer die Ausgabe von Mapper.

2. Sortieren: Beim Sortieren sortiert Hadoop die Eingabe in Reducer mit derselben Taste.

3. Reduzieren: In dieser Phase werden die mit einem Schlüssel verknüpften Ausgabewerte reduziert, um die Daten in der endgültigen Ausgabe zu konsolidieren.

42) Warum verwendet Hadoop das Kontextobjekt?

Das Hadoop-Framework verwendet das Context-Objekt mit der Mapper-Klasse, um mit dem verbleibenden System zu interagieren. Das Kontextobjekt ruft die Systemkonfigurationsdetails und den Job in seinem Konstruktor ab.

Wir verwenden das Context-Objekt, um die Informationen in den Methoden setup (), cleanup () und map () zu übergeben. Dieses Objekt stellt wichtige Informationen während der Kartenoperationen zur Verfügung.

43) Kombinierer in Hadoop definieren

Dies ist ein optionaler Schritt zwischen Map und Reduce. Combiner übernimmt die Ausgabe der Map-Funktion, erstellt Schlüsselwertpaare und sendet sie an Hadoop Reducer. Die Aufgabe von Combiner besteht darin, das Endergebnis von Map mit einem identischen Schlüssel in Zusammenfassungsdatensätzen zusammenzufassen.

44) Was ist der in HDFS verfügbare Standardreplikationsfaktor? Was zeigt er an?

Der in HDFS verfügbare Standardreplikationsfaktor beträgt drei. Der Standardreplikationsfaktor gibt an, dass für jede Daten drei Replikate vorhanden sind.

45) Was meinst du mit Datenlokalität in Hadoop?

In einem Big Data-System ist die Datengröße sehr groß, und deshalb ist es nicht sinnvoll, Daten über das Netzwerk zu verschieben. Jetzt versucht Hadoop, die Berechnung näher an die Daten heranzuführen. Auf diese Weise bleiben die Daten lokal am gespeicherten Ort.

46) Definieren Sie Balancer in HDFS

In HDFS ist der Balancer eine Verwaltung, die von Verwaltungsmitarbeitern verwendet wird, um Daten über DataNodes hinweg neu zu verteilen und Blöcke von überlasteten zu nicht ausgelasteten Knoten zu verschieben.

47) Erklären Sie den abgesicherten Modus in HDFS

Es ist ein schreibgeschützter Modus von NameNode in einem Cluster. NameNode befindet sich zunächst im Safemode. Es verhindert das Schreiben in das Dateisystem in Safemode. Zu diesem Zeitpunkt werden Daten und Statistiken von allen DataNodes erfasst.

48) Welche Bedeutung hat verteilter Cache in Apache Hadoop?

Hadoop verfügt über ein nützliches Dienstprogramm, den sogenannten verteilten Cache, der die Leistung von Jobs verbessert, indem die von Anwendungen verwendeten Dateien zwischengespeichert werden. Eine Anwendung kann mithilfe der JobConf-Konfiguration eine Datei für den Cache angeben.

Das Hadoop-Framework erstellt eine Replik dieser Dateien auf die Knoten, auf denen eine Aufgabe ausgeführt werden muss. Dies erfolgt vor Beginn der Ausführung der Aufgabe. Der verteilte Cache unterstützt die Verteilung von schreibgeschützten Dateien sowie von ZIP- und JAR-Dateien.

49) Was ist Metastore in Hive?

Es speichert das Schema sowie den Speicherort der Hive-Tabelle.

Hive-Tabelle definiert, Zuordnungen und Metadaten, die im Metastore gespeichert sind. Dies kann in RDBMS gespeichert werden, das von JPOX unterstützt wird.

50) Was bedeutet SerDe in Hive?

SerDe ist eine Abkürzung für Serializer oder Deserializer. In Hive ermöglicht SerDe das Lesen von Daten aus einer Tabelle in ein bestimmtes Feld und das Schreiben in ein bestimmtes Feld in einem beliebigen Format.

51) Listen Sie die im Hive-Datenmodell verfügbaren Komponenten auf

Das Hive-Datenmodell enthält die folgenden Komponenten:

Tabellen
Partitionen
Eimer

52) Erläutern Sie die Verwendung von Hive im Hadoop-Ökosystem.

Hive bietet eine Schnittstelle zur Verwaltung der im Hadoop-Ökosystem gespeicherten Daten. Hive wird zum Zuordnen und Arbeiten mit HBase-Tabellen verwendet. Hive-Abfragen werden in MapReduce-Jobs konvertiert, um die Komplexität beim Erstellen und Ausführen von MapReduce-Jobs zu verbergen.

53) Liste verschiedener komplexer Datentypen / Sammlungen, die von Hive unterstützt werden

Hive unterstützt die folgenden komplexen Datentypen:

Karte
Struct
Array
Union

54) Erklären Sie, wie die .hiverc-Datei in Hive verwendet wird.

In Hive ist .hiverc die Initialisierungsdatei. Diese Datei wird anfänglich geladen, wenn wir die Befehlszeilenschnittstelle (Command Line Interface, CLI) für Hive starten. Wir können die Anfangswerte der Parameter in der .hiverc-Datei festlegen.

55) Ist es möglich, in Hive mehr als eine Tabelle für eine einzelne Datendatei zu erstellen?

Ja, wir können mehr als ein Tabellenschema für eine Datendatei erstellen. Hive speichert das Schema im Hive Metastore. Basierend auf diesem Schema können wir unterschiedliche Ergebnisse aus denselben Daten abrufen.

56) Erläutern Sie die verschiedenen in Hive verfügbaren SerDe-Implementierungen

In Hive sind viele SerDe-Implementierungen verfügbar. Sie können auch Ihre eigene benutzerdefinierte SerDe-Implementierung schreiben. Es folgen einige berühmte SerDe-Implementierungen:

OpenCSVSerde
RegexSerDe
DelimitedJSONSerDe
ByteStreamTypedSerDe

57) In Hive verfügbare Funktionen zum Generieren von Tabellenlisten

Im Folgenden finden Sie eine Liste der Funktionen zum Generieren von Tabellen:

Explodieren (Array)
JSON_tuple ()
Stapel()
Explodieren (Karte)

58) Was ist ein verzerrter Tisch in Hive?

Eine verzerrte Tabelle ist eine Tabelle, die häufiger Spaltenwerte enthält. Wenn wir in Hive während der Erstellung eine Tabelle als SKEWED angeben, werden verzerrte Werte in separate Dateien geschrieben, und die verbleibenden Werte werden in eine andere Datei verschoben.

59) Listen Sie Objekte auf, die mit der create-Anweisung in MySQL erstellt wurden.

Objekte, die durch die create-Anweisung in MySQL erstellt wurden, lauten wie folgt:

Datenbank
Index
Tabelle
Nutzer
Verfahren
Auslösen
Veranstaltung
Aussicht
Funktion

60) Wie wird die Datenbankstruktur in MySQL angezeigt?

Um die Datenbankstruktur in MySQL zu sehen, können Sie verwenden

Befehl DESCRIBE. Die Syntax dieses Befehls lautet DESCRIBE Tabellenname;.

61) Wie suche ich nach einem bestimmten String in der MySQL-Tabellenspalte?

Verwenden Sie den Regex-Operator, um in der MySQL-Spalte nach einem String zu suchen. Hier können wir auch verschiedene Arten von regulären Ausdrücken definieren und nach Regex suchen.

62) Erklären Sie, wie Datenanalyse und Big Data den Umsatz des Unternehmens steigern können.

Im Folgenden finden Sie Möglichkeiten, wie Datenanalyse und Big Data den Umsatz des Unternehmens steigern können:

Verwenden Sie Daten effizient, um das Geschäftswachstum sicherzustellen.
Steigern Sie den Kundennutzen.
Analytisch werden, um die Prognosen zum Personalbestand zu verbessern.
Reduzierung der Produktionskosten der Organisationen.