In diesem Tutorial werden wir Sie Schritt für Schritt durch die Installation von Apache Hadoop auf einer Linux-Box (Ubuntu) führen. Dies ist ein zweiteiliger Prozess
- Teil 1) Laden Sie Hadoop herunter und installieren Sie es
- Teil 2) Konfigurieren Sie Hadoop
Es gibt 2 Voraussetzungen
- Sie müssen Ubuntu installiert haben und ausführen
- Sie müssen Java installiert haben.
Teil 1) Laden Sie Hadoop herunter und installieren Sie es
Schritt 1) Fügen Sie mit dem folgenden Befehl einen Hadoop-Systembenutzer hinzu
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Geben Sie Ihr Passwort, Ihren Namen und andere Details ein.
HINWEIS: Bei diesem Einrichtungs- und Installationsvorgang besteht die Möglichkeit eines der unten genannten Fehlers.
"hduser ist nicht in der sudoers-Datei enthalten. Dieser Vorfall wird gemeldet."
Dieser Fehler kann durch Anmelden als Root-Benutzer behoben werden
Führen Sie den Befehl aus
sudo adduser hduser_ sudo
Re-login as hduser_
Schritt 2) Konfigurieren Sie SSH
Um Knoten in einem Cluster zu verwalten, benötigt Hadoop SSH-Zugriff
Wechseln Sie zuerst den Benutzer und geben Sie den folgenden Befehl ein
su - hduser_
Dieser Befehl erstellt einen neuen Schlüssel.
ssh-keygen -t rsa -P ""
Aktivieren Sie mit diesem Schlüssel den SSH-Zugriff auf den lokalen Computer.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Testen Sie nun das SSH-Setup, indem Sie als 'hduser'-Benutzer eine Verbindung zu localhost herstellen.
ssh localhost
Hinweis: Bitte beachten Sie, dass, wenn unten ein Fehler als Antwort auf 'ssh localhost' angezeigt wird, die Möglichkeit besteht, dass SSH auf diesem System nicht verfügbar ist.
Um dies zu beheben -
SSH löschen mit,
sudo apt-get purge openssh-server
Es wird empfohlen, vor Beginn der Installation zu spülen
Installieren Sie SSH mit dem Befehl-
sudo apt-get install openssh-server
Schritt 3) Der nächste Schritt ist das Herunterladen von Hadoop
Wählen Sie Stabil
Wählen Sie die Datei tar.gz aus (nicht die Datei mit src).
Navigieren Sie nach Abschluss eines Downloads zu dem Verzeichnis, in dem sich die TAR-Datei befindet
Eingeben,
sudo tar xzf hadoop-2.2.0.tar.gz
Benennen Sie nun hadoop-2.2.0 in hadoop um
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Teil 2) Konfigurieren Sie Hadoop
Schritt 1) Ändern ~ / .bashrc - Datei
Fügen Sie am Ende der Datei ~ / .bashrc die folgenden Zeilen hinzu
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Geben Sie nun diese Umgebungskonfiguration mit dem folgenden Befehl ein
. ~/.bashrc
Schritt 2) Konfigurationen in Bezug auf HDFS
Setzen Sie JAVA_HOME in die Datei $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Mit
In $ HADOOP_HOME / etc / hadoop / core-site.xml gibt es zwei Parameter, die gesetzt werden müssen:
1. 'hadoop.tmp.dir' - Wird verwendet, um ein Verzeichnis anzugeben, das von Hadoop zum Speichern seiner Datendateien verwendet wird.
2. 'fs.default.name' - Gibt das Standarddateisystem an.
Öffnen Sie zum Festlegen dieser Parameter die Datei core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Kopieren Sie die folgende Zeile zwischen den Tags
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Navigieren Sie zum Verzeichnis $ HADOOP_HOME / etc / Hadoop
Erstellen Sie nun das in core-site.xml erwähnte Verzeichnis
sudo mkdir -p
Erteilen Sie dem Verzeichnis Berechtigungen
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Schritt 3) Map Reduce Configuration
Bevor Sie mit diesen Konfigurationen beginnen, legen Sie den Pfad HADOOP_HOME fest
sudo gedit /etc/profile.d/hadoop.sh
Und eintreten
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Weiter eingeben
sudo chmod +x /etc/profile.d/hadoop.sh
Beenden Sie das Terminal und starten Sie es erneut
Geben Sie echo $ HADOOP_HOME ein. So überprüfen Sie den Pfad
Kopieren Sie nun die Dateien
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Öffnen Sie die Datei mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Fügen Sie die folgenden Einstellungszeilen zwischen den Tags
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Öffnen Sie $ HADOOP_HOME / etc / hadoop / hdfs-site.xml wie folgt .
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Fügen Sie die folgenden Einstellungszeilen zwischen den Tags
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Erstellen Sie ein Verzeichnis, das in der obigen Einstellung angegeben ist.
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Schritt 4) Bevor wir Hadoop zum ersten Mal starten, formatieren Sie HDFS mit dem folgenden Befehl
$HADOOP_HOME/bin/hdfs namenode -format
Schritt 5) Starten Sie den Hadoop-Einzelknotencluster mit dem folgenden Befehl
$HADOOP_HOME/sbin/start-dfs.sh
Eine Ausgabe des obigen Befehls
$HADOOP_HOME/sbin/start-yarn.sh
Mit ‚JPS‘ Werkzeug / Befehl, überprüfen Sie, ob alle die Hadoop bezogenen Prozesse ausgeführt werden oder nicht.
Wenn Hadoop erfolgreich gestartet wurde, sollte eine Ausgabe von jps NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode anzeigen.
Schritt 6) Hadoop stoppen
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh