So installieren Sie Hadoop mit schrittweiser Konfiguration unter Ubuntu

Inhaltsverzeichnis:

Anonim

In diesem Tutorial werden wir Sie Schritt für Schritt durch die Installation von Apache Hadoop auf einer Linux-Box (Ubuntu) führen. Dies ist ein zweiteiliger Prozess

  • Teil 1) Laden Sie Hadoop herunter und installieren Sie es
  • Teil 2) Konfigurieren Sie Hadoop

Es gibt 2 Voraussetzungen

  • Sie müssen Ubuntu installiert haben und ausführen
  • Sie müssen Java installiert haben.

Teil 1) Laden Sie Hadoop herunter und installieren Sie es

Schritt 1) Fügen Sie mit dem folgenden Befehl einen Hadoop-Systembenutzer hinzu

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Geben Sie Ihr Passwort, Ihren Namen und andere Details ein.

HINWEIS: Bei diesem Einrichtungs- und Installationsvorgang besteht die Möglichkeit eines der unten genannten Fehlers.

"hduser ist nicht in der sudoers-Datei enthalten. Dieser Vorfall wird gemeldet."

Dieser Fehler kann durch Anmelden als Root-Benutzer behoben werden

Führen Sie den Befehl aus

sudo adduser hduser_ sudo

Re-login as hduser_

Schritt 2) Konfigurieren Sie SSH

Um Knoten in einem Cluster zu verwalten, benötigt Hadoop SSH-Zugriff

Wechseln Sie zuerst den Benutzer und geben Sie den folgenden Befehl ein

su - hduser_

Dieser Befehl erstellt einen neuen Schlüssel.

ssh-keygen -t rsa -P ""

Aktivieren Sie mit diesem Schlüssel den SSH-Zugriff auf den lokalen Computer.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Testen Sie nun das SSH-Setup, indem Sie als 'hduser'-Benutzer eine Verbindung zu localhost herstellen.

ssh localhost

Hinweis: Bitte beachten Sie, dass, wenn unten ein Fehler als Antwort auf 'ssh localhost' angezeigt wird, die Möglichkeit besteht, dass SSH auf diesem System nicht verfügbar ist.

Um dies zu beheben -

SSH löschen mit,

sudo apt-get purge openssh-server

Es wird empfohlen, vor Beginn der Installation zu spülen

Installieren Sie SSH mit dem Befehl-

sudo apt-get install openssh-server

Schritt 3) Der nächste Schritt ist das Herunterladen von Hadoop

Wählen Sie Stabil

Wählen Sie die Datei tar.gz aus (nicht die Datei mit src).

Navigieren Sie nach Abschluss eines Downloads zu dem Verzeichnis, in dem sich die TAR-Datei befindet

Eingeben,

sudo tar xzf hadoop-2.2.0.tar.gz

Benennen Sie nun hadoop-2.2.0 in hadoop um

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Teil 2) Konfigurieren Sie Hadoop

Schritt 1) Ändern ~ / .bashrc - Datei

Fügen Sie am Ende der Datei ~ / .bashrc die folgenden Zeilen hinzu

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Geben Sie nun diese Umgebungskonfiguration mit dem folgenden Befehl ein

. ~/.bashrc

Schritt 2) Konfigurationen in Bezug auf HDFS

Setzen Sie JAVA_HOME in die Datei $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Mit

In $ HADOOP_HOME / etc / hadoop / core-site.xml gibt es zwei Parameter, die gesetzt werden müssen:

1. 'hadoop.tmp.dir' - Wird verwendet, um ein Verzeichnis anzugeben, das von Hadoop zum Speichern seiner Datendateien verwendet wird.

2. 'fs.default.name' - Gibt das Standarddateisystem an.

Öffnen Sie zum Festlegen dieser Parameter die Datei core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Kopieren Sie die folgende Zeile zwischen den Tags

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Navigieren Sie zum Verzeichnis $ HADOOP_HOME / etc / Hadoop

Erstellen Sie nun das in core-site.xml erwähnte Verzeichnis

sudo mkdir -p 

Erteilen Sie dem Verzeichnis Berechtigungen

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Schritt 3) Map Reduce Configuration

Bevor Sie mit diesen Konfigurationen beginnen, legen Sie den Pfad HADOOP_HOME fest

sudo gedit /etc/profile.d/hadoop.sh

Und eintreten

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Weiter eingeben

sudo chmod +x /etc/profile.d/hadoop.sh

Beenden Sie das Terminal und starten Sie es erneut

Geben Sie echo $ HADOOP_HOME ein. So überprüfen Sie den Pfad

Kopieren Sie nun die Dateien

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Öffnen Sie die Datei mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Fügen Sie die folgenden Einstellungszeilen zwischen den Tags und hinzu

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Öffnen Sie $ HADOOP_HOME / etc / hadoop / hdfs-site.xml wie folgt .

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Fügen Sie die folgenden Einstellungszeilen zwischen den Tags und hinzu

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Erstellen Sie ein Verzeichnis, das in der obigen Einstellung angegeben ist.

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Schritt 4) Bevor wir Hadoop zum ersten Mal starten, formatieren Sie HDFS mit dem folgenden Befehl

$HADOOP_HOME/bin/hdfs namenode -format

Schritt 5) Starten Sie den Hadoop-Einzelknotencluster mit dem folgenden Befehl

$HADOOP_HOME/sbin/start-dfs.sh

Eine Ausgabe des obigen Befehls

$HADOOP_HOME/sbin/start-yarn.sh

Mit ‚JPS‘ Werkzeug / Befehl, überprüfen Sie, ob alle die Hadoop bezogenen Prozesse ausgeführt werden oder nicht.

Wenn Hadoop erfolgreich gestartet wurde, sollte eine Ausgabe von jps NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode anzeigen.

Schritt 6) Hadoop stoppen

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh