Hadoop installeren: een Hadoop-cluster met één knooppunt opzetten



Deze zelfstudie is een stapsgewijze handleiding om het Hadoop-cluster te installeren en op een enkel knooppunt te configureren. Alle Hadoop-installatiestappen zijn voor CentOS-machine.

Hadoop installeren: een Hadoop-cluster met één knooppunt opzetten

Vanaf onze vorige blogs , moet je een theoretisch idee hebben over Hadoop, HDFS en zijn architectuur.Maar om te krijgen je hebt goede praktische kennis nodig.Ik hoop dat je onze vorige blog leuk had gevonden , nu zal ik je door de praktische kennis over Hadoop en HDFS leiden. De eerste stap voorwaarts is het installeren van Hadoop.

Er zijn twee manieren om Hadoop te installeren, d.w.z. Eén knooppunt en Meerdere knooppunten .





Cluster met één knooppunt betekent dat slechts één DataNode actief is en alle NameNode, DataNode, ResourceManager en NodeManager op één machine instelt. Dit wordt gebruikt voor studie- en testdoeleinden. Laten we bijvoorbeeld eens kijken naar een voorbeelddataset binnen een zorgsector. Dus om te testen of de Oozie-taken alle processen hebben gepland, zoals het verzamelen, aggregeren, opslaan en verwerken van de gegevens in de juiste volgorde, gebruiken we een cluster met één knooppunt. Het kan de sequentiële workflow eenvoudig en efficiënt testen in een kleinere omgeving in vergelijking met grote omgevingen die terabytes aan gegevens bevatten die over honderden machines zijn verdeeld.

Terwijl in een Cluster met meerdere knooppunten , zijn er meer dan één DataNode actief en elke DataNode wordt op verschillende machines uitgevoerd. Het multi node cluster wordt in organisaties praktisch gebruikt voor het analyseren van Big Data. Gezien het bovenstaande voorbeeld, in realtime wanneer we te maken hebben met petabytes aan gegevens, moet deze worden verdeeld over honderden machines om te worden verwerkt. Hier gebruiken we dus een cluster met meerdere knooppunten.



In deze blog laat ik je zien hoe je Hadoop op een cluster met één knooppunt installeert.

Vereisten

  • VIRTUELE DOOS : het wordt gebruikt om het besturingssysteem erop te installeren.
  • BESTURINGSSYSTEEM : U kunt Hadoop installeren op op Linux gebaseerde besturingssystemen. Ubuntu en CentOS worden heel vaak gebruikt. In deze tutorial gebruiken we CentOS.
  • JAVA : U moet het Java 8-pakket op uw systeem installeren.
  • HADOOP : U hebt het Hadoop 2.7.3-pakket nodig.

Installeer Hadoop

Stap 1: Klik hier om het Java 8-pakket te downloaden. Bewaar dit bestand in uw homedirectory.

Stap 2: Pak het Java Tar-bestand uit.

Opdracht : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Installeer Hadoop - Edureka



Fig: Hadoop-installatie - Java-bestanden uitpakken

Stap 3: Download het Hadoop 2.7.3-pakket.

Opdracht : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Fig: Hadoop-installatie - Hadoop downloaden

Stap 4: Pak het Hadoop-tar-bestand uit.

Opdracht : tar -xvf hadoop-2.7.3.tar.gz

Fig: Hadoop-installatie - Hadoop-bestanden uitpakken

Stap 5: Voeg de Hadoop- en Java-paden toe aan het bash-bestand (.bashrc).

Open . bashrc het dossier. Voeg nu Hadoop en Java Path toe zoals hieronder wordt weergegeven.

Opdracht : vi .bashrc

Fig: Hadoop-installatie - Omgevingsvariabele instellen

Sla vervolgens het bash-bestand op en sluit het.

Om al deze wijzigingen toe te passen op de huidige Terminal, voert u de source-opdracht uit.

Opdracht : bron .bashrc

Fig: Hadoop Installation - Verfrissende omgevingsvariabelen

Om ervoor te zorgen dat Java en Hadoop correct op uw systeem zijn geïnstalleerd en toegankelijk zijn via de Terminal, b.v.xecute de java -version en hadoop version-opdrachten.

Opdracht : Java-versie

Fig: Hadoop-installatie - Java-versie controleren

Opdracht : hadoopversie

Fig: Hadoop-installatie - Hadoop-versie controleren

Stap 6 : Bewerk het .

Opdracht: cd hadoop-2.7.3 / etc / hadoop /

Opdracht: ls

Alle Hadoop-configuratiebestanden bevinden zich in hadoop-2.7.3 / etc / hadoop directory zoals je kunt zien in de onderstaande snapshot:

verlaat een programma in java

Fig: Hadoop-installatie - Hadoop-configuratiebestanden

Stap 7 : Open core-site.xml en bewerk de onderstaande eigenschap in de configuratietag:

core-site.xml informeert Hadoop-daemon waar NameNode wordt uitgevoerd in het cluster. Het bevat configuratie-instellingen van Hadoop-kern zoals I / O-instellingen die gebruikelijk zijn voor HDFS en MapReduce.

Opdracht : vi core-site.xml

service nu ticketingsysteem training

Fig: Hadoop-installatie - Core-site.xml configureren

fs.default.name hdfs: // localhost: 9000

Stap 8: Bewerk hdfs-site.xml en bewerk de onderstaande eigenschap in de configuratietag:

hdfs-site.xml bevat configuratie-instellingen van HDFS-daemons (d.w.z. NameNode, DataNode, Secondary NameNode). Het bevat ook de replicatiefactor en blokgrootte van HDFS.

Opdracht : vi hdfs-site.xml

Fig: Hadoop-installatie - hdfs-site.xml configureren

dfs.replication 1 dfs.permission false

Stap 9 : Bewerk het mapred-site.xml bestand en bewerk de onderstaande eigenschap in de configuratietag:

mapred-site.xml bevat configuratie-instellingen van de MapReduce-applicatie, zoals het aantal JVM dat parallel kan draaien, de grootte van de mapper en het reducer-proces, CPU-kernen die beschikbaar zijn voor een proces, enz.

In sommige gevallen is het bestand mapred-site.xml niet beschikbaar. We moeten dus het bestand mapred-site.xml makenmet behulp van de sjabloon mapred-site.xml.

Opdracht : cp mapred-site.xml.template mapred-site.xml

Opdracht : wij kaartsite.xml.

Fig: Hadoop-installatie - mapred-site.xml configureren

mapreduce.framework.name garen

Stap 10: Bewerk yarn-site.xml en bewerk de onderstaande eigenschap in de configuratietag:

yarn-site.xml bevat configuratie-instellingen van ResourceManager en NodeManager, zoals de grootte van het toepassingsgeheugen, de bewerking die nodig is op het programma en het algoritme, enz.

Opdracht : vi yarn-site.xml

Fig: Hadoop-installatie - Yarn-site.xml configureren

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Stap 11: Bewerk hadoop-env.sh en voeg het Java-pad toe zoals hieronder vermeld:

hadoop-env.sh bevat de omgevingsvariabelen die in het script worden gebruikt om Hadoop uit te voeren, zoals het Java-startpad, enz.

Opdracht : wij hadoop-env.sh

Fig: Hadoop-installatie - hadoop-env.sh configureren

Stap 12: Ga naar de Hadoop-homedirectory en formatteer de NameNode.

Opdracht : CD

Opdracht : cd hadoop-2.7.3

Opdracht : bin / hadoop purpose -format

Fig: Hadoop-installatie - NameNode opmaken

Dit formatteert de HDFS via NameNode. Dit commando wordt alleen voor de eerste keer uitgevoerd. Het formatteren van het bestandssysteem betekent het initialiseren van de directory gespecificeerd door de variabele dfs.name.dir.

Formatteer het Hadoop-bestandssysteem nooit en gebruik het nooit. U verliest al uw gegevens die zijn opgeslagen in de HDFS.

Stap 13: Als de NameNode eenmaal is geformatteerd, ga je naar de map hadoop-2.7.3 / sbin en start je alle daemons.

Opdracht: cd hadoop-2.7.3 / sbin

Of je kunt alle daemons starten met een enkele opdracht, of je kunt het afzonderlijk doen.

Opdracht: ./ start-all.sh

Het bovenstaande commando is een combinatie van start-dfs.sh, start-garen.sh & mr-jobhistory-daemon.sh

Of u kunt alle services afzonderlijk uitvoeren, zoals hieronder:

Start NameNode:

De NameNode is het middelpunt van een HDFS-bestandssysteem. Het houdt de directorystructuur bij van alle bestanden die zijn opgeslagen in de HDFS en volgt alle bestanden die in het cluster zijn opgeslagen.

Opdracht: ./hadoop-daemon.sh startdoel

Fig: Hadoop-installatie - NameNode starten

Start DataNode:

Bij het opstarten maakt een DataNode verbinding met de Namenode en reageert deze op de verzoeken van de Namenode voor verschillende bewerkingen.

Opdracht: ./hadoop-daemon.sh start datanode

Fig: Hadoop-installatie - DataNode starten

Start ResourceManager:

ResourceManager is de master die alle beschikbare clusterbronnen arbitreert en zo helpt bij het beheren van de gedistribueerde applicaties die op het YARN-systeem draaien. Het is zijn taak om elke NodeManager en de ApplicationMaster van elke applicatie te beheren.

Opdracht: ./garen-daemon.sh start resourcemanager

Fig: Hadoop-installatie - ResourceManager starten

Start NodeManager:

De NodeManager in elk machineframework is de agent die verantwoordelijk is voor het beheren van containers, het bewaken van hun resourcegebruik en het rapporteren hiervan aan de ResourceManager.

Opdracht: ./garen-daemon.sh start nodemanager

Fig: Hadoop-installatie - NodeManager starten

grootte van een array javascript

Start JobHistoryServer:

JobHistoryServer is verantwoordelijk voor het afhandelen van alle aan taakhistorie gerelateerde verzoeken van de klant.

Opdracht : ./mr-jobhistory-daemon.sh start historyserver

Stap 14: Voer de onderstaande opdracht uit om te controleren of alle Hadoop-services actief zijn.

Opdracht: jps

Fig: Hadoop-installatie - Daemons controleren

Stap 15: Open nu de Mozilla-browser en ga naar localhost : 50070 / dfshealth.html om de NameNode-interface te controleren.

Fig: Hadoop-installatie - WebUI starten

Gefeliciteerd, je hebt met succes een Hadoop-cluster met één knooppunt in één keer geïnstalleerd.In onze volgende blog van , bespreken we ook hoe Hadoop op een cluster met meerdere knooppunten moet worden geïnstalleerd.

Nu u weet hoe u Hadoop moet installeren, kunt u het door Edureka, een vertrouwd online leerbedrijf met een netwerk van meer dan 250.000 tevreden leerlingen verspreid over de hele wereld. De Edureka Big Data Hadoop-certificeringstraining helpt leerlingen expert te worden in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume en Sqoop met behulp van real-time use cases op het gebied van Retail, Social Media, Aviation, Tourism, Finance.

Heeft u een vraag voor ons? Vermeld het in het opmerkingengedeelte en we nemen contact met u op.