Hadoop installeren: een Hadoop-cluster met één knooppunt opzetten
Vanaf onze vorige blogs , moet je een theoretisch idee hebben over Hadoop, HDFS en zijn architectuur.Maar om te krijgen je hebt goede praktische kennis nodig.Ik hoop dat je onze vorige blog leuk had gevonden , nu zal ik je door de praktische kennis over Hadoop en HDFS leiden. De eerste stap voorwaarts is het installeren van Hadoop.
Er zijn twee manieren om Hadoop te installeren, d.w.z. Eén knooppunt en Meerdere knooppunten .
Cluster met één knooppunt betekent dat slechts één DataNode actief is en alle NameNode, DataNode, ResourceManager en NodeManager op één machine instelt. Dit wordt gebruikt voor studie- en testdoeleinden. Laten we bijvoorbeeld eens kijken naar een voorbeelddataset binnen een zorgsector. Dus om te testen of de Oozie-taken alle processen hebben gepland, zoals het verzamelen, aggregeren, opslaan en verwerken van de gegevens in de juiste volgorde, gebruiken we een cluster met één knooppunt. Het kan de sequentiële workflow eenvoudig en efficiënt testen in een kleinere omgeving in vergelijking met grote omgevingen die terabytes aan gegevens bevatten die over honderden machines zijn verdeeld.
Terwijl in een Cluster met meerdere knooppunten , zijn er meer dan één DataNode actief en elke DataNode wordt op verschillende machines uitgevoerd. Het multi node cluster wordt in organisaties praktisch gebruikt voor het analyseren van Big Data. Gezien het bovenstaande voorbeeld, in realtime wanneer we te maken hebben met petabytes aan gegevens, moet deze worden verdeeld over honderden machines om te worden verwerkt. Hier gebruiken we dus een cluster met meerdere knooppunten.
In deze blog laat ik je zien hoe je Hadoop op een cluster met één knooppunt installeert.
Vereisten
- VIRTUELE DOOS : het wordt gebruikt om het besturingssysteem erop te installeren.
- BESTURINGSSYSTEEM : U kunt Hadoop installeren op op Linux gebaseerde besturingssystemen. Ubuntu en CentOS worden heel vaak gebruikt. In deze tutorial gebruiken we CentOS.
- JAVA : U moet het Java 8-pakket op uw systeem installeren.
- HADOOP : U hebt het Hadoop 2.7.3-pakket nodig.
Installeer Hadoop
Stap 1: Klik hier om het Java 8-pakket te downloaden. Bewaar dit bestand in uw homedirectory.
Stap 2: Pak het Java Tar-bestand uit.
Opdracht : tar -xvf jdk-8u101-linux-i586.tar.gz
Fig: Hadoop-installatie - Java-bestanden uitpakken
Stap 3: Download het Hadoop 2.7.3-pakket.
Opdracht : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Fig: Hadoop-installatie - Hadoop downloaden
Stap 4: Pak het Hadoop-tar-bestand uit.
Opdracht : tar -xvf hadoop-2.7.3.tar.gz
Fig: Hadoop-installatie - Hadoop-bestanden uitpakken
Stap 5: Voeg de Hadoop- en Java-paden toe aan het bash-bestand (.bashrc).
Open . bashrc het dossier. Voeg nu Hadoop en Java Path toe zoals hieronder wordt weergegeven.
Opdracht : vi .bashrc
Fig: Hadoop-installatie - Omgevingsvariabele instellen
Sla vervolgens het bash-bestand op en sluit het.
Om al deze wijzigingen toe te passen op de huidige Terminal, voert u de source-opdracht uit.
Opdracht : bron .bashrc
Fig: Hadoop Installation - Verfrissende omgevingsvariabelen
Om ervoor te zorgen dat Java en Hadoop correct op uw systeem zijn geïnstalleerd en toegankelijk zijn via de Terminal, b.v.xecute de java -version en hadoop version-opdrachten.
Opdracht : Java-versie
Fig: Hadoop-installatie - Java-versie controleren
Opdracht : hadoopversie
Fig: Hadoop-installatie - Hadoop-versie controleren
Stap 6 : Bewerk het .
Opdracht: cd hadoop-2.7.3 / etc / hadoop /
Opdracht: ls
Alle Hadoop-configuratiebestanden bevinden zich in hadoop-2.7.3 / etc / hadoop directory zoals je kunt zien in de onderstaande snapshot:
verlaat een programma in java
Fig: Hadoop-installatie - Hadoop-configuratiebestanden
Stap 7 : Open core-site.xml en bewerk de onderstaande eigenschap in de configuratietag:
core-site.xml informeert Hadoop-daemon waar NameNode wordt uitgevoerd in het cluster. Het bevat configuratie-instellingen van Hadoop-kern zoals I / O-instellingen die gebruikelijk zijn voor HDFS en MapReduce.
Opdracht : vi core-site.xml
service nu ticketingsysteem training
Fig: Hadoop-installatie - Core-site.xml configureren
fs.default.name hdfs: // localhost: 9000
Stap 8: Bewerk hdfs-site.xml en bewerk de onderstaande eigenschap in de configuratietag:
hdfs-site.xml bevat configuratie-instellingen van HDFS-daemons (d.w.z. NameNode, DataNode, Secondary NameNode). Het bevat ook de replicatiefactor en blokgrootte van HDFS.
Opdracht : vi hdfs-site.xml
Fig: Hadoop-installatie - hdfs-site.xml configureren
dfs.replication 1 dfs.permission false
Stap 9 : Bewerk het mapred-site.xml bestand en bewerk de onderstaande eigenschap in de configuratietag:
mapred-site.xml bevat configuratie-instellingen van de MapReduce-applicatie, zoals het aantal JVM dat parallel kan draaien, de grootte van de mapper en het reducer-proces, CPU-kernen die beschikbaar zijn voor een proces, enz.
In sommige gevallen is het bestand mapred-site.xml niet beschikbaar. We moeten dus het bestand mapred-site.xml makenmet behulp van de sjabloon mapred-site.xml.
Opdracht : cp mapred-site.xml.template mapred-site.xml
Opdracht : wij kaartsite.xml.
Fig: Hadoop-installatie - mapred-site.xml configureren
mapreduce.framework.name garen
Stap 10: Bewerk yarn-site.xml en bewerk de onderstaande eigenschap in de configuratietag:
yarn-site.xml bevat configuratie-instellingen van ResourceManager en NodeManager, zoals de grootte van het toepassingsgeheugen, de bewerking die nodig is op het programma en het algoritme, enz.
Opdracht : vi yarn-site.xml
Fig: Hadoop-installatie - Yarn-site.xml configureren
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
Stap 11: Bewerk hadoop-env.sh en voeg het Java-pad toe zoals hieronder vermeld:
hadoop-env.sh bevat de omgevingsvariabelen die in het script worden gebruikt om Hadoop uit te voeren, zoals het Java-startpad, enz.
Opdracht : wij hadoop-env.sh
Fig: Hadoop-installatie - hadoop-env.sh configureren
Stap 12: Ga naar de Hadoop-homedirectory en formatteer de NameNode.
Opdracht : CD
Opdracht : cd hadoop-2.7.3
Opdracht : bin / hadoop purpose -format
Fig: Hadoop-installatie - NameNode opmaken
Dit formatteert de HDFS via NameNode. Dit commando wordt alleen voor de eerste keer uitgevoerd. Het formatteren van het bestandssysteem betekent het initialiseren van de directory gespecificeerd door de variabele dfs.name.dir.
Formatteer het Hadoop-bestandssysteem nooit en gebruik het nooit. U verliest al uw gegevens die zijn opgeslagen in de HDFS.
Stap 13: Als de NameNode eenmaal is geformatteerd, ga je naar de map hadoop-2.7.3 / sbin en start je alle daemons.
Opdracht: cd hadoop-2.7.3 / sbin
Of je kunt alle daemons starten met een enkele opdracht, of je kunt het afzonderlijk doen.
Opdracht: ./ start-all.sh
Het bovenstaande commando is een combinatie van start-dfs.sh, start-garen.sh & mr-jobhistory-daemon.sh
Of u kunt alle services afzonderlijk uitvoeren, zoals hieronder:
Start NameNode:
De NameNode is het middelpunt van een HDFS-bestandssysteem. Het houdt de directorystructuur bij van alle bestanden die zijn opgeslagen in de HDFS en volgt alle bestanden die in het cluster zijn opgeslagen.
Opdracht: ./hadoop-daemon.sh startdoel
Fig: Hadoop-installatie - NameNode starten
Start DataNode:
Bij het opstarten maakt een DataNode verbinding met de Namenode en reageert deze op de verzoeken van de Namenode voor verschillende bewerkingen.
Opdracht: ./hadoop-daemon.sh start datanode
Fig: Hadoop-installatie - DataNode starten
Start ResourceManager:
ResourceManager is de master die alle beschikbare clusterbronnen arbitreert en zo helpt bij het beheren van de gedistribueerde applicaties die op het YARN-systeem draaien. Het is zijn taak om elke NodeManager en de ApplicationMaster van elke applicatie te beheren.
Opdracht: ./garen-daemon.sh start resourcemanager
Fig: Hadoop-installatie - ResourceManager starten
Start NodeManager:
De NodeManager in elk machineframework is de agent die verantwoordelijk is voor het beheren van containers, het bewaken van hun resourcegebruik en het rapporteren hiervan aan de ResourceManager.
Opdracht: ./garen-daemon.sh start nodemanager
Fig: Hadoop-installatie - NodeManager starten
grootte van een array javascript
Start JobHistoryServer:
JobHistoryServer is verantwoordelijk voor het afhandelen van alle aan taakhistorie gerelateerde verzoeken van de klant.
Opdracht : ./mr-jobhistory-daemon.sh start historyserver
Stap 14: Voer de onderstaande opdracht uit om te controleren of alle Hadoop-services actief zijn.
Opdracht: jps
Fig: Hadoop-installatie - Daemons controleren
Stap 15: Open nu de Mozilla-browser en ga naar localhost : 50070 / dfshealth.html om de NameNode-interface te controleren.
Fig: Hadoop-installatie - WebUI starten
Gefeliciteerd, je hebt met succes een Hadoop-cluster met één knooppunt in één keer geïnstalleerd.In onze volgende blog van , bespreken we ook hoe Hadoop op een cluster met meerdere knooppunten moet worden geïnstalleerd.
Nu u weet hoe u Hadoop moet installeren, kunt u het door Edureka, een vertrouwd online leerbedrijf met een netwerk van meer dan 250.000 tevreden leerlingen verspreid over de hele wereld. De Edureka Big Data Hadoop-certificeringstraining helpt leerlingen expert te worden in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume en Sqoop met behulp van real-time use cases op het gebied van Retail, Social Media, Aviation, Tourism, Finance.
Heeft u een vraag voor ons? Vermeld het in het opmerkingengedeelte en we nemen contact met u op.