Apache Pig-installatie op Linux

Deze blog is een stapsgewijze handleiding voor de installatie van Apache Pig in een Linux-omgeving. We zullen Apache Pig 0.16.0 installeren en het in verschillende modi uitvoeren.

In dit bericht zal ik het hebben over Apache Pig-installatie op Linux . Laten we beginnen met de basisdefinitie van Apache Pig en Pig Latin.

Apache Pig is een tool / platform voor het maken en uitvoeren van Map Reduce-programma dat wordt gebruikt met Hadoop. Het is een tool / platform voor het analyseren van grote datasets. Je kunt zeggen dat Apache Pig een abstractie is boven MapReduce. Programmeurs die niet zo goed zijn in Java hadden het vroeger moeilijk om aan Hadoop te werken, vooral tijdens het schrijven van MapReduce-opdrachten.Het is dus een belangrijk onderwerp om te leren en onder de knie te krijgen .Apache Pig heeft zijn eigen taal Varkens Latijn wat een zegen is voor arme programmeurs.



Een basisinleiding tot Pig Latin zal u helpen het volgende beter te begrijpen:

De proceduretaal op hoog niveau die in het Apache Pig-platform wordt gebruikt, wordt genoemd Varkens Latijn . Apache Pig bevat ‘Pig Latin’, een relatief eenvoudigere taal die over gedistribueerde datasets op Hadoop File System (HDFS) kan lopen. In Apache Pig moet je Pig-scripts schrijven met Pig Latin-taal, die wordt geconverteerd naar MapReduce-taak wanneer je je Pig-script uitvoert. Apache Pig heeft verschillende operators die worden gebruikt om de taken uit te voeren, zoals lezen, schrijven en verwerken van de gegevens. Ga voor meer informatie over Apache Pig-operators naar onze blog ' Operators in Apache Pig: Part 1 - Relationele operatoren ”.

Nu je basiskennis hebt van Apache Pig, laten we beginnen met Apache Pig-installatie op Linux.

Apache Pig-installatie op Linux:

Hieronder staan ​​de stappen voor de installatie van Apache Pig op Linux (ubuntu / centos / windows met Linux VM). Ik gebruik Ubuntu 16.04 in onderstaande setup.

Stap 1: Downloaden Varken teer het dossier.

Opdracht: wget http://www-us.apache.org/dist/pig/pig-0.16.0/pig-0.16.0.tar.gz

Download Pig - Pig Installation - Edureka

hashmap-implementatie in java-voorbeeld

Stap 2: Pak het teer bestand met de opdracht tar. In onderstaande tar-opdracht, X betekent een archiefbestand extraheren, met middelen filter een archief via gzip, f betekent bestandsnaam van een archiefbestand.

Opdracht: teer -xzf varken-0.16.0.tar.gz

Opdracht: ls

Stap 3: Bewerk de ' .bashrc ”-Bestand om de omgevingsvariabelen van Apache Pig bij te werken. We stellen het zo in dat we vanuit elke directory toegang hebben tot pig, we hoeven niet naar de pig-directory te gaan om pig-opdrachten uit te voeren. Ook als een andere applicatie op zoek is naar Pig, leert deze het pad van Apache Pig uit dit bestand kennen.

Opdracht: sudo gedit .bashrc

Voeg het volgende toe aan het einde van het bestand:

# Stel PIG_HOME in

exporteer PIG_HOME = / home / edureka / pig-0.16.0
exporteer PATH = $ PATH: /home/edureka/pig-0.16.0/bin
exporteer PIG_CLASSPATH = $ HADOOP_CONF_DIR

Zorg er ook voor dat het hadoop-pad ook is ingesteld.

Voer de onderstaande opdracht uit om de wijzigingen in dezelfde terminal te laten bijwerken.

Opdracht: bron .bashrc

Stap 4: Controleer de varkensversie. Dit is om te testen of Apache Pig correct is geïnstalleerd. Als u de Apache Pig-versie niet krijgt, moet u controleren of u de bovenstaande stappen correct hebt gevolgd.

Opdracht: varken -versie

Stap 5 :Vink pig help aan om alle pig-commando-opties te zien.

Opdracht: varken -help

wat is een scanner in java

Stap 6 :Ren Pig om de gruntshell te starten. Grunt shell wordt gebruikt om Pig Latin-scripts uit te voeren.

Opdracht: varken

Als je de bovenstaande afbeelding correct bekijkt, heeft Apache Pig twee modi waarin het kan worden uitgevoerd, standaard kiest het de MapReduce-modus. De andere modus waarin u Pig kunt uitvoeren, is de lokale modus. Ik zal je hier meer over vertellen.

Uitvoeringsmodi in Apache Pig:

  • MapReduce-modus - Dit is de standaardmodus, waarvoor toegang tot een Hadoop-cluster en HDFS-installatie vereist is. Aangezien dit een standaardmodus is, is het niet nodig om de vlag -x op te geven (u kunt het uitvoeren varken OF varken -x mapreduce ). De invoer en uitvoer in deze modus zijn aanwezig op HDFS.
  • Lokale modus - Met toegang tot een enkele machine worden alle bestanden geïnstalleerd en uitgevoerd met behulp van een lokale host en bestandssysteem. Hier wordt de lokale modus gespecificeerd met ‘-x flag’ ( varken -x lokaal ). De invoer en uitvoer in deze modus zijn aanwezig op het lokale bestandssysteem.

Opdracht: varken -x lokaal

Je kunt onderstaande video bekijken om Apache Pig-installatie op Linux te bekijken:

Apache Pig-installatie | Pig-installatie op Linux | Edureka

Nu je klaar bent met Apache Pig Installation op Linux, is de volgende stap voorwaarts het uitproberen van een aantal relationele Pig-operators op de Pig Grunt-shell. Vandaar dat de volgende blog ' Operators in Apache Pig: Part 1 - Relationele operatoren ”Zal je helpen de varkensoperatoren onder de knie te krijgen.

Nu je Apache Pig op Linux hebt geïnstalleerd, kun je het door Edureka, een vertrouwd online leerbedrijf met een netwerk van meer dan 250.000 tevreden leerlingen verspreid over de hele wereld. De Edureka Big Data Hadoop-certificeringstraining helpt leerlingen expert te worden in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume en Sqoop met behulp van real-time use cases op het gebied van Retail, Social Media, Aviation, Tourism, Finance.

Heeft u een vraag voor ons? Vermeld het in het opmerkingengedeelte en we nemen contact met u op.