Cloudera Hadoop: aan de slag met CDH Distribution



Deze Edureka-blog over Cloudera Hadoop-zelfstudie geeft je een compleet inzicht van verschillende Cloudera-componenten zoals Cloudera Manager, Parcels, Hue enz.

Met de toenemende vraag naar Big Data, en Apache Hadoop isBijhet hart van de revolutie heeft de manier veranderd waarop we de gegevens organiseren en berekenen. De noodzaak voor organisaties om Hadoop af te stemmen op hun zakelijke behoeften heeft de opkomst van commerciële distributies aangewakkerd. Commerciële Hadoop-distributies zijn meestal verpakt met functies, ontworpen om de implementatie van Hadoop te stroomlijnen. Cloudera Hadoop Distribution biedt een schaalbaar, flexibel en geïntegreerd platform waarmee u snel toenemende volumes en variëteiten aan gegevens in uw onderneming gemakkelijk kunt beheren.

In deze blog over Cloudera Hadoop Distribution behandelen we de volgende onderwerpen:





Cloudera Hadoop: Inleiding tot Hadoop

Hadoop is een Apache open-source framework dat Big Data opslaat en verwerkt in een gedistribueerde omgevingtegenover decluster met behulp van eenvoudige programmeermodellen. Hadoop biedt parallelle berekeningen bovenop gedistribueerde opslag.Voor meer informatie over Hadoop in detail van u kunt hiernaar verwijzen

wat is een instantie in java

Na deze korte inleiding tot Hadoop, wil ik nu de verschillende soorten Hadoop-distributie uitleggen.



Cloudera Hadoop: Hadoop-distributies

Omdat Apache Hadoop open source is, hebben veel bedrijven distributies ontwikkeld die verder gaan dan de originele open source-code. Dit lijkt sterk op Linux-distributies zoals RedHat, Fedora en Ubuntu. Elk van de Linux-distributies ondersteunt zijn eigen functionaliteiten en kenmerken, zoals een gebruiksvriendelijke GUI in Ubuntu. Evenzo rode Hoed is populair binnen ondernemingen omdat het ondersteuning biedt en ook ideologie biedt om naar believen wijzigingen aan te brengen in elk deel van het systeem. Red Hat verlost u van problemen met softwarecompatibiliteit. Dit is meestal een groot probleem voor gebruikersdie overstappen van Windows.

Evenzo zijn er 3 hoofdtypen Hadoop-distributies die hun eigen set functionaliteiten en kenmerken hebben en zijn gebouwd onder de basis HDFS.

Cloudera versus MapR versus Hortonworks

Fig: MapR versus Hortonworks versus Cloudera

Fig: MapR versus Hortonworks versus Cloudera



Cloudera Hadoop-distributie

Cloudera is de markttrend in Hadoop-ruimte en is de eerste die commerciële Hadoop-distributie op de markt brengt. Het biedt adviesdiensten om de kloof te overbruggen tussen “wat biedt Apache Hadoop” en “wat organisaties nodig hebben”.

Cloudera Distribution is:

  • Snel voor zaken : Van analyse tot datawetenschap en alles daartussenin, Cloudera levert de prestaties die u nodig hebt om het potentieel van onbeperkte data te ontsluiten.
  • Maakt Hadoop eenvoudig te beheren : Met Cloudera Manager kunt u met geautomatiseerde wizards uw cluster snel implementeren, ongeacht de schaal of implementatieomgeving.
  • Veilig zonder compromissen: Voldoet aan strenge eisen op het gebied van gegevensbeveiliging en compliance zonder in te boeten aan zakelijke flexibiliteit. Cloudera biedt een geïntegreerde benadering van gegevensbeveiliging en -beheer.

Horton-Works Distributie

Het Horton-Works Data Platform (HDP) is volledig een open source platform dat is ontworpen om data uit vele bronnen en formaten te manoeuvreren. Het platform bevat verschillende Hadoop-tools zoals het Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive en aanvullende componenten.

Het ondersteunt ook functies zoals:

  • HDP maakt Hive sneller via zijn nieuwe Stinger-project.
  • HDP vermijdt vendor lock-in door toezeggingen te doen aan een gevorkte versie van Hadoop.
  • HDP is gericht op het verbeteren van de bruikbaarheid van het Hadoop-platform.

MapR-distributie

MapR is een platformgerichte leverancier van Hadoop-oplossingen, net als HortonWorks en Cloudera. MapR integreert zijn eigen databasesysteem, bekend als MapR-DB, terwijl het Hadoop-distributiediensten aanbiedt. Er wordt beweerd dat MapR-DB vier tot zeven keer sneller is dan de voorraad Hadoop-database, d.w.z. HBase, die wordt uitgevoerd op andere distributies.

Het heeft zijn intrigerende kenmerken zoals:

  • Het is de enige Hadoop-distributie die Pig, Hive en Sqoop omvat zonder enige Java-afhankelijkheid - omdat het afhankelijk is van MapR-File System.
  • MapR is de meest productieklare Hadoop-distributie met vele verbeteringen die het gebruiksvriendelijker, sneller en betrouwbaarder maken.

Laten we nu eens uitgebreid ingaan op de Cloudera Hadoop-distributie.

Abonneer je op ons YouTube-kanaal om nieuwe updates te ontvangen ...

Cloudera Hadoop: Cloudera Distribution

Cloudera is de bekendste speler in de Hadoop-ruimte die de eerste commerciële Hadoop-distributie heeft uitgebracht.

Afb: Cloudera Hadoop-distributie

Cloudera Hadoop Distribution ondersteunt de volgende set functies:

  1. Cloudera's CDH omvat alle open source-componenten, is gericht op implementaties van ondernemingsklasse en is een van de meest populaire commerciële Hadoop-distributies.
  2. Cloudera, bekend om zijn innovaties, was de eerste die hem aanbood SQL-voor-Hadoop met zijn Impala query-engine.
  3. De beheerconsole - Cloudera Manager , is gemakkelijk te gebruiken en te implementeren met de rijke gebruikersinterface die alle clusterinformatie op een georganiseerde en schone manier weergeeft.
  4. In CDH kunt u zonder onderbreking services toevoegen aan het actieve cluster.
  5. Andere toevoegingen van Cloudera zijn onder meer beveiliging, gebruikersinterface en interfaces voor integratie met applicaties van derden.
  6. CDH biedt Knooppuntsjablonen d.w.z. het maakt het mogelijk om een ​​groep knooppunten te creëren in een Hadoop-cluster met verschillende configuratie. Het elimineert het gebruik van dezelfde configuratie in het Hadoop-cluster.
  7. Het ondersteunt ook:
    • Betrouwbaarheid
      Hadoop-leveranciers reageren onmiddellijk wanneer een bug wordt gedetecteerd. Met de bedoeling om commerciële oplossingen stabieler te maken, worden patches en fixes onmiddellijk geïmplementeerd.
    • Ondersteuning
      Leveranciers van Cloudera Hadoop bieden technische begeleiding en assistentie die het voor klanten gemakkelijk maken Hadoop te gebruiken voor taken op bedrijfsniveau en bedrijfskritische applicaties.

    • Volledigheid
      Hadoop-leveranciers koppelen hun distributies aan verschillende andere add-on-tools waarmee klanten de Hadoop-applicatie kunnen aanpassen aan hun specifieke taken.

De distributies van Cloudera komen met 2 verschillende soorten edities.

  1. Cloudera Express-editie
  2. Cloudera Enterprise-editie

Laten we nu eens kijken naar de verschillen tussen beide.

Kenmerken Cloudera-Express Cloudera-Enterprise
Clusterbeheer
1. Beheer van meerdere clustersJaJa
2. Beheer van middelenJaJa
Inzet
1. Ondersteuning voor CDH 4 en 5JaJa
2. Rolling upgrade van CDHNeeJa
Service- en configuratiebeheer
1. Beheer HDFS-, MapReduce-, YARN-, Impala-, HBase-, Hive-, Hue-, Oozie-, Zookeeper-, Solr-, Spark- en Accumulo-servicesJaJa
2. Rolling herstart van servicesNeeJa
Veiligheid
1. LDAP-verificatieNeeJa
2. SAML-verificatieNeeJa
Monitoring en diagnostiek
1. GezondheidsgeschiedenisJaJa
Waarschuwingsbeheer
1. Alert via e-mailJaJa
2. Waarschuwing via SNMPNeeJa
Geavanceerde beheerfuncties
1. Geautomatiseerde back-up en herstelNeeJa
2. Bladeren en zoeken naar bestandenNeeJa
3. MapReduce, Impala, HBase, Yarn gebruiksrapportenNeeJa

Cloudera Hadoop: Cloudera Manager

Volgens Cloudera is Cloudera Manager de beste manier om dat te doen installeren , configureren , beheren , en toezicht houden op de Hadoop-stapel.

Het zorgt voor:

  1. Geautomatiseerde implementatie en configuratie
  2. Aanpasbare monitoring en rapportage
  3. Moeiteloze robuuste probleemoplossing
  4. Zero - Downtime onderhoud

Verwerf diepgaande kennis over Cloudera Hadoop en zijn verschillende tools

Demonstratie van Cloudera Manager

Laten we de Cloudera Manager eens bekijken.

1. Onderstaande afbeelding toont het aantal services dat momenteel in de Cloudera Manager wordt uitgevoerd. U kunt ook de grafieken bekijken over het CPU-gebruik van het cluster, het gebruik van schijf-IO, enz.

Fig: Homepage van Cloudera Manager

2. Onderstaande afbeelding toont het HBase-cluster. Het geeft u grafieken en diagrammen over de gezondheidstoestand van de momenteel draaiende HBase REST-server.

Fig: Gezondheidstoestand van de HBase-server

3. Laten we nu eens kijken naar het tabblad Instances van HBase-cluster, waar u de status en de IP-configuratie kunt controleren.

Fig: Status en IP-adres van de hostserver van het HBase-cluster

4. Vervolgens heb je het tabblad Configuratie. Hier kunt u alle configuratieparameters zien en hun waarden wijzigen.

Fig: Configuratie van het HBase-cluster

Laten we nu eens kijken wat Pakketten in Cloudera zijn.

Cloudera Hadoop: Pakketten

Een pakket is een binair distributieformaat dat de programmabestanden bevat, samen met aanvullende metadata die door Cloudera Manager worden gebruikt.

een eenvoudige inleiding tot data science

Pakketten zijn op zichzelf staand en geïnstalleerd in een directory met versiebeheer, wat betekent dat meerdere versies van een bepaalde service naast elkaar kunnen worden geïnstalleerd.

Hieronder staan ​​de voordelen van het gebruik van Parcel:

  • Het biedt distributie van CDH als een enkel object, d.w.z. in plaats van een afzonderlijk pakket voor elk onderdeel van CDH, hebben pakketten slechts één object om te installeren.

  • Het biedt interne consistentie (aangezien de volledige CDH wordt gedistribueerd als een enkel pakket, alle CDH-componenten op elkaar zijn afgestemd en er geen risico bestaat dat verschillende onderdelen uit verschillende versies van CDH komen).

  • U kunt de pakketten in CDH met een paar klikken installeren, upgraden, downgraden, distribueren en activeren.

Laten we nu eens kijken hoe we de Kafka-service in CDH kunnen installeren en activeren met behulp van Pakketten.

  1. Ga naar de startpagina van Cloudera manager >> Hosts >> Pakketten zoals hieronder weergegeven

    Fig: Pakketjes van de hosts selecteren

2. Als u Kafka niet in de lijst met pakketten ziet staan, kunt u het pakket aan de lijst toevoegen.

  1. Zoek het pakket van de Kafka-versie die u wilt gebruiken. Als u het niet ziet, kunt u de pakketrepository aan de lijst toevoegen.
  2. Zoek het pakket voor de versie van Kafka die u wilt installeren - Cloudera-distributie van Apache Kafka-versies .
    Onderstaande figuur laat hetzelfde zien.

Fig: Repository-pad voor het pakket.

3. Kopieer de link zoals weergegeven in de bovenstaande afbeelding en voeg deze toe aan de Remote Parcel Repository zoals hieronder weergegeven.

Fig: Toevoeging van het Kafka-pad uit de repository

Vier.Na het toevoegen van het pad is Kafka klaar om te downloaden. U kunt gewoon op de downloadknop klikken en de Kafka downloaden.

Fig: het downloaden van de Kafka

5. Zodra Kafka is gedownload, hoeft u het alleen nog maar te distribueren en te activeren.

Fig: Activeren van de Kafka

Zodra het is geactiveerd, kunt u doorgaan en de Kafka bekijken op het tabblad Services in Cloudera Manager.

Afb: Kafka-service

Cloudera Hadoop: een Oozie-workflow maken

Het creëren van een workflow door handmatig de XML-code te schrijven en deze vervolgens uit te voeren, is ingewikkeld. U kunt dit doorverwijzen De Oozie-taak plannen blog, om meer te weten over de traditionele aanpak.

U kunt de onderstaande afbeelding zien, waar we een XML-bestand hebben geschreven om een ​​eenvoudige Oozie-workflow te maken. Fig: Een Oozie-workflow creëren met behulp van een traditionele benadering

Zoals je kunt zien, zelfs om een ​​eenvoudige Oozie-planner te maken, moesten we enorme XML-code schrijven die tijdrovend is, en het debuggen van elke afzonderlijke regel wordt omslachtig. Om dit te verhelpen, introduceerde Cloudera Manager een nieuwe functie genaamd Tint die een GUI en eenvoudige slepen-en-neerzetten-functies biedt om Oozie-workflows te maken en uit te voeren.

Laten we nu eens kijken hoe Hue dezelfde taak op een vereenvoudigde manier uitvoert.

Voordat we een workflow maken, moeten we eerst invoerbestanden maken, d.w.z. clickstream.txt en user.txt.
In het user.txt-bestand hebben we Gebruikers-ID, Naam, Leeftijd, Land, Geslacht zoals hieronder weergegeven. We hebben dit gebruikersbestand nodig om te weten dat de gebruiker telt en klikt op de URL (vermeld in het clickstream-bestand) op basis van de gebruikers-ID.

Fig: Een tekstbestand maken

Om het aantal klikken door de gebruiker op elke URL te weten, hebben we een clickstream met de gebruikers-ID en URL.

Fig: Clickstream-bestand

Laten we de zoekopdrachten in het scriptbestand schrijven.

Fig: Script-bestand

Nadat we het gebruikersbestand, clickstream-bestand en het scriptbestand hebben gemaakt, kunnen we doorgaan en de Oozie-workflow maken.

1. U kunt de Oozie-workflow eenvoudig slepen en neerzetten zoals weergegeven in de afbeelding.

Fig: Drag and drop-functie voor het maken van de Oozie-workflow

2. Spoedig nadat u uw actie heeft neergezet, moet u de paden naar het scriptbestand specificeren en de parameters toevoegen die in het scriptbestand worden vermeld. Hier moet u OUTPUT-, CLICKSTREAM- en USER-parameters toevoegen en het pad naar elk van de parameters specificeren.

Fig: Een scriptbestand en de vereiste parameters toevoegen om de actie uit te voeren

3. Nadat u de paden heeft gespecificeerd en de parameters heeft toegevoegd, slaat u de workflow eenvoudig op en verzendt u deze zoals weergegeven in de onderstaande afbeelding.

Fig: Opslaan en indienen van de Oozie-actie

4. Zodra u de taak heeft verzonden, is uw taak voltooid. De uitvoering en de overige stappen worden verzorgd door Hue.

Afb: uitvoeringsstatus van de Oozie-taak

5.Nu we de Oozie-taak hebben uitgevoerd, gaan we eens kijken naar het actietabblad. Het bevat de gebruikers-ID en de status van de workflow. Het toont ook eventuele foutcodes, de begin- en eindtijd van het actie-item.

hoe typecast in java

Fig: Elementen aanwezig op het actietabblad van de Oozie-workflow

6. Naast het actietabblad is het detailtabblad. Hierin kunnen we de starttijd en de laatst gewijzigde tijd van de taak zien.

Fig: Details van de Oozie-workflow.

7. Naast het tabblad Details hebben we het tabblad Configuratie van de workflow.

Fig: Configuratie-instellingen van de Oozie-workflow

7. Als er tijdens het uitvoeren van het actie-item fouten zijn, wordt dit vermeld op het tabblad Logboek. U kunt de foutverklaringen raadplegen en dienovereenkomstig fouten opsporen.

Fig: Logbestand met foutcodes en foutmeldingen

8. Hier is de XML-code van de workflow die automatisch wordt gegenereerd door Hue.

Fig: XML-code van de Oozie-workflow

9.1. Omdat je het pad voor de uitvoermap in stap 2 al hebt gespecificeerd, heb je hier de uitvoermap in de HDFS-browser zoals hieronder getoond.

Fig: Uitvoermap van de HDFS-browser

9.2 Zodra u op de uitvoermap klikt, vindt u een tekstbestand met de naam output.txt en dat tekstbestand bevat de daadwerkelijke uitvoer zoals weergegeven in de onderstaande afbeelding.

Fig: Laatste uitvoertekst

Dit is hoe Hue ons werk eenvoudig maakt door de opties voor slepen en neerzetten te bieden om een ​​Oozie-workflow te creëren.

Ik hoop dat deze blog nuttig was om de Cloudera-distributie en de verschillende Cloudera-componenten te begrijpen.

Deelnemen aan de Big Data-revolutie?

Nu je Cloudera Hadoop Distribution hebt begrepen, kun je het door Edureka, een vertrouwd online leerbedrijf met een netwerk van meer dan 250.000 tevreden leerlingen verspreid over de hele wereld. De Edureka Big Data Hadoop-certificeringstraining helpt leerlingen expert te worden in HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume en Sqoop met behulp van real-time use cases op het gebied van Retail, Social Media, Aviation, Tourism, Finance.

Heeft u een vraag voor ons? Vermeld het in het opmerkingengedeelte en we nemen contact met u op.