Hoe een Hadoop-cluster te maken met Amazon EMR?



In dit artikel zullen we de AWS EMR-service verkennen en tijdens het proces zullen we leren hoe we een Hadoop-cluster kunnen maken met Amazon EMR?

In dit artikel over hoe u Cluster Met Amazon EMR zouden we zien hoe we Hadoop- en Big Data-applicaties gemakkelijk kunnen uitvoeren en schalen. De volgende tips komen in dit artikel aan bod:

Verdergaan met dit How To Hadoop Cluster maken met Amazon EMR?





Hoe een Hadoop-cluster te maken met Amazon EMR?

Als we iets zoeken in Google of Yahoo, krijgen we het antwoord binnen een fractie van een seconde. Hoe is het mogelijk dat Google, Yahoo en andere zoekmachines de resultaten zo snel retourneren van het steeds groter wordende web? De zoekmachines doorzoeken het internet, downloaden de webpagina's en maken een index zoals hieronder weergegeven. Voor elke vraag van ons gebruiken ze de index om erachter te komen welke webpagina's de tekst bevatten waarnaar we op zoek waren. Door naar de onderstaande index aan de rechterkant te kijken, kunnen we duidelijk weten dat Hadoop daar webpagina 1, 2 en 3 is.

Image - Hoe een Hadoop-cluster te maken met Amazon EMR - EdurekaDan de PageRanking-algoritme wordt gebruikt die is gebaseerd op hoe de pagina's zijn verbonden om erachter te komen welke pagina bovenaan en welke onderaan moet worden weergegeven. In het onderstaande scenario is W1 de 'meest populaire' omdat iedereen ernaar linkt en W4 de 'minst populaire' omdat niemand ernaar linkt. W1 wordt dus bovenaan en W4 onderaan in de zoekresultaten weergegeven.



Met de explosie van de webpagina's vonden deze zoekmachines uitdagingen om een ​​index te maken en de PageRanking-berekeningen uit te voeren. Dit is waar de geboorte van Hadoop plaatsvond in Yahoo en later FOSS (Free and Open Source Software) werd onder de ASF (Apache Software Foundation). Eenmaal onder de ASF begonnen veel bedrijven interesse te tonen in Hadoop en begonnen bij te dragen om het te verbeteren. Hadoop was degene die de Big Data-revolutie begon, maar veel andere software zoals Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume begon te evolueren om de beperkingen en hiaten in Hadoop aan te pakken.

Webzoekmachines waren de eersten die Hadoop gebruikten, maar later begonnen veel use-cases te evolueren naarmate er steeds meer gegevens werden gegenereerd. Laten we het voorbeeld nemen van een e-commerce-applicatie die wordt gebruikt om boeken aan gebruikers aan te bevelen. Zoals aangegeven in het onderstaande diagram, kocht gebruiker1 boek1, boek2 en boek3, kocht gebruiker2 enkele boeken enzovoort. Als we goed kijken, kunnen we zien dat user1 en user2 dezelfde smaak hebben als ze book1 en book2 hebben gekocht. Dus book3 kan worden aanbevolen aan user2 en book4 kan worden aanbevolen aan user1. Dit wordt Collaborative Filtering genoemd, een soort Machine Learning-algoritme. We kunnen het onderstaande diagram omdraaien en soortgelijke boeken krijgen.

In het bovenstaande geval hebben we een index, PageRanked gemaakt en aanbevolen aan de gebruiker, de grootte van de gegevens was klein en dus konden we de gegevens visualiseren en er enkele resultaten uit afleiden. Omdat de omvang van de gegevens met de dag groter wordt en uit de hand loopt, komen hier Big Data-tools zoals Hadoop in beeld.



Hadoop lost veel problemen op, maar het installeren van Hadoop en andere Big Data-software was nooit een gemakkelijke taak. Er zijn veel configuratieparameters om aan te passen, zoals integratie-, installatie- en configuratieproblemen om mee te werken. Dit is waar bedrijven zoals Cloudera, en Databricks helpen. Ze maken het installeren van Big Data-software eenvoudiger en bieden commerciële ondersteuning, laten we zeggen dat er bijvoorbeeld iets gebeurt in de productie. Amazon EMR (Elastic MapReduce) maakt het gebruik van Hadoop enz. Veel gemakkelijker. De naam Elastic MapReduce is een beetje een verkeerde benaming, aangezien EMR ook andere gedistribueerde computermodellen ondersteunt, zoals Resilient Distributed Datasets en niet alleen MapReduce.

In deze tutorial zullen we onderzoeken hoe we een EMR-cluster op de AWS Cloud kunnen opzetten en in de komende tutorial zullen we onderzoeken hoe we Spark, Hive en andere programma's erop kunnen draaien.

Verdergaan met dit How To Hadoop Cluster maken met Amazon EMR?

Demo: een EMR-cluster maken in AWS

Stap 1: Ga naar de EMR Management Console en klik op 'Create cluster'. In de console worden de metagegevens voor het beëindigd cluster wordt ook twee maanden gratis bewaard. Hierdoor kan het beëindigde cluster worden gekloond en opnieuw worden gemaakt.

Stap 2 : Klik in het scherm met snelle opties op 'Ga naar geavanceerde opties' om veel meer details over het cluster op te geven.

Stap 3: Op het tabblad Geavanceerde opties kunnen we verschillende software selecteren om op het EMR-cluster te installeren. Voor een SQL-interface kan Hive worden geselecteerd. Voor een dataflow-taalinterface kan Pig worden geselecteerd. Voor gedistribueerde applicatiecoördinatie kan ZooKeeper worden geselecteerd, enzovoort. Op dit tabblad kunnen we ook stappen toevoegen, wat een optionele taak is. Stappen zijn Big Data-verwerkingstaken met behulp van MapReduce, Pig, Hive enz. Ze kunnen op dit tabblad of later worden toegevoegd zodra het cluster is gemaakt. Klik op 'Volgende' om de hardware te selecteren die nodig is voor het EMR-cluster.

Stap 4: Hadoop volgt de master-worker-architectuur waarbij de master alle coördinatie doet, zoals het plannen en toewijzen van het werk en het controleren van hun voortgang, terwijl de werknemers het eigenlijke werk doen van het verwerken en opslaan van de gegevens. Een enkele master is een Single-Point-Of-Failure (SPOF). Amazon EMR ondersteunt multi-master voor hoge beschikbaarheid (HA). De vorige stap maakt het mogelijk om een ​​multi-master cluster in EMR op te zetten.

android studio tutorials voor beginners

EMR staat twee soorten knooppunten toe, Core en Task. Het kernknooppunt wordt gebruikt voor zowel het verwerken als opslaan van de gegevens, het taakknooppunt wordt alleen gebruikt voor het verwerken van de gegevens. Voor deze zelfstudie kunnen we slechts één kern- en geen taakknooppunt selecteren, omdat dit voor ons minder kosten met zich meebrengt. Kies ook Spot gevallen over- Op aanvraag omdat de Spot-instanties goedkoper zijn. Het voordeel van de Spot-instanties is dat ze automatisch door AWS kunnen worden beëindigd met een twee minuten van tevoren . Dit is prima om te oefenen en in sommige actuele scenario's ook. Spot-instances worden automatisch beëindigd omdat ze een lage prioriteit hebben boven andere instantietypen. Klik op 'Volgende'.

Stap 5: Geef de Clusternaam op. en klik op 'Volgende'. Merk op dat 'Beëindigingsbescherming' standaard is ingeschakeld, dit zorgt ervoor dat het EMR-cluster niet per ongeluk wordt verwijderd door een paar stappen uit te voeren tijdens het beëindigen van het cluster.

Stap 6: Op het tabblad worden de verschillende beveiligingsopties voor het EMR-cluster gespecificeerd. Het KeyPair moet worden geselecteerd om in te loggen op de EC2-instantie. EMR maakt automatisch de juiste rollen en beveiligingsgroepen aan en koppelt deze aan de master- en werker-EC2-knooppunten. Klik op 'Cluster maken'.

Het aanmaken van het cluster duurt enkele minuten, aangezien de EC2-instances moeten worden gekocht en de verschillende Big Data-software moet worden geïnstalleerd en geconfigureerd. Aanvankelijk zou de clusterstatus de status 'Starten' hebben en doorgaan naar de status 'Wachten'. In de status 'Wachten' wacht het EMR-cluster gewoon op ons om verschillende Big Data-verwerkingstaken in te dienen, zoals MR, Spark, Hive enz.

Let ook op vanuit de EC2 Management Console en merk op dat de master- en de worker-EC2-instances actief moeten zijn. Dit zijn de Spot-instanties die zijn gemaakt als onderdeel van het maken van een EMR-cluster. Dezelfde EC2 kan ook worden bekeken op het tabblad Hardware in de EMR-beheerconsole. Merk op dat op het tabblad Hardware de prijs voor de Spot EC2-instanties wordt vermeld als 0,032 $ / uur. De prijs van de Spot-instances blijft in de loop van de tijd veranderen en is veel lager dan bij de On-Demand EC2-prijsstelling.

Stap 7: Nu het EMR-cluster met succes is toegevoegd, kunnen Steps of Big Data-verwerkingstaken worden toegevoegd. Ga naar het tabblad Stappen en klik op 'Stap toevoegen' en selecteer het type stap (MR, Hive, Spark enz.). We zullen hetzelfde onderzoeken in de komende tutorial. Klik voorlopig op Annuleren.

Stap 8: Nu we hebben gezien hoe we de EMR kunnen starten, laten we eens kijken hoe we hetzelfde kunnen stoppen.

Stap 8.1: Klik op Beëindigen.

Stap 8.2: Zoals vermeld in de vorige stappen, is 'Beëindigingsbeveiliging' Aan voor het EMR-cluster en is de knop Beëindigen uitgeschakeld. Klik op Wijzigen.

Stap 8.3: Selecteer het keuzerondje 'Uit' en klik op het vinkje. Nu moet de knop Beëindigen zijn ingeschakeld. Dit is de extra stap die EMR heeft geïntroduceerd, alleen om ervoor te zorgen dat we niet per ongeluk het EMR-cluster verwijderen.

Merk op dat het EMR-cluster de status Beëindigend zal hebben en de EC2's worden beëindigd. Ten slotte wordt het EMR-cluster verplaatst naar de status Beëindigd, vanaf hier stopt onze facturering met AWS. Zorg ervoor dat u het cluster beëindigt, om geen extra AWS-kosten te maken.

Conclusie

In deze tutorial hebben we gezien hoe je het EMR-cluster binnen een paar minuten start vanuit de webconsole (browser), hetzelfde kan worden geautomatiseerd met de , AWS SDK of door AWS CloudFormation . Zoals opgemerkt is het opzetten van een EMR-cluster een kwestie van minuten en kan de Big Data-verwerking onmiddellijk worden gestart, zodra de verwerking is voltooid, kan de uitvoer worden opgeslagen in S3 of DynamoDB en dus wordt het cluster afgesloten om de facturering te stoppen. Vanwege dit prijsmodel en het gebruiksgemak is EMR een grote hit bij degenen die de Big Data-verwerking uitvoeren. Het is niet nodig om in grote aantallen servers te kopen, licenties voor de Big Data-software te krijgen en deze te onderhouden. '

Dus dit zijn het jongens, dit brengt ons bij het einde van dit artikel over hoe een Hadoop-cluster te maken met Amazon EMR?In het geval dat u expertise in dit onderwerp wilt opdoen, heeft Edureka een curriculum bedacht dat precies dekt wat u nodig heeft om het Solution Architect Exam te kraken! U kunt de cursusdetails bekijken voor opleiding.

Als u vragen heeft met betrekking tot deze blog, kunt u deze stellen in het opmerkingengedeelte hieronder en we beantwoorden u graag zo snel mogelijk.