Essentiële Hadoop-tools voor het verwerken van big data



Hadoop is tegenwoordig het modewoord in de IT-wereld en dit bericht beschrijft de essentiële Hadoop-tools die Big Data kraken.

Tegenwoordig is de meest populaire term in de IT-wereld ‘Hadoop’. Binnen korte tijd Hadoop is enorm gegroeid en is nuttig gebleken voor een grote verzameling uiteenlopende projecten. De Hadoop-gemeenschap evolueert snel en speelt een prominente rol in haar ecosysteem.





Hier is een overzicht van de essentiële Hadoop-tools die worden gebruikt om met Big Data om te gaan.

hoe installeer ik php

ambari



Ambari is een Apache-project ondersteund door Hortonworks. Het biedt een webgebaseerde GUI (Graphical User Interface) met wizard-scripts voor het opzetten van clusters met de meeste standaardcomponenten. Ambari verzorgt, beheert en bewaakt alle clusters van Hadoop-taken.

hdfs-logo

De HDFS , gedistribueerd onder Apache-licentie biedt een basisraamwerk voor het splitsen van gegevensverzamelingen over meerdere knooppunten. In HDFS worden de grote bestanden opgedeeld in blokken, waarbij verschillende knooppunten alle blokken van een bestand bevatten. Het bestandssysteem is zo ontworpen dat het fouttolerantie combineert met een hoge doorvoer. De blokken van HDFS worden geladen om een ​​gestage streaming te behouden. Ze worden meestal niet in de cache opgeslagen om de latentie te minimaliseren.



hbaselogo

HBase is een kolomgeoriënteerd databasebeheersysteem dat bovenop HDFS draait. HBase-applicaties zijn geschreven in Java, net als de MapReduce-applicatie. Het bestaat uit een set tabellen, waarbij elke tabel rijen en kolommen bevat zoals een traditionele database. Wanneer de gegevens in de grote tabel vallen, slaat HBase de gegevens op, doorzoekt deze en deelt de tabel automatisch over meerdere knooppunten, zodat MapReduce-taken deze lokaal kunnen uitvoeren. HBase biedt een beperkte garantie voor enkele lokale wijzigingen. De wijzigingen die in een enkele rij plaatsvinden, kunnen tegelijkertijd slagen of mislukken.

hive

Als u al vloeiend bent met SQL, kunt u Hadoop gebruiken met Bijenkorf . Hive is ontwikkeld door sommige mensen op Facebook. Apache Hive regelt het proces van het extraheren van bits uit alle bestanden in HBase. Het ondersteunt analyse van grote datasets die zijn opgeslagen in Hadoop's HDFS en compatibele bestandssystemen. Het biedt ook een SQL-achtige taal genaamd HSQL (HiveSQL) die in de bestanden komt en de vereiste fragmenten voor de code extraheert.

sqoop

Apache Sqoop is speciaal ontworpen om bulkgegevens efficiënt van de traditionele databases naar Hive of HBase over te brengen. Het kan ook worden gebruikt om gegevens uit Hadoop te extraheren en te exporteren naar externe gestructureerde datastores zoals relationele databases en enterprise datawarehouses. Sqoop is een opdrachtregelprogramma dat de tabellen en de gegevensopslaglaag in kaart brengt en de tabellen vertaalt naar een configureerbare combinatie van HDFS, HBase of Hive.

Pig1

Als de opgeslagen gegevens zichtbaar zijn voor Hadoop, Apache Pig duikt in de gegevens en voert de code uit die is geschreven in zijn eigen taal, genaamd Pig Latin. Pig Latin staat vol met abstracties voor het omgaan met de gegevens. Pig wordt geleverd met standaardfuncties voor veelvoorkomende taken zoals het middelen van gegevens, het werken met datums of om verschillen tussen strings te vinden. Met Pig kan de gebruiker ook zelf talen schrijven, genaamd UDF (User Defined Function), wanneer de standaardfuncties tekortschieten.

zookeper

Dierentuinmedewerker is een gecentraliseerde service die informatie onderhoudt, configureert, een naam geeft en gedistribueerde synchronisatie biedt over een cluster. Het legt een bestandssysteemachtige hiërarchie op aan het cluster en slaat alle metadata voor de machines op, zodat we het werk van de verschillende machines kunnen synchroniseren.

NoSQL

Sommige Hadoop-clusters integreren met NoSQL datastores die hun eigen mechanismen hebben voor het opslaan van gegevens in een cluster van knooppunten. Hierdoor kunnen ze data opslaan en ophalen met alle features van de NoSQL-database, waarna Hadoop gebruikt kan worden om data-analyse taken in te plannen op hetzelfde cluster.

mahoutlogo

Mahout is ontworpen om een ​​groot aantal algoritmen, classificaties en filtering van gegevensanalyse naar Hadoop-cluster te implementeren. Veel van de standaardalgoritmen zoals K-gemiddelden, Dirichelet, parallel patroon en Bayesiaanse classificaties zijn klaar om op de gegevens uit te voeren met een Hadoop-stijlkaart en te verminderen.

Lucene, geschreven in Java en gemakkelijk te integreren met Hadoop, is een natuurlijke metgezel voor Hadoop. Het is een tool bedoeld voor het indexeren van grote blokken ongestructureerde tekst. Lucene zorgt voor de indexering, terwijl Hadoop de gedistribueerde query's over het cluster afhandelt. Lucene-Hadoop-functies evolueren snel naarmate nieuwe projecten worden ontwikkeld.

Avro

Euro is een serialisatiesysteem dat de gegevens bundelt met een schema om ze te begrijpen. Elk pakket wordt geleverd met een JSON-gegevensstructuur. JSON legt uit hoe de gegevens kunnen worden geparseerd. De header van JSON specificeert de structuur voor de gegevens, waarbij de noodzaak om extra tags in de gegevens te schrijven om de velden te markeren, kan worden vermeden. De output is aanzienlijk compacter dan de traditionele formaten zoals XML.

Een taak kan worden vereenvoudigd door deze in stappen op te splitsen. Bij het opbreken van het project in meerdere Hadoop-taken, Oozie begint ze in de juiste volgorde te verwerken. Het beheert de workflow zoals gespecificeerd door DAG (Directed Acyclic Graph) en er is geen tijdige monitoring nodig.

GIS-tools

Werken met geografische kaarten is een grote klus voor clusters met Hadoop. Het GIS ( Geografisch informatiesysteem ) tools voor Hadoop-projecten hebben de beste op Java gebaseerde tools aangepast voor het begrijpen van geografische informatie die met Hadoop kan worden uitgevoerd. De databases kunnen nu geografische zoekopdrachten afhandelen met behulp van coördinaten en de codes kunnen de GIS-tools inzetten.

Het verzamelen van alle gegevens staat gelijk aan het opslaan en analyseren ervan. Apache Flume verzendt ‘speciale agenten’ om informatie te verzamelen die in HDFS wordt opgeslagen. De verzamelde informatie kan logboekbestanden, Twitter API of website-kladjes zijn. Deze gegevens kunnen worden geketend en aan analyses worden onderworpen.

Spark

Vonk is de volgende generatie die min of meer werkt als Hadoop die gegevens in het geheugen verwerkt. Het doel is om gegevensanalyse snel uit te voeren en te schrijven met een algemeen uitvoeringsmodel. Dit kan willekeurige operatorgrafieken optimaliseren en in-memory computing ondersteunen, waardoor het sneller gegevens kan opvragen dan schijfgebaseerde engines zoals Hadoop.

SQL op Hadoop

Als het nodig is om een ​​snelle ad-hocquery uit te voeren op alle gegevens in het cluster, kan een nieuwe Hadoop-taak worden geschreven, maar dit kost wat tijd. Toen programmeurs dit vaker gingen doen, kwamen ze met tools die waren geschreven in de eenvoudige taal van SQL. Deze tools bieden snelle toegang tot de resultaten.

Apache Drill

Apache Drill biedt ad-hocquery's met lage latentie aan talloze en gevarieerde gegevensbronnen, waaronder geneste gegevens. Drill, geïnspireerd op Dremel van Google, is ontworpen om op te schalen naar 10.000 servers en petabytes aan gegevens in seconden op te vragen.

Dit zijn de essentiële Hadoop-tools voor het verwerken van Big Data!

Heeft u een vraag voor ons? Vermeld ze in het opmerkingengedeelte en we nemen contact met u op.

Gerelateerde berichten:

Praktische redenen om Hadoop 2.0 te leren kennen