Hadoop 2.0 - Veelgestelde vragen



De belangstelling voor Hadoop is de afgelopen jaren veelvuldig toegenomen. Dit bericht beantwoordt uw vragen en verwijdert veel twijfels over Hadoop 2.0 en het gebruik ervan.

Dit is een vervolgbericht met antwoord op veelgestelde vragen tijdens het openbare webinar van edureka! Aan .

Veelgestelde vragen over Hadoop

Deepak:





Wat is Hadoop?
Apache Hadoop is een Open Source softwareframework voor opslag en grootschalige verwerking van datasets op clusters van standaardhardware. Het is een open source-softwareframework voor gegevensbeheer met schaalbare opslag en gedistribueerde verwerking. Het wordt gebouwd en gebruikt door een wereldwijde gemeenschap van medewerkers en gebruikers.

wat zijn pakketten in java

Lees meer op onze Hadoop-blogpost en .



Zoeken:

Wat zijn de toepassingen van big data in de reis-, transport- en luchtvaartindustrie?

Zonnig:



Kunt u ons wijzen op een voorbeeld uit de praktijk van Hadoop-implementatie dat we kunnen bestuderen?
We zijn livivanin een tijdperk van toenemende congestie tijdens piekuren. Vervoerders zijn voortdurend op zoek naar kosteneffectieve manieren om hun diensten te verlenen en tegelijkertijd hun transportvloot in goede staat te houden. Het gebruik van Big Data Analytics in dit domein kan organisaties helpen met:

  • Route-optimalisatie
  • Geospatiale analyse
  • Verkeerspatronen en congestie
  • Onderhoud van activa
  • Revenue Management (d.w.z. luchtvaartmaatschappij)
  • Voorraadbeheer
  • Brandstofbesparing
  • Gerichte marketing
  • Klantenbinding
  • Capaciteitsvoorspelling
  • Netwerkprestaties en optimalisatie

Er zijn maar weinig praktische use-cases:
naar) Vluchtkosten bepalen
b) Voorspellingsmodellering voor voorraadlogistiek
c) Orbitz wereldwijd - Kooppatronen voor klanten
d) Zes Super-Scale Hadoop-implementaties
is) Hadoop - meer dan toevoegingen
f) Hadoop in Enterprise

U kunt meer lezen over Hadoop Real-world-implementaties op:

Hirdesh:

Gaat Hadoop alles over gegevensverwerking en -verwerking? Hoe gaan we voor rapportage en visuele analyse. Kan Qlikview, Tableau bovenop Hadoop worden gebruikt?
De kerncomponenten van Hadoop HDFS en MapReduce hebben alles te maken met gegevensopslag en -verwerking. HDFS voor opslag en MapReduce voor verwerking. Maar Hadoop-kerncomponenten zoals Pig en Hive worden gebruikt voor analyses. Voor Visual Reports Tableau kan QlikView worden verbonden met Hadoop for Visual Reporting.

Amit:

Hadoop Vs. mongoDB
MongoDB wordt gebruikt als de 'operationele' realtime gegevensopslag, terwijl Hadoop wordt gebruikt voor offline batchgegevensverwerking en -analyse.
mongoDB is een documentgeoriënteerde, schema-loze datastore die u in een webapplicatie als backend kunt gebruiken in plaats van RDBMS zoals MySQL, terwijl Hadoop voornamelijk wordt gebruikt als scale-out opslag en gedistribueerde verwerking voor grote hoeveelheden gegevens.

Lees meer op onze mongoDB en Hadoop blogpost .

Hier:

Is Apache Spark een onderdeel van Hadoop ?
Apache Spark is een snelle en algemene engine voor grootschalige gegevensverwerking. Spark is sneller en ondersteunt verwerking in het geheugen. Spark-uitvoeringsengine verbreedt het type computerwerkbelasting dat Hadoop aankan en kan worden uitgevoerd op Hadoop 2.0 YARN-cluster. Het is een verwerkingsframework dat het mogelijk maakt om In-Memory-objecten (RDD) op te slaan, samen met de mogelijkheid om deze objecten te verwerken met Scala-sluitingen. Het ondersteunt Graph, Data Warehouse, Machine Learning en Stream-verwerking.

Als u een Hadoop 2-cluster heeft, kunt u Spark uitvoeren zonder dat er installatie nodig is. Anders kan Spark gemakkelijk standalone of op EC2 of Mesos worden uitgevoerd. Het kan lezen van HDFS, HBase, Cassandra en elke Hadoop-gegevensbron.

Lees meer over Spark hier .

Prasad:

Wat is Apache Flume?
Apache Flume is een gedistribueerd, betrouwbaar en beschikbaar systeem voor het efficiënt verzamelen, samenvoegen en verplaatsen van grote hoeveelheden loggegevens van veel verschillende bronnen naar een gecentraliseerde gegevensbron.

Amit:

SQL versus NO-SQL-databases
NoSQL-databases zijn Next Generation-databases en behandelen meestal enkele van de punten

  • niet-relationeel
  • verdeeld
  • open source
  • horizontaal schaalbaar

Vaak zijn er meer kenmerken van toepassing zoals schemavrij, gemakkelijke replicatieondersteuning, eenvoudige API, uiteindelijk consistent / BASE (niet ACID), een enorme hoeveelheid gegevens en meer. Enkele van de onderscheidende factoren zijn bijvoorbeeld:

  • NoSQL-databases worden horizontaal geschaald, waardoor meer servers worden toegevoegd om grotere belastingen te verwerken. SQL-databases daarentegen, schalen meestal verticaal op, waardoor steeds meer bronnen aan een enkele server worden toegevoegd naarmate het verkeer toeneemt.
  • SQL-databases vereisten dat u uw schema's definieerde voordat u informatie en gegevens toevoegde, maar NoSQL-databases zijn schemavrij en vereisen geen schemadefinitie vooraf.
  • SQL-databases zijn op tabellen gebaseerd met rijen en kolommen volgens RDBMS-principes, terwijl NoSQL-databases documenten, sleutel / waarde-paren, grafieken of wide-column stores zijn.
  • SQL-databases gebruiken SQL (gestructureerde querytaal) voor het definiëren en manipuleren van de gegevens. In de NoSQL-database variëren de zoekopdrachten van de ene database tot de andere.

Populaire SQL-databases: MySQL, Oracle, Postgres en MS-SQL
Populair NoSQL-databases: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j en CouchDB

hashmap en hashtabel in java

Bekijk onze blogs op Hadoop en NoSQL databases en voordelen van een dergelijke database:

Koteswararao:

Heeft Hadoop een ingebouwde clustertechnologie?
Een Hadoop-cluster gebruikt een Master-Slave-architectuur. Het bestaat uit een enkele master (NameNode) en een cluster van slaves (DataNodes) om gegevens op te slaan en te verwerken. Hadoop is ontworpen om te draaien op een groot aantal machines die geen geheugen of schijven delen. Deze DataNodes zijn geconfigureerd als Cluster met . Hadoop gebruikt een concept van replicatie om ervoor te zorgen dat er altijd ten minste één kopie van de gegevens in het cluster beschikbaar is. Omdat er meerdere kopieën van gegevens zijn, kunnen gegevens die zijn opgeslagen op een server die offline gaat of doodgaat, automatisch worden gekopieerd van een bekende goede kopie.

Dinesh:

Wat is een baan in Hadoop? Wat kan allemaal worden bereikt via een baan?
In Hadoop is a Job een MapReduce-programma om de gegevens te verwerken / analyseren. De term MapReduce verwijst eigenlijk naar twee afzonderlijke en verschillende taken die Hadoop-programma's uitvoeren. De eerste is de kaarttaak, die een set gegevens opneemt en deze omzet in een andere set tussenliggende gegevens, waarbij individuele elementen worden opgesplitst in sleutelwaardeparen. Het tweede deel van een MapReduce-taak, de Reduce-taak, neemt de uitvoer van een kaart als invoer en combineert de sleutel / waarde-paren tot een kleinere set van geaggregeerde sleutel-waardeparen. Zoals de volgorde van de naam MapReduce aangeeft, wordt de Reduce-taak altijd uitgevoerd nadat de Map-taken zijn voltooid. Lees meer over MapReduce Job .

Sukruth:

Wat is er speciaal aan NameNode ?
De NameNode is het hart van een HDFS-bestandssysteem. Het houdt de metagegevens bij, zoals de mappenboom van alle bestanden in het bestandssysteem en houdt bij waar in het cluster de bestandsgegevens worden bewaard. De feitelijke gegevens worden opgeslagen op DataNodes als HDFS-blokken.
Clienttoepassingen praten met de NameNode wanneer ze een bestand willen lokaliseren, of wanneer ze een bestand willen toevoegen / kopiëren / verplaatsen / verwijderen. De NameNode reageert op de succesvolle verzoeken door een lijst met relevante DataNodes-servers te retourneren waarop de gegevens zich bevinden. Lees meer over HDFS-architectuur .

Dinesh:

Wanneer werd Hadoop 2.0 op de markt geïntroduceerd?
Apache Software Foundation (ASF), de open source-groep die de Hadoop Development beheert, heeft in haar blog op 15 oktober 2013 aangekondigd dat Hadoop 2.0 nu Generally Available (GA) is. Deze aankondiging betekent dat na lang wachten Apache Hadoop 2.0 en YARN nu klaar zijn voor productie-implementatie. Meer Blog.

Dinesh:

Wat zijn de paar voorbeelden van niet-MapReduce Big Data-applicaties?
MapReduce is geweldig voor veel toepassingen om Big Data-problemen op te lossen, maar niet voor alles, andere programmeermodellen voldoen beter aan vereisten zoals Graph-verwerking (bijv.Google Pregel / Apache Giraph) en iteratieve modellering met Message Passing Interface (MPI).

Marish:

wat is data blending in tableau

Hoe worden de gegevens gerangschikt en geïndexeerd in HDFS?
Gegevens worden opgedeeld in blokken van 64 MB (configureerbaar door een parameter) en worden opgeslagen in HDFS. NameNode slaat opslaginformatie van deze blokken op als blok-ID's in zijn RAM (NameNode Metadata). MapReduce-taken hebben toegang tot deze blokken met behulp van de metagegevens die zijn opgeslagen in NameNode RAM.

Shashwat:

Kunnen we zowel MapReduce (MRv1) als MRv2 (met YARN) op hetzelfde cluster gebruiken?
Hadoop 2.0 heeft een nieuw raamwerk YARN geïntroduceerd om verschillende applicaties op Hadoop te schrijven en uit te voeren. YARN en MapReduce zijn dus twee verschillende concepten in Hadoop 2.0 en mogen niet door elkaar worden gemengd en gebruikt. De juiste vraag is 'Is het mogelijk om zowel MRv1 als MRv2 uit te voeren op een YARN-enabled Hadoop 2.0-cluster?' Het antwoord op deze vraag is a 'Nee' alsof een Hadoop-cluster kan worden geconfigureerd om zowel MRv1 als MRv2 uit te voeren, maar slechts één set daemons tegelijk kan draaien. Beide frameworks gebruiken uiteindelijk dezelfde configuratiebestanden ( yarn-site.xml en mapred-site.xml ) om de daemons uit te voeren, daarom kan slechts één van de twee configuraties worden ingeschakeld op een Hadoop-cluster.

Pop:

Wat is het verschil tussen Next Generation MapReduce (MRv2) en YARN?
YARN en Next Generation MapReduce (MRv2) zijn twee verschillende concepten en technologieën in Hadoop 2.0. YARN is een softwareframework dat kan worden gebruikt om niet alleen MRv2 maar ook andere applicaties uit te voeren. MRv2 is een applicatieframework dat is geschreven met behulp van de YARN API en het draait binnen YARN.

Bharat:

Biedt Hadoop 2.0 achterwaartse compatibiliteit voor Hadoop 1.x-toepassingen?
Neha:

Vereist Hadoop 1.0 naar 2.0-migratie zware applicatiecode migratie?
Nee, de meeste applicaties die zijn ontwikkeld met behulp van “org.apache.hadoop.mapred” API's, kunnen op YARN draaien zonder enige hercompilatie. YARN is binair compatibel met MRv1-applicaties en 'bin / hadoop' kan worden gebruikt om deze aanvragen op YARN in te dienen. Lees hier meer over hier .

Sherin:

Wat gebeurt er als het Resource Manager-knooppunt mislukt in Hadoop 2.0?
Vanaf Hadoop Release 2.4.0 is ook ondersteuning voor hoge beschikbaarheid voor Resource Manager beschikbaar. De ResourceManager gebruikt Apache ZooKeeper voor failover. Wanneer het Resource Manager-knooppunt uitvalt, kan een secundair knooppunt snel worden hersteld via de clusterstatus die is opgeslagen in ZooKeeper. De ResourceManager start bij een failover alle in de wachtrij geplaatste en actieve applicaties opnieuw op.

Sabbirali:

Werkt het Hadoop-framework van Apache op Cloudera Hadoop?
Apache Hadoop werd in 2005 geïntroduceerd met de kernverwerkingsengine MapReduce om de gedistribueerde verwerking van grootschalige gegevensworkloads die zijn opgeslagen in HDFS te ondersteunen. Het is een open source-project en heeft meerdere distributies (vergelijkbaar met Linux). Cloudera Hadoop (CDH) is zo'n distributie van Cloudera. Andere soortgelijke distributies zijn HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights enz.

Arulvadivel:

Is er een gemakkelijke manier om Hadoop op mijn laptop te installeren en de Oracle-database naar Hadoop te migreren?
Jij kan begin met een HortonWorks Sandbox of Cloudera Quick VM op uw laptop (met minimaal 4 GB RAM en i3 of hoger processor). Gebruik SQOOP om gegevens van Oracle naar Hadoop te verplaatsen, zoals uitgelegd hier .

Bhabani:

Wat zijn de beste beschikbare boeken om Hadoop te leren kennen?
Beginnen met Hadoop: de definitieve gids door Tom White en Hadoop-operaties door Eric Sammer.

Mahendra:

Is er iets beschikbaar voor Hadoop 2.0, net als Hadoop, de definitieve gids?
Bekijk het laatste aankomst op boekenplanken geschreven door enkele van de makers van Hadoop 2.0.

Blijf op de hoogte voor meer vragen in deze serie.