MongoDB met Hadoop en gerelateerde Big Data-technologieën



MongoDB met Hadoop en gerelateerde Big Data Technologies is een krachtige combinatie om een ​​oplossing te bieden voor een complexe situatie in analytics.

Relationele databases waren lange tijd voldoende om kleine of middelgrote datasets te verwerken. Maar de enorme snelheid waarmee gegevens groeien, maakt de traditionele benadering van gegevensopslag en -herstel onhaalbaar. Dit probleem wordt opgelost door nieuwere technologieën die met Big Data kunnen omgaan. Hadoop, Hive en Hbase zijn de populaire platforms om dit soort grote datasets te beheren. NoSQL of niet alleen SQL-databases zoals MongoDB bieden een mechanisme om gegevens op te slaan en op te halen in een loser-consistentiemodel met voordelen zoals:

  • Horizontaal schalen
  • Hogere beschikbaarheid
  • Snellere toegang

Het technische team van MongoDB heeft onlangs de MongoDB-connector voor Hadoop bijgewerkt voor een betere integratie. Dit maakt het voor Hadoop-gebruikers gemakkelijker om:





  • Integreer realtime gegevens van MongoDB met Hadoop voor diepgaande, offline analyses.
  • De connector stelt de analytische kracht van Hadoop's MapReduce bloot aan live applicatiedata van MongoDB, waardoor de waarde van big data sneller en efficiënter wordt gehaald.
  • De Connector presenteert MongoDB als een Hadoop-compatibel bestandssysteem waarmee een MapReduce-taak rechtstreeks van MongoDB kan worden gelezen zonder deze eerst naar HDFS (Hadoop-bestandssysteem) te kopiëren, waardoor het niet meer nodig is om terabytes aan gegevens over het netwerk te verplaatsen.
  • MapReduce-taken kunnen zoekopdrachten als filters doorgeven, zodat het niet nodig is om volledige collecties te scannen, en kunnen ook profiteren van de uitgebreide indexeringsmogelijkheden van MongoDB, waaronder geospatiale, tekstzoekopdrachten, array-, samengestelde en sparse indexen.
  • De resultaten van Hadoop-taken kunnen vanuit MongoDB worden gelezen en kunnen ook worden teruggeschreven naar MongoDB om realtime operationele processen en ad-hocquery's te ondersteunen.

Gebruiksscenario's voor Hadoop en MongoDB:

Laten we eens kijken naar een beschrijving op hoog niveau van hoe MongoDB en Hadoop in een typische Big Data-stack kunnen passen. We hebben voornamelijk:

  • MongoDB gebruikt als 'Operationele' realtime gegevensopslag
  • Hadoop voor offline verwerking en analyse van batchgegevens

Lees verder om te weten waarom en hoe MongoDB werd gebruikt door bedrijven en organisaties zoals Aadhar, Shutterfly, Metlife en eBay .



Toepassing van MongoDB met Hadoop in batchaggregatie:

In de meeste scenario's is de ingebouwde aggregatiefunctie van MongoDB voldoende voor het analyseren van gegevens. In bepaalde gevallen kan het echter nodig zijn om aanzienlijk meer complexe gegevensaggregatie te verzamelen. Dit is waar Hadoop een krachtig raamwerk kan bieden voor complexe analyses.

In dit scenario:

  • Gegevens worden uit MongoDB gehaald en binnen Hadoop verwerkt via een of meer MapReduce-taken. Gegevens kunnen ook afkomstig zijn van andere plaatsen binnen deze MapReduce-banen om een ​​oplossing met meerdere gegevensbronnen te ontwikkelen.
  • De uitvoer van deze MapReduce-taken kan vervolgens worden teruggeschreven naar MongoDB voor query's in een later stadium en voor elke analyse op ad-hocbasis.
  • Toepassingen die bovenop MongoDB zijn gebouwd, kunnen daarom de informatie van batchanalyses gebruiken om aan de eindklant te presenteren of om andere downstream-functies mogelijk te maken.

Hadoop Mongo DB-aggregatie



Toepassing in datawarehousing:

In een typische productie-installatie kunnen de gegevens van de app zich in meerdere gegevensarchieven bevinden, elk met hun eigen zoektaal en functionaliteit. Om de complexiteit in deze scenario's te verminderen, kan Hadoop worden gebruikt als een datawarehouse en als een gecentraliseerde opslagplaats voor gegevens uit de verschillende bronnen.

In dit soort scenario:

een nummer verhogen tot een macht in java
  • Periodieke MapReduce-taken laden gegevens van MongoDB in Hadoop.
  • Zodra de gegevens van MongoDB en andere bronnen beschikbaar zijn in Hadoop, kan er naar de grotere dataset worden gevraagd.
  • Gegevensanalisten hebben nu de mogelijkheid om MapReduce of Pig te gebruiken om banen te creëren die de grotere gegevenssets bevragen waarin gegevens van MongoDB zijn opgenomen.

Het team achter MongoDB heeft ervoor gezorgd dat het dankzij de rijke integratie met Big Data-technologieën zoals Hadoop goed kan worden geïntegreerd in de Big Data Stack en kan helpen bij het oplossen van een aantal complexe architecturale problemen als het gaat om gegevensopslag, ophalen, verwerken, aggregeren en warehousing. . Blijf ons volgen voor onze aanstaande post over carrièremogelijkheden voor degenen die Hadoop met MongoDB beginnen. Als je al met Hadoop werkt of gewoon MongoDB ophaalt, bekijk dan zeker de cursussen die we voor MongoDB aanbieden