Hadoop is een ontwrichtend op Java gebaseerd programmeerraamwerk dat de verwerking van grote gegevenssets in een gedistribueerde computeromgeving ondersteunt, terwijl R een programmeertaal en softwareomgeving is voor statistische berekeningen en grafische afbeeldingen. De R-taal wordt veel gebruikt door statistici en datamijnwerkers voor het ontwikkelen van statistische software en het uitvoeren van data-analyse. Op het gebied van interactieve data-analyse, statistieken voor algemene doeleinden en voorspellende modellering is R enorm populair geworden vanwege zijn classificatie-, clustering- en rangschikkingsmogelijkheden.
js krijgen de lengte van de array
Hadoop en R vullen elkaar redelijk goed aan in termen van visualisatie en analyse van big data.
Met behulp van R en Hadoop
Er zijn vier verschillende manieren om Hadoop en R samen te gebruiken:
1. RHadoop
RHadoop is een verzameling van drie R-pakketten: rmr, rhdfs en rhbase. rmr-pakket biedt Hadoop MapReduce-functionaliteit in R, rhdfs biedt HDFS-bestandsbeheer in R en rhbase biedt HBase-databasebeheer vanuit R. Elk van deze primaire pakketten kan worden gebruikt om Hadoop-framework-gegevens beter te analyseren en te beheren.
2. ORCH
ORCH staat voor Oracle R Connector for Hadoop. Het is een verzameling R-pakketten die de relevante interfaces bieden om met Hive-tabellen, de Apache Hadoop-rekeninfrastructuur, de lokale R-omgeving en Oracle-databasetabellen te werken. Bovendien biedt ORCH ook voorspellende analytische technieken die kunnen worden toegepast op gegevens in HDFS-bestanden.
3. RIJP
RHIPE is een R-pakket dat een API biedt om Hadoop te gebruiken. RHIPE staat voor R en Hadoop Integrated Programming Environment, en is in wezen RHadoop met een andere API.
Vier. Hadoop-streaming
Hadoop Streaming is een hulpprogramma waarmee gebruikers taken kunnen maken en uitvoeren met alle uitvoerbare bestanden als de mapper en / of het verloopstuk. Met behulp van het streaming-systeem kan men werkende Hadoop-taken ontwikkelen met net genoeg kennis van Java om twee shellscripts te schrijven die samen werken.
De combinatie van R en Hadoop komt naar voren als een onmisbare toolkit voor mensen die met statistieken en grote datasets werken. Sommige Hadoop-enthousiastelingen hebben echter een rode vlag gehesen bij het omgaan met extreem grote Big Data-fragmenten. Ze beweren dat het voordeel van R niet de syntaxis is, maar de uitgebreide bibliotheek van primitieven voor visualisatie en statistieken. Deze bibliotheken zijn in wezen niet-gedistribueerd, waardoor het opvragen van gegevens een tijdrovende aangelegenheid is. Dit is een inherent gebrek aan R, en als je ervoor kiest om het over het hoofd te zien, kunnen R en Hadoop samen nog steeds wonderen verrichten.
Laten we nu een demo bekijken:
Heeft u een vraag voor ons? Vermeld ze in het opmerkingengedeelte en we nemen contact met u op.
Gerelateerde berichten: