4 manieren om R en Hadoop samen te gebruiken



R en Hadoop vullen elkaar redelijk goed aan in termen van visualisatie en analyse van big data. In deze blogpost worden 4 manieren besproken om ze samen te gebruiken.

Hadoop is een ontwrichtend op Java gebaseerd programmeerraamwerk dat de verwerking van grote gegevenssets in een gedistribueerde computeromgeving ondersteunt, terwijl R een programmeertaal en softwareomgeving is voor statistische berekeningen en grafische afbeeldingen. De R-taal wordt veel gebruikt door statistici en datamijnwerkers voor het ontwikkelen van statistische software en het uitvoeren van data-analyse. Op het gebied van interactieve data-analyse, statistieken voor algemene doeleinden en voorspellende modellering is R enorm populair geworden vanwege zijn classificatie-, clustering- en rangschikkingsmogelijkheden.

js krijgen de lengte van de array

KM





Hadoop en R vullen elkaar redelijk goed aan in termen van visualisatie en analyse van big data.

Met behulp van R en Hadoop

Er zijn vier verschillende manieren om Hadoop en R samen te gebruiken:



1. RHadoop

RHadoop is een verzameling van drie R-pakketten: rmr, rhdfs en rhbase. rmr-pakket biedt Hadoop MapReduce-functionaliteit in R, rhdfs biedt HDFS-bestandsbeheer in R en rhbase biedt HBase-databasebeheer vanuit R. Elk van deze primaire pakketten kan worden gebruikt om Hadoop-framework-gegevens beter te analyseren en te beheren.

2. ORCH



ORCH staat voor Oracle R Connector for Hadoop. Het is een verzameling R-pakketten die de relevante interfaces bieden om met Hive-tabellen, de Apache Hadoop-rekeninfrastructuur, de lokale R-omgeving en Oracle-databasetabellen te werken. Bovendien biedt ORCH ook voorspellende analytische technieken die kunnen worden toegepast op gegevens in HDFS-bestanden.

3. RIJP

RHIPE is een R-pakket dat een API biedt om Hadoop te gebruiken. RHIPE staat voor R en Hadoop Integrated Programming Environment, en is in wezen RHadoop met een andere API.

Vier. Hadoop-streaming

Hadoop Streaming is een hulpprogramma waarmee gebruikers taken kunnen maken en uitvoeren met alle uitvoerbare bestanden als de mapper en / of het verloopstuk. Met behulp van het streaming-systeem kan men werkende Hadoop-taken ontwikkelen met net genoeg kennis van Java om twee shellscripts te schrijven die samen werken.

De combinatie van R en Hadoop komt naar voren als een onmisbare toolkit voor mensen die met statistieken en grote datasets werken. Sommige Hadoop-enthousiastelingen hebben echter een rode vlag gehesen bij het omgaan met extreem grote Big Data-fragmenten. Ze beweren dat het voordeel van R niet de syntaxis is, maar de uitgebreide bibliotheek van primitieven voor visualisatie en statistieken. Deze bibliotheken zijn in wezen niet-gedistribueerd, waardoor het opvragen van gegevens een tijdrovende aangelegenheid is. Dit is een inherent gebrek aan R, en als je ervoor kiest om het over het hoofd te zien, kunnen R en Hadoop samen nog steeds wonderen verrichten.

Laten we nu een demo bekijken:

Heeft u een vraag voor ons? Vermeld ze in het opmerkingengedeelte en we nemen contact met u op.

Gerelateerde berichten: