Hadoop toepassen met Data Science



Nu Hadoop zowel een schaalbaar dataplatform als een rekenmachine is, komt datawetenschap opnieuw op als een middelpunt van bedrijfsinnovatie. Hadoop is nu een zegen voor datawetenschappers.

Apache Hadoop wordt snel de technologie bij uitstek voor organisaties die in big data investeren en zo hun volgende generatie data-architectuur aandrijven. Nu Hadoop zowel een schaalbaar dataplatform als een computerengine is, komt datawetenschap opnieuw naar voren als een middelpunt van bedrijfsinnovatie, met toegepaste dataoplossingen zoals online productaanbevelingen, geautomatiseerde fraudedetectie en klantensentimentanalyse.

In dit artikel geven we een overzicht van data science en hoe je Hadoop kunt gebruiken voor grootschalige data science-projecten.





Hoe is Hadoop nuttig voor datawetenschappers?

Hadoop is een zegen voor datawetenschappers. Laten we eens kijken hoe Hadoop helpt bij het verhogen van de productiviteit van datawetenschappers. Hadoop heeft een unieke mogelijkheid waarbij alle gegevens vanaf één plek kunnen worden opgeslagen en opgehaald. Op deze manier kan het volgende worden bereikt:

  • Mogelijkheid om alle gegevens in het RAW-formaat op te slaan
  • Data Silo Convergentie
  • Datawetenschappers zullen innovatieve toepassingen van gecombineerde gegevensactiva ontdekken.

Hadoop-with-ds11



Sleutel tot de kracht van Hadoop:

  • Tijd en kosten verminderen - Hadoop helpt bij het drastisch verminderen van de tijd en kosten van het bouwen van grootschalige dataproducten.
  • Berekening bevindt zich op dezelfde locatie als gegevens - Het gegevens- en computersysteem is ontworpen om samen te werken.
  • Betaalbaar op schaal - Kan ‘commodity’ hardwareknooppunten gebruiken, is zelfherstellend, uitstekend bij batchverwerking van grote datasets.
  • Ontworpen voor één keer schrijven en meerdere keren lezen - Er zijn geen willekeurige schrijfbewerkingen en isGeoptimaliseerd voor minimaal zoeken op harde schijven

Waarom Hadoop met Data Science?

Reden # 1: Verken grote datasets

De eerste en belangrijkste reden is dat men het kan Verken grote datasets rechtstreeks met Hadoop door Hadoop integreren in de Data-analyse stroom .

Dit wordt bereikt door eenvoudige statistieken te gebruiken, zoals:



  • Gemeen
  • Mediaan
  • Quantile
  • Voorverwerking: grep, regex

Men kan ook ad-hoc sampling / filtering gebruiken om te bereiken Willekeurig: met of zonder vervanging, steekproef door unieke sleutel en K-fold kruisvalidatie.

Reden # 2: mogelijkheid om grote gegevenssets te ontginnen

Het leren van algoritmen met grote datasets heeft zo zijn eigen uitdagingen. De uitdagingen zijn:

  • Gegevens passen niet in het geheugen.
  • Leren kost veel meer tijd.

Bij gebruik van Hadoop kan men functies uitvoeren zoals het distribueren van gegevens over knooppunten in het Hadoop-cluster en een gedistribueerd / parallel algoritme implementeren. Voor aanbevelingen kan men het Alternate Least Square-algoritme gebruiken en voor het clusteren kan K-Means worden gebruikt.

Reden # 3: grootschalige gegevensvoorbereiding

We weten allemaal dat 80% van het datawetenschapswerk betrekking heeft op ‘datavoorbereiding’. Hadoop is ideaal voor batchvoorbereiding en opschoning van grote datasets.

ansible vs chef vs pop

Reden # 4: versnellen datagestuurde innovatie:

Traditionele data-architecturen hebben belemmeringen voor snelheid. RDBMS gebruikt schema op schrijven en daarom is verandering duur. Het is ook een hoge barrière voor datagedreven innovatie.

Hadoop gebruikt 'Schema bij lezen' wat betekent snellere tijd voor innovatie en voegt dus een lage barrière op datagestuurde innovatie.

Om daarom de vier belangrijkste redenen samen te vatten waarom we Hadoop met Data Science nodig hebben, zijn:

  1. Mijn grote datasets
  2. Dataverkenning met volledige datasets
  3. Voorverwerking op schaal
  4. Snellere gegevensgestuurde cycli

We zien daarom dat organisaties Hadoop in hun voordeel kunnen gebruiken om data te minen en daar bruikbare resultaten uit te halen.

Heeft u een vraag voor ons ?? Vermeld ze in het opmerkingengedeelte en we nemen contact met u op.

Gerelateerde berichten:

Belang van data science met Cassandra