Hadoop, zoals we allemaal weten, is de posterboy van big data. Als een softwareframework dat in staat is om olifantachtige verhoudingen van gegevens te verwerken, heeft Hadoop zijn weg gevonden naar de top van de CIO-lijst met modewoorden.
De ongekende opkomst van de in-memory stack heeft het big data-ecosysteem echter geïntroduceerd in een nieuw alternatief voor analyse. De MapReduce-manier van analyseren wordt vervangen door een nieuwe benadering die analyses zowel binnen als buiten het Hadoop-framework mogelijk maakt. Apache Spark is het frisse nieuwe gezicht van big data-analyse.
Liefhebbers van big data hebben Apache Spark gecertificeerd als de heetste datacompute-engine voor big data ter wereld. Het werpt MapReduce en Java snel uit hun posities, en jobtrends weerspiegelen deze verandering. Volgens een onderzoek van TypeSafe evalueert 71% van de wereldwijde Java-ontwikkelaars momenteel Spark, en 35% van hen is er al mee begonnen. Er is momenteel veel vraag naar Spark-experts en in de komende weken zal het aantal Spark-gerelateerde vacatures naar verwachting alleen maar stijgen.
Dus, wat is het met Apache Spark waardoor het bovenaan de takenlijst van elke CIO verschijnt?
is a heeft een java
Hier zijn enkele van de interessante functies van Apache Spark:
- Hadoop-integratie - Spark kan werken met bestanden die zijn opgeslagen in HDFS.
- Spark's Interactive Shell - Spark is geschreven in Scala, en heeft een eigen versie van de Scala-interpreter.
- Spark's Analytic Suite - Spark wordt geleverd met tools voor interactieve query-analyse, grootschalige grafiekverwerking en -analyse en realtime analyse.
- Veerkrachtige gedistribueerde gegevenssets (RDD's) - RDD's zijn gedistribueerde objecten die in het geheugen kunnen worden opgeslagen, over een cluster van rekenknooppunten. Dit zijn de primaire gegevensobjecten die in Spark worden gebruikt.
- Gedistribueerde operators - Naast MapReduce zijn er veel andere operators die u op RDD's kunt gebruiken.
Organisaties als NASA, Yahoo en Adobe hebben zich gecommitteerd aan Spark. Dit is wat John Tripier, Alliances and Ecosystem Lead bij Databricks te zeggen heeft: “De acceptatie van Apache Spark door grote en kleine bedrijven groeit ongelooflijk snel in een breed scala van industrieën, en de vraag naar ontwikkelaars met gecertificeerde expertise is snel. volgende reeks ”. Er is nog nooit een betere tijd geweest om Spark te leren als je een achtergrond hebt in Hadoop.
Edureka heeft speciaal een cursus samengesteld over Apache Spark & Scala, die mede is ontwikkeld door praktijkmensen uit de praktijk. Bekijk onze cursus voor een gedifferentieerde live e-learningervaring en brancherelevante projecten. Nieuwe batches beginnen binnenkort, dus bekijk de cursus hier: .
Heeft u een vraag voor ons? Vermeld het in het opmerkingengedeelte en we nemen contact met u op.
Gerelateerde berichten:
t sql datumgegevenstype