Apache Spark met Hadoop - Waarom is het belangrijk?



De implementatie van Apache Spark met Hadoop op grote schaal door topbedrijven geeft aan dat het succes en potentieel heeft als het gaat om realtime verwerking.

Hadoop, het gegevensverwerkingsraamwerk dat een platform op zichzelf is geworden, wordt nog beter wanneer er goede componenten op worden aangesloten. Sommige tekortkomingen van Hadoop, zoals de MapReduce-component van Hadoop, hebben de reputatie traag te zijn voor realtime gegevensanalyse.





Voer Apache Spark in, een op Hadoop gebaseerde gegevensverwerkingsengine die is ontworpen voor zowel batch- als streamingworkloads, nu in versie 1.0 en uitgerust met functies die illustreren wat voor soort werk Hadoop moet opnemen. Spark werkt bovenop bestaande Hadoop-clusters om verbeterde en aanvullende functionaliteit te bieden.

Laten we eens kijken naar de belangrijkste functies van spark en hoe het samen met Hadoop en .



Belangrijkste voordelen van Apache Spark:

img2-R

De geweldige functies van Spark:

  • Hadoop-integratie - Spark kan werken met bestanden die zijn opgeslagen in HDFS.
  • Spark's Interactive Shell - Spark is geschreven in Scala, en heeft zijn eigen versie van de Scala-interpreter.
  • Spark's Analytic Suite - Spark wordt geleverd met tools voor interactieve query-analyse, grootschalige grafische verwerking en analyse en real-time analyse.
  • Veerkrachtige gedistribueerde datasets (RDD's) - RDD's zijn gedistribueerde objecten die in het geheugen kunnen worden opgeslagen, over een cluster van rekenknooppunten. Dit zijn de primaire gegevensobjecten die in Spark worden gebruikt.
  • Gedistribueerde operators - Naast MapReduce zijn er veel andere operators die u op RDD's kunt gebruiken.

Voordelen van het gebruik van Apache Spark met Hadoop:

hoe te doen toevoeging in java
  • Apache Spark past in de open-sourcecommunity van Hadoop, voortbouwend op het Hadoop Distributed File System (HDFS). Spark is echter niet gebonden aan het tweetraps MapReduce-paradigma en belooft prestaties tot 100 keer sneller dan Hadoop MapReduce voor bepaalde toepassingen.



  • Zeer geschikt voor algoritmen voor machine learning - Spark biedt primitieven voor in-memory clustercomputing waarmee gebruikersprogramma's gegevens in het geheugen van een cluster kunnen laden en deze herhaaldelijk kunnen opvragen.

  • Ren 100 keer sneller - Spark, analysesoftware kan ook taken versnellen die op het Hadoop-gegevensverwerkingsplatform worden uitgevoerd. Apache Spark, ook wel het 'Hadoop Swiss Army-mes' genoemd, biedt de mogelijkheid om taken voor gegevensanalyse te maken die 100 keer sneller kunnen worden uitgevoerd dan die op de standaard Apache Hadoop MapReduce. MapReduce is alom bekritiseerd als een bottleneck in Hadoop-clusters omdat het taken in batchmodus uitvoert, wat betekent dat realtime analyse van gegevens niet mogelijk is.

  • Alternatief voor MapReduce - Spark biedt een alternatief voor MapReduce. Het voert taken uit in korte bursts van microbatches die vijf seconden of minder uit elkaar liggen. Het biedt ook meer stabiliteit dan realtime, stroomgeoriënteerde Hadoop-frameworks zoals Twitter Storm. De software kan worden gebruikt voor een verscheidenheid aan taken, zoals een voortdurende analyse van live gegevens en, dankzij een softwarebibliotheek, meer computationeel diepgaande taken met machine learning en grafische verwerking.

  • Ondersteuning voor meerdere talen - Met Spark kunnen ontwikkelaars taken voor gegevensanalyse schrijven in Java, Scala of Python, met behulp van een set van meer dan 80 high-level operators.

    hoe goto te gebruiken in c ++
  • Bibliotheekondersteuning - De bibliotheken van Spark zijn ontworpen als aanvulling op de soorten verwerkingstaken die agressiever worden onderzocht met de nieuwste commercieel ondersteunde implementaties van Hadoop. MLlib implementeert een hele reeks veelvoorkomende algoritmen voor machine learning, zoals naïeve Bayesiaanse classificatie of clustering. Spark Streaming maakt snelle verwerking van gegevens uit meerdere bronnen mogelijk en GraphX ​​maakt berekeningen op grafiekgegevens mogelijk.

  • Stabiele API - Met versie 1.0 biedt Apache Spark een stabiele API (Application Programming Interface), die ontwikkelaars kunnen gebruiken om met Spark te communiceren via hun eigen applicaties. Dit helpt om Storm gemakkelijker te gebruiken in op Hadoop gebaseerde implementatie.

  • SPARK SQL-component - Spark SQL-component voor toegang tot gestructureerde gegevens, waarmee de gegevens naast ongestructureerde gegevens kunnen worden ondervraagd bij analysewerkzaamheden. Met Spark SQL, dat momenteel alleen in alfa is, kunnen SQL-achtige query's worden uitgevoerd op gegevens die zijn opgeslagen in Apache Hive. Het extraheren van gegevens uit Hadoop via SQL-query's is nog een andere variant van de real-time queryfunctionaliteit die rond Hadoop opduikt.

  • Apache Spark-compatibiliteit met Hadoop [HDFS, HBASE en YARN] - Apache Spark is volledig compatibel met Hadoop's Distributed File System (HDFS), evenals met andere Hadoop-componenten zoals YARN (Yet Another Resource Negotiator) en de HBase gedistribueerde database.

Industrie-adoptanten:

IT-bedrijven zoals Cloudera, Pivotal, IBM, Intel en MapR hebben Spark allemaal in hun Hadoop-stapels gevouwen. Databricks, een bedrijf opgericht door enkele van de ontwikkelaars van Spark, biedt commerciële ondersteuning voor de software. Onder meer Yahoo en NASA gebruiken de software voor dagelijkse gegevensoperaties.

Conclusie:

Wat Spark te bieden heeft, zal ongetwijfeld een grote aantrekkingskracht hebben op zowel gebruikers als commerciële leveranciers van Hadoop. Gebruikers die Hadoop willen implementeren en die al veel van hun analysesystemen rond Hadoop hebben gebouwd, voelen zich aangetrokken tot het idee om Hadoop te kunnen gebruiken als een real-time verwerkingssysteem.

Spark 1.0 biedt hen een andere verscheidenheid aan functionaliteit om eigen items te ondersteunen of te bouwen. In feite heeft een van de drie grote Hadoop-leveranciers, Cloudera, al commerciële ondersteuning geboden aan Spark via zijn Cloudera Enterprise-aanbod. Hortonworks biedt Spark ook aan als onderdeel van de Hadoop-distributie. De implementatie van Spark op grote schaal door topbedrijven geeft het succes en het potentieel aan als het gaat om realtime verwerking.

Heeft u een vraag voor ons? Noem ze in het opmerkingengedeelte en we nemen contact met u op.

Gerelateerde berichten:

hoe scannerklasse te gebruiken in java