Apache Flink: het nieuwe generatie big data-analysekader voor stream- en batchgegevensverwerking

Leer alles over Apache Flink en het opzetten van een Flink-cluster in deze blog. Flink ondersteunt realtime en batchverwerking en is een onmisbare Big Data-technologie voor Big Data Analytics.

Apache Flink is een open source platform voor gedistribueerde stream- en batchgegevensverwerking. Het kan draaien op Windows, Mac OS en Linux OS. Laten we in deze blogpost bespreken hoe we Flink-cluster lokaal kunnen opzetten. Het lijkt in veel opzichten op Spark - het heeft API's voor Graph en Machine Learning-verwerking zoals Apache Spark - maar Apache Flink en Apache Spark zijn niet precies hetzelfde.



Om een ​​Flink-cluster in te stellen, moet java 7.x of hoger op uw systeem zijn geïnstalleerd. Omdat ik Hadoop-2.2.0 aan mijn kant heb geïnstalleerd op CentOS (Linux), heb ik het Flink-pakket gedownload dat compatibel is met Hadoop 2.x. Voer de onderstaande opdracht uit om het Flink-pakket te downloaden.

Opdracht: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

Untar het bestand om de flinke directory te krijgen.

Opdracht: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Opdracht: ls

Voeg Flink-omgevingsvariabelen toe in .bashrc-bestand.

Opdracht: sudo gedit .bashrc

U moet de onderstaande opdracht uitvoeren zodat de wijzigingen in het .bashrc-bestand worden geactiveerd

Opdracht: bron .bashrc

Ga nu naar flink directory en start het cluster lokaal.

Opdracht: cd flink-1.0.0

Opdracht: bin / start-local.sh

Nadat u het cluster heeft gestart, kunt u een nieuwe daemon JobManager zien draaien.

Opdracht: jps

Open de browser en ga naar http: // localhost: 8081 om de webinterface van Apache Flink te zien.

Laten we een eenvoudig voorbeeld van het aantal woorden uitvoeren met Apache Flink.

eindelijk en finaliseer in java

Voordat u het voorbeeld uitvoert, installeert u netcat op uw systeem (sudo yum install nc).

Voer nu in een nieuwe terminal de onderstaande opdracht uit.

Opdracht: nc -lk 9000

hoe palindroom in java te controleren

Voer de onderstaande opdracht uit in de flinke terminal. Deze opdracht voert een programma uit dat de gestreamde gegevens als invoer neemt en een wordcount-bewerking uitvoert op die gestreamde gegevens.

Opdracht: bin / flink run voorbeelden / streaming / SocketTextStreamWordCount.jar –hostnaam localhost –poort 9000

In de webinterface kunt u een actieve taak zien.

Voer onderstaande opdracht uit in een nieuwe terminal, hierdoor worden de gestreamde en verwerkte gegevens afgedrukt.

Opdracht: tail -f log / flink - * - jobmanager - *. out

Ga nu naar de terminal waar je netcat bent begonnen en typ iets.

Op het moment dat u op de enter-knop op uw trefwoord drukt nadat u wat gegevens op de netcat-terminal hebt getypt, wordt de wordcount-bewerking op die gegevens toegepast en wordt de uitvoer hier binnen milliseconden afgedrukt (flink's jobmanager-log)!

Binnen een zeer korte tijd worden gegevens gestreamd, verwerkt en afgedrukt.

Er is veel meer te leren over Apache Flink. We zullen andere Flink-onderwerpen bespreken in onze aankomende blog.

Heeft u een vraag voor ons? Noem ze in het commentaargedeelte en we nemen contact met u op.

Gerelateerde berichten:

Apache Falcon: nieuw gegevensbeheerplatform voor het Hadoop-ecosysteem