Meer informatie over Apache Drill, de New Age Query Engine



Deze Apache Drill-zelfstudie geeft je alle informatie die je nodig hebt om aan de slag te gaan met de Apache Drill-queryengine, gebruik met Hadoop, Big Data en Apache Spark.

Apache Drill is de eerste schemavrije SQL-engine in de branche. Drill is niet 's werelds eerste query-engine, maar het is de eerste die de juiste balans vindt tussen flexibiliteit en snelheid. Drill is ontworpen om te schalen naar enkele duizenden knooppunten en petabytes aan gegevens op te vragen met interactieve snelheden die BI / Analytics-omgevingen vereisen.





Het kan worden geïntegreerd met verschillende gegevensbronnen zoals Hive, HBase, MongoDB, bestandssysteem, RDBMS. Ook invoerformaten zoals Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence-bestanden en vele andere kunnen met gemak in Drill worden gebruikt.

Waarom Apache Drill?

Het grootste voordeel van Apache Drill is dat het het schema direct kan ontdekken terwijl je gegevens opvraagt. Bovendien kan het werken met uw BI-tools zoals Tableau, Qlikview, MicroStrategy enz. Voor betere analyses.



Hier is een citaat van een brancheanalist die de waarde van Apache Drill samenvat:

'Drill gaat niet alleen over SQL-on-Hadoop. Het gaat over SQL-op-vrijwel-alles, onmiddellijk en zonder formaliteit. '

- Andrew Burst, Gigaom Research, januari 2015



Drillbit is de daemon van Apache Drill die op elk knooppunt in het cluster draait. Het gebruikt ZooKeeper voor alle communicatie in het cluster en voor het onderhouden van het clusterlidmaatschap. Het is verantwoordelijk voor het accepteren van verzoeken van de klant, het verwerken van de vragen en het retourneren van resultaten aan de klant. De boor die het verzoek van de klant ontvangt, wordt ‘voorman’ genoemd. Het genereert het uitvoeringsplan, de uitvoeringsfragmenten worden naar andere drillbits in het cluster gestuurd.

Drillbits-Apache-Drill

Nog een voordeel is dat de installatie en configuratie van een boormachine vrij eenvoudig is. Laten we leren hoe Apache Drill te installeren.

De eerste stap is het downloaden van het boorpakket.

hoe php

Opdracht: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Opdracht: tar -xvf apache-drill-1.5.0.tar.gz

Opdracht: ls

Stel vervolgens de omgevingsvariabelen in .bashrc-bestand in.

Opdracht: sudo gedit .bashrc

exporteer DRILL_HOME = / home / edureka / apache-drill-1.5.0

exporteer PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Met deze opdracht worden de wijzigingen bijgewerkt:

Opdracht: bron .bashrc

Ga nu naar de map drill conf en bewerk het drill-override.conf-bestand met cluster-id en zookeeper-host & -poort, we zullen het op een lokaal cluster uitvoeren.

Opdracht: cd apache-drill-1.5.0

Opdracht: sudo gedit conf / drill-override.conf

Standaard is DRILL_MAX_DIRECT_MEMORY 8 GB in drill-env.sh, en we moeten het bewaren in overeenstemming met het geheugen dat we hebben.

Opdracht: sudo gedit conf / drill-env.sh

Als u analyse in slechts één knooppunt wilt installeren, kunt u de ingesloten modus gebruiken, waar deze lokaal wordt uitgevoerd. Het zal automatisch de drillbit-service starten wanneer u deze opdracht uitvoert.

Opdracht: ./bin/drill-embedded

U kunt een eenvoudige zoekopdracht uitvoeren om de installatie te controleren.

Opdracht: selecteer * uit sys.options WHERE type = ‘SYSTEM’ en noem als ‘security%’

Om de webconsole van Apache Drill te controleren, moeten we naar localhost: 8047 in de webbrowser gaan.

U kunt uw zoekopdracht ook uitvoeren vanaf het tabblad Query.

Om analyse in gedistribueerde modus uit te voeren, moet u de cluster-ID bewerken en ZooKeeper-informatie toevoegen in drill-override.conf, zoals hieronder.

Vervolgens moeten we de ZooKeeper-service op elk knooppunt starten. Daarna moet u de drillbit-service op elk knooppunt starten met dit commando.

Opdracht: ./bin/drillbit.sh start

Opdracht: jps

Nu gebruiken we het onderstaande commando om de boorschaal te starten.

Nu kunnen we onze query's op het cluster uitvoeren in de gedistribueerde modus.

hoe u eclipse op Windows uitvoert

Dit is de eerste blogpost in een tweedelige Apache Drill-blogserie. Binnenkort komt de tweede blog in de serie.

Heeft u een vraag voor ons? Noem ze in het commentaargedeelte en we nemen contact met u op.

Gerelateerde berichten:

Drilling Down On Apache Drill Part 2

Apache Spark versus Hadoop MapReduce