Drilling Down On Apache Drill, η μηχανή ερωτημάτων νέας εποχής

Αυτό το φροντιστήριο Apache Drill σάς παρέχει όλες τις πληροφορίες που χρειάζεστε για να ξεκινήσετε με τη μηχανή ερωτήσεων Apache Drill, τη χρήση με Hadoop, Big Data & Apache Spark.



Το Apache Drill είναι ο πρώτος SQL Engine χωρίς σχήμα. Το Drill δεν είναι η πρώτη μηχανή ερωτήσεων στον κόσμο, αλλά είναι η πρώτη που επιτυγχάνει την ισορροπία μεταξύ ευελιξίας και ταχύτητας. Το τρυπάνι έχει σχεδιαστεί για να κλιμακώσει αρκετές χιλιάδες κόμβους και να ερωτήσει petabytes δεδομένων με διαδραστικές ταχύτητες που απαιτούν περιβάλλοντα BI / Analytics.



Μπορεί να ενσωματωθεί σε διάφορες πηγές δεδομένων όπως Hive, HBase, MongoDB, σύστημα αρχείων, RDBMS. Επίσης, οι μορφές εισόδου όπως Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence αρχεία και πολλά άλλα μπορούν να χρησιμοποιηθούν στο Drill με ευκολία.

Γιατί Apache Drill;

Το μεγαλύτερο πλεονέκτημα του Apache Drill είναι ότι μπορεί να ανακαλύψει το σχήμα εν κινήσει καθώς αναζητάτε δεδομένα. Επιπλέον, μπορεί να λειτουργήσει με τα εργαλεία BI όπως το Tableau, το Qlikview, το MicroStrategy κ.λπ. για καλύτερη ανάλυση.



Ακολουθεί ένα απόσπασμα από έναν αναλυτή της βιομηχανίας που συνοψίζει την αξία του Apache Drill:

'Το τρυπάνι δεν αφορά μόνο το SQL-on-Hadoop. Πρόκειται για SQL-σε-σχεδόν-σχεδόν-οτιδήποτε, αμέσως και χωρίς τυπικότητα. »

- Andrew Burst, Gigaom Research, Ιανουάριος 2015



Το Drillbit είναι ο δαίμονας του Apache Drill που τρέχει σε κάθε κόμβο του συμπλέγματος. Χρησιμοποιεί το ZooKeeper για όλη την επικοινωνία στο σύμπλεγμα και τη συνδρομή maintaisn. Είναι υπεύθυνη για την αποδοχή αιτημάτων από τον πελάτη, την επεξεργασία των ερωτημάτων και την επιστροφή των αποτελεσμάτων στον πελάτη. Το τρυπάνι που λαμβάνει το αίτημα από τον πελάτη ονομάζεται «εργοδηγός». Δημιουργεί το σχέδιο εκτέλεσης, τα τμήματα εκτέλεσης αποστέλλονται σε άλλα τρυπάνια που εκτελούνται στο σύμπλεγμα.

Drillbits-Apache-Drill

Ένα ακόμη πλεονέκτημα είναι ότι η εγκατάσταση και η εγκατάσταση του τρυπανιού είναι πολύ απλή. Ας μάθουμε πώς να εγκαταστήσουμε το Apache Drill.

Το πρώτο βήμα είναι να κατεβάσετε το πακέτο τρυπανιών.

ποιες είναι οι λειτουργίες στο sql

Εντολή: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Εντολή: tar -xvf apache-drill-1.5.0.tar.gz

Εντολή: είναι

Στη συνέχεια, ορίστε τις μεταβλητές περιβάλλοντος στο αρχείο .bashrc.

Εντολή: sudo gedit .bashrc

εξαγωγή DRILL_HOME = / home / edureka / apache-drill-1.5.0

εξαγωγή PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Αυτή η εντολή θα ενημερώσει τις αλλαγές:

Εντολή: πηγή .bashrc

Τώρα μεταβείτε στον κατάλογο conf drill και επεξεργαστείτε το αρχείο drill-override.conf με το αναγνωριστικό συμπλέγματος και το host & port zookeeper, θα το τρέξουμε σε ένα τοπικό σύμπλεγμα

Εντολή: cd apache-τρυπάνι-1.5.0

Εντολή: sudo gedit conf / drill-override.conf

Από προεπιλογή, το DRILL_MAX_DIRECT_MEMORY θα είναι 8 GB σε drill-env.sh και πρέπει να το διατηρήσουμε σύμφωνα με τη μνήμη που έχουμε.

Εντολή: sudo gedit conf / drill-env.sh

Για να εγκαταστήσετε τρυπάνι μόνο σε έναν κόμβο, μπορείτε να χρησιμοποιήσετε την ενσωματωμένη λειτουργία, όπου θα εκτελείται τοπικά. Θα ξεκινήσει αυτόματα η υπηρεσία drillbit όταν εκτελείτε αυτήν την εντολή.

Εντολή: ./bin/drill-embedded

Μπορείτε να εκτελέσετε ένα απλό ερώτημα για να ελέγξετε την εγκατάσταση.

Εντολή: επιλέξτε * από το sys.options WHERE type = ‘SYSTEM’ και ονομάστε όπως ‘security%’

Για να ελέγξουμε την κονσόλα ιστού του Apache Drill, πρέπει να μεταβούμε στο localhost: 8047 στο πρόγραμμα περιήγησης ιστού.

Μπορείτε επίσης να εκτελέσετε το ερώτημά σας από την καρτέλα 'Ερώτημα'.

Για να εκτελέσετε τρυπάνι σε κατανεμημένη λειτουργία, πρέπει να επεξεργαστείτε το αναγνωριστικό συμπλέγματος και να προσθέσετε πληροφορίες ZooKeeper στο drill-override.conf όπως παρακάτω.

Τότε πρέπει να ξεκινήσουμε την υπηρεσία ZooKeeper σε κάθε κόμβο. Μετά από αυτό πρέπει να ξεκινήσετε την υπηρεσία drillbit σε κάθε κόμβο με αυτήν την εντολή.

Εντολή: ./bin/drillbit.sh έναρξη

Εντολή: jps

Τώρα, χρησιμοποιούμε την παρακάτω εντολή για να ξεκινήσουμε το τρυπάνι.

Τώρα, μπορούμε να εκτελέσουμε τα ερωτήματά μας στο σύμπλεγμα σε κατανεμημένη λειτουργία.

Ποια είναι η διαφορά μεταξύ μιας αφηρημένης κλάσης και μιας διεπαφής;

Αυτή είναι η πρώτη ανάρτηση ιστολογίου σε μια σειρά ιστολογίων Apache Drill δύο μερών. Το δεύτερο blog στη σειρά έρχεται σύντομα.

Έχετε μια ερώτηση για εμάς; Αναφέρετέ τα στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

Σχετικές αναρτήσεις:

Διάτρηση στο τρυπάνι Apache Μέρος 2

Apache Spark εναντίον Hadoop MapReduce