Εισαγωγή στην Apache Hive

Το Apache Hive είναι ένα πακέτο Data Warehousing που δημιουργήθηκε πάνω από το Hadoop και χρησιμοποιείται για την ανάλυση δεδομένων. Η ομάδα απευθύνεται σε χρήστες που είναι άνετοι με το SQL.



Το Apache Hive είναι ένα πακέτο Data Warehousing που δημιουργήθηκε πάνω από το Hadoop και χρησιμοποιείται για την ανάλυση δεδομένων. Η ομάδα απευθύνεται σε χρήστες που είναι άνετοι με το SQL. Είναι παρόμοιο με το SQL και ονομάζεται HiveQL, χρησιμοποιείται για τη διαχείριση και την αναζήτηση δομημένων δεδομένων. Το Apache Hive χρησιμοποιείται για την αφαίρεση της πολυπλοκότητας του Hadoop. Αυτή η γλώσσα επιτρέπει επίσης στους παραδοσιακούς προγραμματιστές χαρτών / μείωσης να συνδέουν τους προσαρμοσμένους χαρτογράφους και τους μειωτές τους. Το δημοφιλές χαρακτηριστικό του Hive είναι ότι δεν χρειάζεται να μάθετε Java.



Το Hive, ένα πλαίσιο αποθήκευσης ημερομηνίας κλίμακας χάρτη-byte ανοιχτού κώδικα βασισμένο στο Hadoop, αναπτύχθηκε από την ομάδα δεδομένων υποδομής στο Facebook. Hive είναι επίσης μία από τις τεχνολογίες που χρησιμοποιούνται για την αντιμετώπιση των απαιτήσεων στο Facebook. Το Hive είναι πολύ δημοφιλές σε όλους τους χρήστες εσωτερικά στο Facebook και χρησιμοποιείται για την εκτέλεση χιλιάδων εργασιών στο σύμπλεγμα με εκατοντάδες χρήστες, για μια μεγάλη ποικιλία εφαρμογών. Το σύμπλεγμα Hive-Hadoop στο Facebook αποθηκεύει περισσότερα από 2PB ακατέργαστων δεδομένων και φορτώνει τακτικά 15 TB δεδομένων σε καθημερινή βάση.

αναδρομική σειρά fibonacci στην Ιάβα

Ας δούμε μερικά από τα χαρακτηριστικά του που το καθιστούν δημοφιλές και φιλικό προς τον χρήστη:



  • Επιτρέπει στους προγραμματιστές να συνδέουν προσαρμοσμένους Mappers και Reducers.
  • Διαθέτει υποδομή Data Warehouse.
  • Παρέχει εργαλεία για την εύκολη ETL δεδομένα.
  • Ορίζει τη γλώσσα ερωτήματος τύπου SQL που ονομάζεται QL.

Θήκη χρήσης Apache Hive - Facebook:

Θήκη χρήσης κυψέλης - Facebook

Πριν από την εφαρμογή του Hive, το Facebook αντιμετώπισε πολλές προκλήσεις καθώς το μέγεθος των δεδομένων που δημιουργούνται αυξήθηκε ή μάλλον εξερράγη, καθιστώντας πολύ δύσκολο τον χειρισμό τους. Το παραδοσιακό RDBMS δεν μπόρεσε να αντιμετωπίσει την πίεση και ως αποτέλεσμα το Facebook αναζητούσε καλύτερες επιλογές. Για να λύσει αυτό το επικείμενο πρόβλημα, το Facebook αρχικά προσπάθησε να χρησιμοποιήσει το Hadoop MapReduce, αλλά με δυσκολία στον προγραμματισμό και την υποχρεωτική γνώση στο SQL, το έκανε μια μη πρακτική λύση. Η κυψέλη τους επέτρεψε να ξεπεράσουν τις προκλήσεις που αντιμετώπιζαν.

Με την κυψέλη, είναι πλέον σε θέση να εκτελούν τα εξής:



  • Οι πίνακες μπορούν να χωριστούν και να χωριστούν σε κουβά
  • Ευελιξία και εξέλιξη του σχήματος
  • Τα προγράμματα οδήγησης JDBC / ODBC είναι διαθέσιμα
  • Οι πίνακες κυψελών μπορούν να οριστούν απευθείας στο HDFS
  • Extensible - Τύποι, Μορφές, Λειτουργίες και σενάρια

Περίπτωση χρήσης κυψέλης στην υγειονομική περίθαλψη:

Πού να χρησιμοποιήσετε την κυψέλη;

Το Apache Hive μπορεί να χρησιμοποιηθεί στα ακόλουθα μέρη:

  • Εξόρυξη δεδομένων
  • Επεξεργασία καταγραφής
  • Ευρετήριο εγγράφων
  • Πελάτης που αντιμετωπίζει την επιχειρηματική ευφυΐα
  • Προγνωστική μοντελοποίηση
  • Δοκιμή υπόθεσης

Αρχιτεκτονική κυψελών:

Η κυψέλη αποτελείται από τα ακόλουθα κύρια στοιχεία:

  • Metastore - Για να αποθηκεύσετε τα μεταδεδομένα.
  • JDBC / ODBC - Query Compiler και Execution Engine για τη μετατροπή των ερωτημάτων SQL σε μια ακολουθία του MapReduce.
  • SerDe και ObjectInspectors - Για μορφές και τύπους δεδομένων.
  • UDF / UDAF - Για λειτουργίες καθορισμένες από το χρήστη.
  • Πελάτες - Παρόμοια με τη γραμμή εντολών MySQL και μια διεπαφή χρήστη Ιστού.

Συστατικά της κυψέλης:

Metastore:

πρόγραμμα συνδεδεμένων λιστών στο γ

Το Metastore αποθηκεύει τις πληροφορίες σχετικά με τους πίνακες, τα χωρίσματα, τις στήλες μέσα στους πίνακες. Υπάρχουν 3 τρόποι αποθήκευσης στο Metastore: Embedded Metastore, Local Metastore και Remote Metastore. Κυρίως, το Remote Metastore θα χρησιμοποιηθεί στον τρόπο παραγωγής.

Περιορισμοί της κυψέλης:

Η κυψέλη έχει τους ακόλουθους περιορισμούς και δεν μπορεί να χρησιμοποιηθεί υπό τέτοιες συνθήκες:

  • Δεν έχει σχεδιαστεί για διαδικτυακή επεξεργασία συναλλαγών.
  • Παρέχει αποδεκτή καθυστέρηση για διαδραστική περιήγηση δεδομένων.
  • Δεν προσφέρει ερωτήματα σε πραγματικό χρόνο και ενημερώσεις σε επίπεδο σειράς.
  • Ο λανθάνων χρόνος για ερωτήματα κυψέλης είναι γενικά πολύ υψηλός.

Έχετε μια ερώτηση για εμάς; Αναφέρετέ τα στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

Σχετικές αναρτήσεις:

xml μετασχηματισμός στην πληροφορική με παράδειγμα

Εντολές κυψέλης