MongoDB με Hadoop και σχετικές τεχνολογίες Big Data

Το MongoDB με Hadoop και σχετικές Big Data Technologies είναι ένας ισχυρός συνδυασμός για την παροχή λύσης για μια περίπλοκη κατάσταση στα analytics.

Οι σχεσιακές βάσεις δεδομένων για μεγάλο χρονικό διάστημα ήταν αρκετές για τη διαχείριση μικρών ή μεσαίων συνόλων δεδομένων. Αλλά ο κολοσσιαίος ρυθμός με τον οποίο τα δεδομένα αυξάνονται καθιστά ανέφικτη την παραδοσιακή προσέγγιση στην αποθήκευση και την ανάκτηση δεδομένων. Αυτό το πρόβλημα επιλύεται με νεότερες τεχνολογίες που μπορούν να διαχειριστούν τα Big Data. Τα Hadoop, Hive και Hbase είναι οι δημοφιλείς πλατφόρμες για τη λειτουργία αυτού του είδους μεγάλων συνόλων δεδομένων. Οι βάσεις δεδομένων NoSQL ή όχι μόνο SQL όπως το MongoDB παρέχουν έναν μηχανισμό για την αποθήκευση και ανάκτηση δεδομένων σε χαμένο μοντέλο συνέπειας με πλεονεκτήματα όπως:



  • Οριζόντια κλιμάκωση
  • Υψηλότερη διαθεσιμότητα
  • Ταχύτερη πρόσβαση

Η ομάδα μηχανικής MongoDB ενημέρωσε πρόσφατα το MongoDB Connector για Hadoop για καλύτερη ενσωμάτωση. Αυτό διευκολύνει τους χρήστες Hadoop να:



  • Ενσωματώστε δεδομένα σε πραγματικό χρόνο από το MongoDB με το Hadoop για βαθιά, offline αναλυτικά στοιχεία.
  • Το Connector εκθέτει την αναλυτική ισχύ του MapReduce του Hadoop σε ζωντανά δεδομένα εφαρμογών από το MongoDB, οδηγώντας την αξία από τα μεγάλα δεδομένα πιο γρήγορα και πιο αποτελεσματικά.
  • Το Connector παρουσιάζει το MongoDB ως σύστημα αρχείων συμβατό με Hadoop, επιτρέποντας σε μια εργασία MapReduce να διαβάζει απευθείας από το MongoDB χωρίς πρώτα να την αντιγράψει στο HDFS (Hadoop file System), αφαιρώντας έτσι την ανάγκη μετακίνησης Terabytes δεδομένων στο δίκτυο.
  • Οι εργασίες MapReduce μπορούν να μεταβιβάζουν ερωτήματα ως φίλτρα, αποφεύγοντας έτσι την ανάγκη σάρωσης ολόκληρων συλλογών και μπορούν επίσης να επωφεληθούν από τις πλούσιες δυνατότητες ευρετηρίασης του MongoDB, συμπεριλαμβανομένων γεωγραφικών, αναζήτηση κειμένου, πίνακα, σύνθετων και αραιοτήτων.
  • Διαβάζοντας από το MongoDB, τα αποτελέσματα των εργασιών Hadoop μπορούν επίσης να επιστραφούν στο MongoDB, για την υποστήριξη επιχειρησιακών διαδικασιών σε πραγματικό χρόνο και ad-hoc query.

Περιπτώσεις χρήσης Hadoop και MongoDB:

Ας δούμε μια περιγραφή υψηλού επιπέδου για το πώς τα MongoDB και Hadoop μπορούν να ταιριάξουν μαζί σε μια τυπική στοίβα Big Data. Κυρίως έχουμε:

  • Το MongoDB χρησιμοποιείται ως το «Λειτουργικό» κατάστημα δεδομένων σε πραγματικό χρόνο
  • Hadoop για επεξεργασία και ανάλυση δεδομένων παρτίδας χωρίς σύνδεση

Διαβάστε παρακάτω για να μάθετε γιατί και πώς χρησιμοποιήθηκε το MongoDB από εταιρείες και οργανισμούς όπως οι Aadhar, Shutterfly, Metlife και eBay .



Εφαρμογή του MongoDB με Hadoop στο Batch Aggregation:

Στα περισσότερα σενάρια, η ενσωματωμένη λειτουργικότητα συγκέντρωσης που παρέχεται από το MongoDB είναι αρκετή για την ανάλυση δεδομένων. Ωστόσο, σε ορισμένες περιπτώσεις, ενδέχεται να απαιτείται πολύ πιο περίπλοκη συγκέντρωση δεδομένων. Εδώ είναι που το Hadoop μπορεί να παρέχει ένα ισχυρό πλαίσιο για σύνθετα αναλυτικά στοιχεία.

είναι μεταπτυχιακό και μεταπτυχιακό

Σε αυτό το σενάριο:

  • Τα δεδομένα αντλούνται από το MongoDB και υποβάλλονται σε επεξεργασία εντός του Hadoop μέσω μίας ή περισσότερων εργασιών του MapReduce. Τα δεδομένα μπορούν επίσης να προέρχονται από άλλα μέρη σε αυτές τις εργασίες του MapReduce για την ανάπτυξη μιας λύσης πηγής πολλαπλών δεδομένων.
  • Η έξοδος από αυτές τις εργασίες του MapReduce μπορεί στη συνέχεια να επιστραφεί στο MongoDB για αναζήτηση σε μεταγενέστερο στάδιο και για οποιαδήποτε ανάλυση σε ad-hoc βάση.
  • Οι εφαρμογές που έχουν δημιουργηθεί πάνω από το MongoDB μπορούν επομένως να χρησιμοποιήσουν τις πληροφορίες από batch analytics για να παρουσιάσουν στον τελικό πελάτη ή να ενεργοποιήσουν άλλες λειτουργίες downstream

Συγκέντρωση Hadoop Mongo DB



Εφαρμογή στην αποθήκευση δεδομένων:

Σε μια τυπική εγκατάσταση παραγωγής, τα δεδομένα της εφαρμογής ενδέχεται να βρίσκονται σε πολλά καταστήματα δεδομένων, το καθένα με τη δική του γλώσσα και τη λειτουργικότητα του ερωτήματος. Για να μειωθεί η πολυπλοκότητα σε αυτά τα σενάρια, το Hadoop μπορεί να χρησιμοποιηθεί ως αποθήκη δεδομένων και να λειτουργήσει ως κεντρικό αποθετήριο δεδομένων από διάφορες πηγές.

Σε αυτό το είδος σεναρίου:

  • Οι περιοδικές εργασίες MapReduce φορτώνουν δεδομένα από το MongoDB στο Hadoop.
  • Μόλις τα δεδομένα από το MongoDB και άλλες πηγές είναι διαθέσιμα στο Hadoop, το μεγαλύτερο σύνολο δεδομένων μπορεί να προβληθεί.
  • Οι αναλυτές δεδομένων έχουν πλέον την επιλογή να χρησιμοποιούν είτε το MapReduce είτε το Pig για τη δημιουργία θέσεων εργασίας που αναζητούν τα μεγαλύτερα σύνολα δεδομένων που ενσωματώνουν δεδομένα από το MongoDB.

Η ομάδα που εργάζεται πίσω από το MongoDB έχει διασφαλίσει ότι με την πλούσια ενσωμάτωσή της με τεχνολογίες Big Data όπως το Hadoop, είναι σε θέση να ενσωματωθεί καλά στο Big Data Stack και να βοηθήσει στην επίλυση ορισμένων σύνθετων αρχιτεκτονικών ζητημάτων όσον αφορά την αποθήκευση, την ανάκτηση, την επεξεργασία, τη συγκέντρωση και την αποθήκευση δεδομένων. . Μείνετε συντονισμένοι για την επερχόμενη θέση μας σχετικά με τις προοπτικές σταδιοδρομίας για όσους υιοθετούν το Hadoop με το MongoDB. Εάν εργάζεστε ήδη με το Hadoop ή απλώς μαζεύετε το MongoDB, ρίξτε μια ματιά στα μαθήματα που προσφέρουμε για το MongoDB