Apache Spark με Hadoop - Γιατί έχει σημασία;

Η εφαρμογή του Apache Spark με Hadoop σε μεγάλη κλίμακα από κορυφαίες εταιρείες δείχνει την επιτυχία και τις δυνατότητές του όταν πρόκειται για επεξεργασία σε πραγματικό χρόνο.



Το Hadoop, το πλαίσιο επεξεργασίας δεδομένων που γίνεται πλατφόρμα για τον εαυτό του, γίνεται ακόμη καλύτερο όταν συνδέονται καλά στοιχεία. Ορισμένες αδυναμίες του Hadoop, όπως το MapReduce συστατικό του Hadoop έχουν τη φήμη ότι είναι αργοί για ανάλυση δεδομένων σε πραγματικό χρόνο.



Εισαγάγετε το Apache Spark, μια μηχανή επεξεργασίας δεδομένων με βάση το Hadoop που έχει σχεδιαστεί τόσο για φορτίο παρτίδας όσο και για ροή εργασίας, τώρα στην έκδοση 1.0 και εξοπλισμένη με χαρακτηριστικά που αποτελούν παράδειγμα των εργασιών που θα προωθήσει το Hadoop. Το Spark τρέχει πάνω από τα υπάρχοντα συστάδες Hadoop για να παρέχει βελτιωμένη και πρόσθετη λειτουργικότητα.

Ας δούμε τα βασικά χαρακτηριστικά του σπινθήρα και πώς λειτουργεί μαζί με το Hadoop και το .



Βασικά πλεονεκτήματα Apache Spark:

img2-R

Εξαιρετικά χαρακτηριστικά του Spark:

  • Ενσωμάτωση Hadoop - Το Spark μπορεί να λειτουργήσει με αρχεία που είναι αποθηκευμένα σε HDFS.
  • Διαδραστικό κέλυφος του Spark - Το Spark είναι γραμμένο στη Scala και έχει τη δική του έκδοση του διερμηνέα Scala.
  • Αναλυτική σουίτα του Spark - Το Spark διαθέτει εργαλεία για διαδραστική ανάλυση ερωτημάτων, επεξεργασία και ανάλυση γραφημάτων μεγάλης κλίμακας και ανάλυση σε πραγματικό χρόνο.
  • Ανθεκτικά κατανεμημένα σύνολα δεδομένων (RDD) - Τα RDD είναι κατανεμημένα αντικείμενα που μπορούν να αποθηκευτούν στην μνήμη σε προσωρινή μνήμη, σε ένα σύμπλεγμα κόμβων υπολογισμού. Είναι τα κύρια αντικείμενα δεδομένων που χρησιμοποιούνται στο Spark.
  • Κατανεμημένοι χειριστές - Εκτός από το MapReduce, υπάρχουν πολλοί άλλοι χειριστές που μπορεί κανείς να χρησιμοποιήσει σε RDD.

Πλεονεκτήματα της χρήσης Apache Spark με Hadoop:

βασικές δομές δεδομένων στην Java
  • Το Apache Spark εντάσσεται στην κοινότητα ανοιχτού κώδικα Hadoop, κτίριο πάνω από το Hadoop Distributed File System (HDFS). Ωστόσο, το Spark δεν συνδέεται με το παράδειγμα MapReduce δύο σταδίων και υπόσχεται απόδοση έως και 100 φορές ταχύτερη από το Hadoop MapReduce για ορισμένες εφαρμογές.



  • Κατάλληλο για αλγόριθμους μηχανικής μάθησης - Το Spark παρέχει πρωτόκολλα για υπολογισμούς συμπλέγματος στη μνήμη που επιτρέπει στα προγράμματα χρηστών να φορτώνουν δεδομένα στη μνήμη ενός συμπλέγματος και να τα υποβάλλουν ερωτήματα επανειλημμένα.

  • Εκτελέστε 100 φορές πιο γρήγορα - Το λογισμικό ανάλυσης Spark μπορεί επίσης να επιταχύνει τις εργασίες που εκτελούνται στην πλατφόρμα επεξεργασίας δεδομένων Hadoop. Το Apache Spark που ονομάστηκε «μαχαίρι Ελβετικού Στρατού Hadoop» παρέχει τη δυνατότητα δημιουργίας εργασιών ανάλυσης δεδομένων που μπορούν να εκτελεστούν 100 φορές ταχύτερα από εκείνες που εκτελούνται στο τυπικό Apache Hadoop MapReduce. Το MapReduce έχει επικριθεί ευρέως ως εμπόδιο στις συστάδες Hadoop, επειδή εκτελεί εργασίες σε λειτουργία παρτίδας, πράγμα που σημαίνει ότι δεν είναι δυνατή η ανάλυση δεδομένων σε πραγματικό χρόνο.

  • Εναλλακτική λύση στο MapReduce - Το Spark παρέχει μια εναλλακτική λύση στο MapReduce. Εκτελεί εργασίες σε σύντομες εκρήξεις μικρο-παρτίδων που απέχουν πέντε δευτερόλεπτα ή λιγότερο. Παρέχει επίσης περισσότερη σταθερότητα από τα σε πραγματικό χρόνο, προσανατολισμένα σε ροή πλαίσια Hadoop όπως το Twitter Storm. Το λογισμικό μπορεί να χρησιμοποιηθεί για μια ποικιλία εργασιών, όπως μια συνεχής ανάλυση ζωντανών δεδομένων και χάρη σε μια βιβλιοθήκη λογισμικού, πιο υπολογιστικές σε βάθος εργασίες που περιλαμβάνουν μηχανική εκμάθηση και επεξεργασία γραφημάτων.

  • Υποστήριξη για πολλές γλώσσες - Χρησιμοποιώντας το Spark, οι προγραμματιστές μπορούν να γράψουν εργασίες ανάλυσης δεδομένων σε Java, Scala ή Python, χρησιμοποιώντας ένα σύνολο περισσότερων από 80 χειριστών υψηλού επιπέδου.

  • Υποστήριξη βιβλιοθήκης - Οι βιβλιοθήκες του Spark έχουν σχεδιαστεί για να συμπληρώνουν τους τύπους εργασιών επεξεργασίας που διερευνώνται πιο επιθετικά με τις τελευταίες εμπορικά υποστηριζόμενες εφαρμογές του Hadoop. Το MLlib εφαρμόζει πολλούς κοινούς αλγόριθμους μηχανικής εκμάθησης, όπως η αφελής ταξινόμηση Bayesian ή η ομαδοποίηση του Spark Streaming επιτρέπει την επεξεργασία υψηλής ταχύτητας δεδομένων που λαμβάνονται από πολλές πηγές και το GraphX ​​επιτρέπει υπολογισμούς σε δεδομένα γραφημάτων.

  • Σταθερό API - Με την έκδοση 1.0, το Apache Spark προσφέρει ένα σταθερό API (διεπαφή προγραμματισμού εφαρμογών), το οποίο οι προγραμματιστές μπορούν να χρησιμοποιήσουν για να αλληλεπιδράσουν με το Spark μέσω των δικών τους εφαρμογών. Αυτό βοηθά στη χρήση του Storm πιο εύκολα στην ανάπτυξη με βάση το Hadoop.

  • Στοιχείο SPARK SQL - Το στοιχείο Spark SQL για πρόσβαση σε δομημένα δεδομένα, επιτρέπει την ανάκριση των δεδομένων μαζί με μη δομημένα δεδομένα σε εργασίες ανάλυσης. Το Spark SQL, το οποίο είναι μόνο σε alpha αυτή τη στιγμή, επιτρέπει την εκτέλεση ερωτημάτων τύπου SQL έναντι δεδομένων που είναι αποθηκευμένα στο Apache Hive. Η εξαγωγή δεδομένων από Hadoop μέσω ερωτημάτων SQL είναι μια ακόμη παραλλαγή της λειτουργικότητας ερωτημάτων σε πραγματικό χρόνο που ξεκινά γύρω από το Hadoop.

  • Συμβατότητα Apache Spark με Hadoop [HDFS, HBASE και YARN] - Το Apache Spark είναι πλήρως συμβατό με το Κατανεμημένο Σύστημα Αρχείων της Hadoop (HDFS), καθώς και με άλλα στοιχεία Hadoop όπως το YARN (Yet Another Resource Negotiator) και την κατανεμημένη βάση δεδομένων HBase.

    ποια είναι η μέθοδος tostring στο java

Υιοθετούν τη βιομηχανία:

Οι εταιρείες πληροφορικής, όπως η Cloudera, η Pivotal, η IBM, η Intel και η MapR, έχουν διπλώσει το Spark στις στοίβες Hadoop. Η Databricks, μια εταιρεία που ιδρύθηκε από ορισμένους από τους προγραμματιστές του Spark, προσφέρει εμπορική υποστήριξη για το λογισμικό. Τόσο το Yahoo όσο και η NASA, μεταξύ άλλων, χρησιμοποιούν το λογισμικό για καθημερινές λειτουργίες δεδομένων.

Συμπέρασμα:

Αυτό που έχει να προσφέρει το Spark σίγουρα θα είναι μια μεγάλη κλήρωση τόσο για τους χρήστες όσο και για τους εμπορικούς προμηθευτές του Hadoop. Οι χρήστες που θέλουν να εφαρμόσουν το Hadoop και που έχουν ήδη δημιουργήσει πολλά από τα συστήματα ανάλυσής τους γύρω από το Hadoop προσελκύονται από την ιδέα να μπορούν να χρησιμοποιήσουν το Hadoop ως σύστημα επεξεργασίας σε πραγματικό χρόνο.

πώς να αυξήσετε κάτι σε δύναμη στην Java

Το Spark 1.0 τους παρέχει μια άλλη ποικιλία λειτουργιών για την υποστήριξη ή την κατασκευή ιδιόκτητων αντικειμένων. Στην πραγματικότητα, ένας από τους τρεις μεγάλους πωλητές Hadoop, η Cloudera, παρέχει ήδη εμπορική υποστήριξη για το Spark μέσω της προσφοράς της Cloudera Enterprise. Η Hortonworks προσφέρει επίσης το Spark ως συστατικό στοιχείο της διανομής Hadoop. Η υλοποίηση του Spark σε μεγάλη κλίμακα από κορυφαίες εταιρείες δείχνει την επιτυχία και τις δυνατότητές του όσον αφορά την επεξεργασία σε πραγματικό χρόνο.

Έχετε μια ερώτηση για εμάς; Αναφέρετέ τα στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

Σχετικές αναρτήσεις: