Πώς να δημιουργήσετε το Hadoop Cluster με το Amazon EMR;

Σε αυτό το άρθρο θα διερευνήσουμε την υπηρεσία AWS EMR και στη διαδικασία θα μάθουμε πώς να δημιουργήσουμε το Hadoop Cluster With Amazon EMR;

Σε αυτό το άρθρο σχετικά με τον τρόπο δημιουργίας Σύμπλεγμα Με το Amazon EMR θα δούμε πώς να εκτελείτε εύκολα και να κλιμακώνετε εφαρμογές Hadoop και Big Data. Οι ακόλουθοι δείκτες θα καλυφθούν σε αυτό το άρθρο,



Προχωρώντας με αυτό Πώς να δημιουργήσετε το Hadoop Cluster With Amazon EMR;



Πώς να δημιουργήσετε Hadoop Cluster με το Amazon EMR;

Όταν αναζητούμε κάτι στο Google ή στο Yahoo, λαμβάνουμε την απάντηση σε ένα κλάσμα του δευτερολέπτου. Πώς είναι δυνατόν το Google, το Yahoo και άλλες μηχανές αναζήτησης να επιστρέψουν τα αποτελέσματα τόσο γρήγορα από τον συνεχώς αναπτυσσόμενο ιστό; Οι μηχανές αναζήτησης ανιχνεύουν μέσω του Διαδικτύου, κατεβάζουν τις ιστοσελίδες και δημιουργούν ένα ευρετήριο όπως φαίνεται παρακάτω. Για οποιοδήποτε ερώτημα από εμάς, χρησιμοποιούν το ευρετήριο για να καταλάβουν ποιες είναι όλες οι ιστοσελίδες που περιέχουν το κείμενο που αναζητούσαμε. Κοιτάζοντας τον παρακάτω δείκτη στη δεξιά πλευρά, μπορούμε να γνωρίζουμε ξεκάθαρα ότι ο Hadoop υπάρχει στην ιστοσελίδα 1, 2 και 3.

Image - Πώς να δημιουργήσετε Hadoop Cluster με το Amazon EMR - EdurekaΜετά το Αλγόριθμος PageRanking χρησιμοποιείται το οποίο βασίζεται στον τρόπο σύνδεσης των σελίδων για να καταλάβει ποια σελίδα θα εμφανίζεται στην κορυφή και ποια στο κάτω μέρος. Στο παρακάτω σενάριο το W1 είναι το 'πιο δημοφιλές' επειδή όλοι συνδέονται με αυτό και το W4 είναι το 'λιγότερο δημοφιλές' καθώς κανείς δεν συνδέεται με αυτό. Έτσι, το W1 εμφανίζεται στην κορυφή και το W4 στο κάτω μέρος στα αποτελέσματα αναζήτησης.



Με την έκρηξη των ιστοσελίδων αυτές οι μηχανές αναζήτησης βρίσκουν προκλήσεις για να δημιουργήσουν ευρετήριο και να κάνουν τους υπολογισμούς PageRanking. Εδώ έγινε η γέννηση του Hadoop στο Yahoo και αργότερα έγινε FOSS (Ελεύθερο λογισμικό ανοιχτού κώδικα) υπό την ASF (Apache Software Foundation). Κάποτε υπό την ASF, πολλές εταιρείες άρχισαν να ενδιαφέρονται για το Hadoop και άρχισαν να συμβάλλουν στη βελτίωσή του. Ο Hadoop ήταν αυτός που ξεκίνησε την επανάσταση των Big Data, αλλά πολλά άλλα λογισμικά όπως Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume άρχισαν να εξελίσσονται για να αντιμετωπίσουν τους περιορισμούς και τα κενά στο Hadoop.

Οι μηχανές αναζήτησης Ιστού ήταν οι πρώτες που χρησιμοποίησαν το Hadoop, αλλά αργότερα άρχισαν να εξελίσσονται πολλές περιπτώσεις χρήσης καθώς δημιουργούνται όλο και περισσότερα δεδομένα. Ας πάρουμε το παράδειγμα μιας εφαρμογής ηλεκτρονικού εμπορίου που χρησιμοποιείται για τη σύσταση βιβλίων στους χρήστες. Σύμφωνα με το παρακάτω διάγραμμα, ο χρήστης1 αγόρασε το βιβλίο1, το βιβλίο2 και το βιβλίο3, ο χρήστης2 αγόρασε μερικά βιβλία και ούτω καθεξής. Κοιτώντας προσεκτικά, μπορούμε να παρατηρήσουμε ότι ο χρήστης1 και ο χρήστης2 έχουν παρόμοια γεύση όπως έχουν αγοράσει το βιβλίο1 και το βιβλίο2. Έτσι, το book3 μπορεί να προτείνεται στον χρήστη2 και το book4 μπορεί να προτείνεται στον χρήστη1. Αυτό ονομάζεται Συνεργατικό Φιλτράρισμα, ένας τύπος αλγορίθμου Μηχανικής Μάθησης. Μπορούμε να αναστρέψουμε το παρακάτω διάγραμμα και να πάρουμε παρόμοια βιβλία.

Στην παραπάνω περίπτωση έχουμε δημιουργήσει ευρετήριο, PageRank και προτείνουμε στον χρήστη, το μέγεθος των δεδομένων ήταν μικρό και έτσι μπορέσαμε να οπτικοποιήσουμε τα δεδομένα και να συμπεράνουμε κάποια αποτελέσματα από αυτά. Καθώς το μέγεθος των δεδομένων μεγαλώνει μέρα με τη μέρα και εκτός ελέγχου, εδώ είναι που εμφανίζονται τα εργαλεία Big Data όπως το Hadoop.



Το Hadoop λύνει πολλά προβλήματα, αλλά η εγκατάσταση του Hadoop και άλλου λογισμικού Big Data δεν ήταν ποτέ εύκολη υπόθεση. Υπάρχουν πολλές παράμετροι διαμόρφωσης που πρέπει να τροποποιήσετε, όπως ζητήματα ενσωμάτωσης, εγκατάστασης και διαμόρφωσης για να εργαστείτε. Εδώ είναι εταιρείες όπως η Cloudera, και τα Databricks βοηθούν. Διευκολύνουν την εγκατάσταση του λογισμικού Big Data και παρέχουν εμπορική υποστήριξη, για παράδειγμα ας πούμε ότι κάτι συμβαίνει στην παραγωγή. Το Amazon EMR (Elastic MapReduce) παίρνει την ευκολία χρήσης του Hadoop κ.λπ. πολύ πιο εύκολο. Το όνομα Elastic MapReduce είναι λίγο παραπλανητικό, καθώς το EMR υποστηρίζει επίσης άλλα κατανεμημένα υπολογιστικά μοντέλα όπως το Resilient Distributed Datasets και όχι μόνο το MapReduce.

Σε αυτό το σεμινάριο, θα διερευνήσουμε πώς να ρυθμίσουμε ένα σύμπλεγμα EMR στο AWS Cloud και στο επερχόμενο σεμινάριο, θα διερευνήσουμε τον τρόπο εκτέλεσης των Spark, Hive και άλλων προγραμμάτων.

Προχωρώντας με αυτό Πώς να δημιουργήσετε το Hadoop Cluster With Amazon EMR;

τι είναι ιδανικό στην Ιάβα

Επίδειξη: Δημιουργία συμπλέγματος EMR στο AWS

Βήμα 1: Μεταβείτε στην Κονσόλα διαχείρισης EMR και κάντε κλικ στο 'Δημιουργία συμπλέγματος'. Στην κονσόλα, τα μεταδεδομένα για το τερματίστηκε σύμπλεγμα αποθηκεύεται επίσης για δύο μήνες δωρεάν. Αυτό επιτρέπει την κλωνοποίηση και τη δημιουργία του τερματικού συμπλέγματος.

Βήμα 2 : Από την οθόνη γρήγορων επιλογών, κάντε κλικ στο 'Μετάβαση σε σύνθετες επιλογές' για να καθορίσετε πολύ περισσότερες λεπτομέρειες σχετικά με το σύμπλεγμα.

Βήμα 3: Στην καρτέλα Advanced Options, μπορούμε να επιλέξουμε διαφορετικό λογισμικό για εγκατάσταση στο σύμπλεγμα EMR. Για διασύνδεση SQL, μπορεί να επιλεγεί Hive. Για μια διεπαφή γλώσσας ροής δεδομένων, μπορεί να επιλεγεί ο χοίρος. Για τον κατανεμημένο συντονισμό εφαρμογών μπορεί να επιλεγεί το ZooKeeper και ούτω καθεξής. Αυτή η καρτέλα μας επιτρέπει επίσης να προσθέσουμε βήματα, κάτι που είναι προαιρετικό έργο. Τα βήματα είναι εργασίες επεξεργασίας Big Data χρησιμοποιώντας MapReduce, Pig, Hive κ.λπ. Μπορούν να προστεθούν σε αυτήν την καρτέλα ή αργότερα μετά τη δημιουργία του συμπλέγματος. Κάντε κλικ στο 'Επόμενο' για να επιλέξετε το Υλικό που απαιτείται για το σύμπλεγμα EMR.

Βήμα 4: Ο Hadoop ακολουθεί την αρχιτεκτονική master-worker όπου ο πλοίαρχος κάνει όλο τον συντονισμό, όπως ο προγραμματισμός και η ανάθεση της εργασίας και ο έλεγχος της προόδου τους, ενώ οι εργαζόμενοι κάνουν την πραγματική εργασία επεξεργασίας και αποθήκευσης των δεδομένων. Ένας μεμονωμένος κύριος είναι ένα μοναδικό σημείο αποτυχίας (SPOF). Το Amazon EMR υποστηρίζει multi-master για υψηλή διαθεσιμότητα (HA). Το προηγούμενο βήμα επιτρέπει τη ρύθμιση ενός συμπλέγματος πολλαπλών κύριων στο EMR.

Το EMR επιτρέπει δύο τύπους κόμβων, το Core και το Task. Ο κόμβος πυρήνα χρησιμοποιείται τόσο για την επεξεργασία όσο και για την αποθήκευση των δεδομένων, ο κόμβος εργασιών χρησιμοποιείται μόνο για την επεξεργασία των δεδομένων. Για αυτό το σεμινάριο, μπορούμε να επιλέξουμε μόνο έναν πυρήνα και χωρίς κόμβους εργασιών, καθώς συνεπάγεται μικρότερο κόστος για εμάς. Επίσης, επιλέξτε Σημεία παρουσίας πάνω από Κατα παραγγελια καθώς οι παρουσίες Spot είναι φθηνότερες. Το catch με τις παρουσίες Spot είναι ότι μπορούν να τερματιστούν αυτόματα από το AWS με ένα προειδοποίηση δύο λεπτών . Αυτό είναι καλό για χάρη της πρακτικής και σε ορισμένα πραγματικά σενάρια. Οι παρουσίες spot τερματίζονται αυτόματα καθώς έχουν χαμηλή προτεραιότητα σε σχέση με άλλους τύπους παρουσιών. Κάντε κλικ στο «Επόμενο».

Βήμα 5: Καθορίστε το όνομα συμπλέγματος. και κάντε κλικ στο «Επόμενο». Σημειώστε ότι η 'Προστασία τερματισμού' είναι ενεργοποιημένη από προεπιλογή, διασφαλίζει ότι το σύμπλεγμα EMR δεν διαγράφεται κατά λάθος εισάγοντας μερικά βήματα κατά τον τερματισμό του συμπλέγματος.

Βήμα 6: Στην καρτέλα, καθορίζονται οι διαφορετικές επιλογές ασφαλείας για το σύμπλεγμα EMR. Το KeyPair πρέπει να επιλεγεί για σύνδεση στην παρουσία EC2. Το EMR θα δημιουργήσει αυτόματα τους κατάλληλους ρόλους και τις Ομάδες Ασφαλείας και θα τους συνδέσει στους κόμβους κύριου και EC2 εργαζομένου. Κάντε κλικ στο 'Δημιουργία συμπλέγματος'.

Η δημιουργία του συμπλέγματος διαρκεί λίγα λεπτά καθώς πρέπει να εξαγοραστούν οι παρουσίες EC2 και πρέπει να εγκατασταθούν και να διαμορφωθούν τα διαφορετικά λογισμικά Big Data. Αρχικά η κατάσταση συμπλέγματος θα ήταν στην κατάσταση 'Έναρξη' και θα προχωρήσει στην κατάσταση 'Αναμονή'. Στην κατάσταση 'Αναμονή', το σύμπλεγμα EMR περιμένει απλώς να υποβάλουμε διαφορετικές εργασίες επεξεργασίας δεδομένων Big, όπως MR, Spark, Hive κ.λπ.

Επίσης, παρατηρήστε από την Κονσόλα διαχείρισης EC2 και σημειώστε ότι οι παρουσίες κύριου και εργαζόμενου EC2 πρέπει να βρίσκονται σε κατάσταση λειτουργίας. Αυτές είναι οι παρουσίες Spot που έχουν δημιουργηθεί ως μέρος της δημιουργίας συμπλέγματος EMR. Το ίδιο EC2 μπορεί να παρατηρηθεί και από την καρτέλα Hardware στο EMR Management Console. Σημειώστε ότι στην καρτέλα Hardware η τιμή για τις παρουσίες Spot EC2 αναφέρεται ως 0,032 $ / ώρα. Η τιμή των στιγμιότυπων σημείων συνεχίζει να αλλάζει με την πάροδο του χρόνου και είναι πολύ χαμηλότερη από ό, τι στην τιμολόγηση On-Demand EC2.

Βήμα 7: Τώρα που το σύμπλεγμα EMR έχει προστεθεί με επιτυχία, μπορούν να προστεθούν εργασίες επεξεργασίας Steps ή Big Data. Μεταβείτε στην καρτέλα Steps και κάντε κλικ στο 'Add Step' και επιλέξτε τον τύπο του Step (MR, Hive, Spark κ.λπ.). Θα εξερευνήσουμε το ίδιο στο επερχόμενο σεμινάριο. Προς το παρόν, κάντε κλικ στο Ακύρωση.

Βήμα 8: Τώρα που έχουμε δει πώς να ξεκινήσουμε το EMR, ας δούμε πώς να σταματήσουμε το ίδιο.

Βήμα 8.1: Κάντε κλικ στο Τερματισμός.

Βήμα 8.2: Όπως αναφέρθηκε στα προηγούμενα βήματα, η 'Προστασία τερματισμού' είναι ενεργοποιημένη για το σύμπλεγμα EMR και το κουμπί τερματισμού έχει απενεργοποιηθεί. Κάντε κλικ στο Αλλαγή.

Βήμα 8.3: Επιλέξτε το κουμπί επιλογής 'Off' και κάντε κλικ στο σημάδι επιλογής. Τώρα το κουμπί τερματισμού πρέπει να είναι ενεργοποιημένο. Αυτό είναι το επιπλέον βήμα που εισήγαγε το EMR, απλώς για να βεβαιωθούμε ότι δεν θα διαγράψουμε κατά λάθος το σύμπλεγμα EMR.

Παρατηρήστε ότι το σύμπλεγμα EMR θα βρίσκεται στην κατάσταση τερματισμού και τα EC2 θα τερματιστούν. Τέλος, το σύμπλεγμα EMR θα μετακινηθεί στην κατάσταση τερματισμού, από εδώ σταματά η χρέωση με AWS. Φροντίστε να τερματίσετε το σύμπλεγμα, έτσι ώστε να μην επιβαρύνετε επιπλέον κόστος AWS.

συμπέρασμα

Σε αυτό το σεμινάριο έχουμε δει πώς να ξεκινήσετε το σύμπλεγμα EMR μέσα σε λίγα λεπτά από την κονσόλα ιστού (πρόγραμμα περιήγησης), το ίδιο μπορεί να αυτοματοποιηθεί χρησιμοποιώντας το , AWS SDK ή χρησιμοποιώντας AWS CloudFormation . Όπως παρατηρήθηκε η ρύθμιση ενός συμπλέγματος EMR μπορεί να γίνει μόνο λίγα λεπτά και η επεξεργασία Big Data μπορεί να ξεκινήσει αμέσως, μόλις ολοκληρωθεί η επεξεργασία, η έξοδος μπορεί να αποθηκευτεί σε S3 ή DynamoDB και έτσι το κλείσιμο του συμπλέγματος για να σταματήσει η χρέωση. Λόγω αυτού του μοντέλου τιμολόγησης και της ευκολίας χρήσης, το EMR είναι μια μεγάλη επιτυχία με εκείνους που κάνουν την επεξεργασία Big Data. Δεν χρειάζεται να αγοράσετε διακομιστή σε τεράστιους αριθμούς, να λάβετε άδειες για το λογισμικό Big Data και να τις διατηρήσετε. '

Αυτό είναι λοιπόν παιδιά, αυτό μας φέρνει στο τέλος αυτού του άρθρου σχετικά με το πώς να δημιουργήσετε το Hadoop Cluster With Amazon EMR;Σε περίπτωση που θέλετε να αποκτήσετε εμπειρογνωμοσύνη σε αυτό το θέμα, η Edureka έχει βρει ένα πρόγραμμα σπουδών που καλύπτει ακριβώς, τι θα χρειαστείτε για να ολοκληρώσετε το Solution Architect Exam! Μπορείτε να ρίξετε μια ματιά στις λεπτομέρειες του μαθήματος για εκπαίδευση.

Σε περίπτωση ερωτήσεων που σχετίζονται με αυτό το ιστολόγιο, μη διστάσετε να υποβάλετε ερώτηση στην παρακάτω ενότητα σχολίων και θα χαρούμε πολύ να σας απαντήσουμε το νωρίτερο.