Προγραμματισμός χοίρων: Δημιουργήστε το πρώτο σας σενάριο Apache Pig

Διαβάστε αυτήν την ανάρτηση ιστολογίου για να δημιουργήσετε το πρώτο σας σενάριο Apache Pig. Τα σενάρια Apache Pig χρησιμοποιούνται για την εκτέλεση ενός συνόλου εντολών Apache Pig συλλογικά.

Προγραμματισμός χοίρων: Δημιουργήστε το πρώτο σας σενάριο Apache Pig

Στο δικό μας , θα μάθουμε τώρα πώς να δημιουργούμε ένα σενάριο Apache Pig. Τα σενάρια Apache Pig χρησιμοποιούνται για την εκτέλεση ενός συνόλου εντολών Apache Pig συλλογικά. Αυτό βοηθά στη μείωση του χρόνου και της προσπάθειας που επενδύονται στη συγγραφή και την εκτέλεση κάθε εντολής χειροκίνητα, ενώ το κάνετε αυτό στον προγραμματισμό χοίρων.Είναι επίσης αναπόσπαστο μέρος του .Αυτό το ιστολόγιο είναι ένας βήμα προς βήμα οδηγός για να σας βοηθήσει να δημιουργήσετε το πρώτο σας σενάριο Apache Pig.Λειτουργίες εκτέλεσης σεναρίου Apache Pig

Τοπική λειτουργία : Στην «τοπική λειτουργία», μπορείτε να εκτελέσετε το σενάριο χοίρου στο τοπικό σύστημα αρχείων. Σε αυτήν την περίπτωση, δεν χρειάζεται να αποθηκεύσετε τα δεδομένα στο σύστημα αρχείων Hadoop HDFS, αλλά μπορείτε να εργαστείτε με τα δεδομένα που είναι αποθηκευμένα στο ίδιο το τοπικό σύστημα αρχείων.Λειτουργία MapReduce : Στην «λειτουργία MapReduce», τα δεδομένα πρέπει να αποθηκευτούν στο σύστημα αρχείων HDFS και μπορείτε να επεξεργαστείτε τα δεδομένα με τη βοήθεια του σεναρίου χοίρου.

Apache Pig Script σε λειτουργία MapReduce

Ας πούμε ότι στόχος μας είναι η ανάγνωση δεδομένων από ένα αρχείο δεδομένων και η εμφάνιση των απαιτούμενων περιεχομένων στο τερματικό ως έξοδος.Το δείγμα αρχείου δεδομένων περιέχει τα ακόλουθα δεδομένα:

Αρχείο πληροφοριών txt - Apache Pig Script - Edureka

Αποθηκεύστε το αρχείο κειμένου με το όνομα 'information.txt'Το δείγμα αρχείου δεδομένων περιέχει πέντε στήλες Ονομα , Επίθετο , Οχι κινητό , Πόλη , και Επάγγελμα χωρισμένο από πλήκτρο καρτέλας . Η αποστολή μας είναι να διαβάσουμε το περιεχόμενο αυτού του αρχείου από το HDFS και να εμφανίσουμε όλες τις στήλες αυτών των εγγραφών.

Για να επεξεργαστείτε αυτά τα δεδομένα χρησιμοποιώντας το Pig, αυτό το αρχείο πρέπει να υπάρχει στο Apache Hadoop HDFS.

Εντολή : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Βήμα 1: Γράφοντας ένα σενάριο χοίρου

Δημιουργήστε και ανοίξτε ένα αρχείο σεναρίου Apache Pig σε ένα πρόγραμμα επεξεργασίας (π.χ. gedit).

Εντολή : sudo gedit /home/edureka/output.pig

Αυτή η εντολή θα δημιουργήσει ένα αρχείο «output.pig» μέσα στον αρχικό κατάλογο του χρήστη edureka.

Ας γράψουμε μερικές εντολές PIG στο αρχείο output.pig.

A = LOAD '/edureka/information.txt' χρησιμοποιώντας PigStorage ('') ως (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A δημιουργία FName, MobileNo, Profession DUMP σι

Αποθηκεύστε και κλείστε το αρχείο.

  • Η πρώτη εντολή φορτώνει το αρχείο «information.txt» στη μεταβλητή Α με έμμεσο σχήμα (FName, LName, MobileNo, City, Profession).
  • Η δεύτερη εντολή φορτώνει τα απαιτούμενα δεδομένα από τη μεταβλητή Α στη μεταβλητή Β.
  • Η τρίτη γραμμή εμφανίζει το περιεχόμενο της μεταβλητής Β στο τερματικό / κονσόλα.

Βήμα 2: Εκτελέστε το σενάριο Apache Pig

Για να εκτελέσετε το σενάριο χοίρου σε λειτουργία HDFS, εκτελέστε την ακόλουθη εντολή:

Εντολή : χοίρος /home/edureka/output.pig

Αφού ολοκληρωθεί η εκτέλεση, ελέγξτε το αποτέλεσμα. Αυτές οι παρακάτω εικόνες δείχνουν τα αποτελέσματα και τον ενδιάμεσο χάρτη τους και μειώνουν τις λειτουργίες.

Η παρακάτω εικόνα δείχνει ότι το σενάριο εκτελέστηκε με επιτυχία.

Η παρακάτω εικόνα δείχνει το αποτέλεσμα του σεναρίου μας.

στην ομάδα σταθερών συμβολοσειρών, δεν θα υπάρχουν δύο αντικείμενα συμβολοσειράς με το ίδιο περιεχόμενο.

Συγχαρητήρια για την επιτυχή εκτέλεση του πρώτου σεναρίου Apache Pig!

Τώρα ξέρετε, πώς να δημιουργήσετε και να εκτελέσετε το σενάριο Apache Pig. Ως εκ τούτου, το επόμενο blog μας στο θα καλύπτει τον τρόπο δημιουργήστε UDF (Λειτουργίες καθορισμένες από το χρήστη) στο Apache Pig και εκτελέστε το σε λειτουργία MapReduce / HDFS.

Τώρα που έχετε δημιουργήσει και εκτελέσετε το Apache Pig Script, δείτε το από την Edureka, μια αξιόπιστη διαδικτυακή εταιρεία εκμάθησης με δίκτυο περισσότερων από 250.000 ικανοποιημένων μαθητών σε όλο τον κόσμο. Το πρόγραμμα εκπαίδευσης Edureka Big Data Hadoop Certification βοηθά τους μαθητές να γίνουν ειδικοί σε HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume και Sqoop χρησιμοποιώντας περιπτώσεις χρήσης σε πραγματικό χρόνο σε τομείς λιανικής, κοινωνικής δικτύωσης, αεροπορίας, τουρισμού, χρηματοοικονομικών

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.