Εκμάθηση Python Pandas: Μάθετε Πάντες για Ανάλυση Δεδομένων

Σε αυτό το σεμινάριο Python Pandas, θα μάθετε τις διάφορες λειτουργίες του Pandas. Περιλαμβάνει επίσης μια περίπτωση χρήσης, όπου μπορείτε να αναλύσετε τα δεδομένα χρησιμοποιώντας το Pandas.

Σε αυτό το blog, θα συζητήσουμε την ανάλυση δεδομένων χρησιμοποιώντας το Pandas στο Python.Σήμερα, είναι μια καυτή δεξιότητα στον κλάδο που ξεπέρασε την PHP το 2017 και το C # το 2018 όσον αφορά τη συνολική δημοτικότητα και χρήση.Πριν μιλήσουμε για τα Pandas, πρέπει να κατανοήσουμε την έννοια των συστοιχιών Numpy. Γιατί; Επειδή το Pandas είναι μια βιβλιοθήκη λογισμικού ανοιχτού κώδικα που είναι χτισμένη πάνω από . Σε αυτό το σεμινάριο Python Pandas, θα σας καθοδηγήσω στα ακόλουθα θέματα, τα οποία θα χρησιμεύσουν ως βασικές αρχές για τα επερχόμενα blogs:



Ας αρχίσουμε. :-)



Τι είναι το Python Pandas;

Το Pandas χρησιμοποιείται για χειρισμό, ανάλυση και καθαρισμό δεδομένων. Το Python pandas είναι κατάλληλο για διαφορετικά είδη δεδομένων, όπως:

  • Δεδομένα πίνακα με ετερογενώς τυποποιημένες στήλες
  • Δεδομένα σειράς και ταξινόμηση χωρίς σειρά
  • Αυθαίρετα δεδομένα μήτρας με ετικέτες γραμμής και στήλης
  • Μη επισημασμένα δεδομένα
  • Οποιαδήποτε άλλη μορφή συνόλων δεδομένων παρατήρησης ή στατιστικής

Πώς να εγκαταστήσετε το Pandas;

Για να εγκαταστήσετε το Python Pandas, μεταβείτε στη γραμμή εντολών / τερματικό και πληκτρολογήστε 'pip install pandas' ή αλλιώς, εάν έχετε εγκαταστήσει το anaconda στο σύστημά σας, απλώς πληκτρολογήστε 'conda install pandas'. Μόλις ολοκληρωθεί η εγκατάσταση, μεταβείτε στο IDE σας (Jupyter, PyCharm κ.λπ.) και απλώς εισαγάγετέ το πληκτρολογώντας: 'εισαγωγή pandas ως pd'



Προχωρώντας στο σεμινάριο Python pandas, ας ρίξουμε μια ματιά σε μερικές από τις λειτουργίες του:

Λειτουργίες Python Pandas

Χρησιμοποιώντας Python pandas, μπορείτε να εκτελέσετε πολλές λειτουργίες με σειρές, πλαίσια δεδομένων, δεδομένα που λείπουν, ομαδοποίηση κ.λπ. Μερικές από τις κοινές λειτουργίες για χειρισμό δεδομένων παρατίθενται παρακάτω:



PandasOperations - Εκμάθηση Python Pandas - Edureka

Τώρα, ας καταλάβουμε όλες αυτές τις λειτουργίες μία προς μία.

Τεμαχισμός του πλαισίου δεδομένων

Για να εκτελέσετε τεμαχισμό δεδομένων, χρειάζεστε ένα πλαίσιο δεδομένων. Μην ανησυχείτε, το πλαίσιο δεδομένων είναι μια δισδιάστατη δομή δεδομένων και ένα πιο κοινό αντικείμενο pandas. Αρχικά, ας δημιουργήσουμε ένα πλαίσιο δεδομένων.

Ανατρέξτε στον παρακάτω κώδικα για την εφαρμογή του στο PyCharm:

εισαγωγή panda ως pd XYZ_web = {'Day': [1,2,3,4,5,6], 'Visitors': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) εκτύπωση (df)

Παραγωγή :

Bounce_Rate Επισκέπτες ημέρας 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Ο παραπάνω κώδικας θα μετατρέψει ένα λεξικό σε πλαίσιο δεδομένων Pandas μαζί με το ευρετήριο προς τα αριστερά. Τώρα, ας κόψουμε μια συγκεκριμένη στήλη από αυτό το πλαίσιο δεδομένων. Ανατρέξτε στην παρακάτω εικόνα:

εκτύπωση (df.head (2))

Παραγωγή:

Bounce_Rate Επισκέπτες ημέρας 0 20 1 1000 1 20 2 700

Ομοίως, εάν θέλετε τις δύο τελευταίες σειρές των δεδομένων, πληκτρολογήστε την παρακάτω εντολή:

εκτύπωση (df.tail (2))

Παραγωγή:

Bounce_Rate Επισκέπτες ημέρας 4 10 5 400 5 34 6 350

Στη συνέχεια στο σεμινάριο Python Pandas, ας κάνουμε συγχώνευση και συμμετοχή.

Συγχώνευση και συμμετοχή

Κατά τη συγχώνευση, μπορείτε να συγχωνεύσετε δύο πλαίσια δεδομένων για να σχηματίσετε ένα ενιαίο πλαίσιο δεδομένων. Μπορείτε επίσης να αποφασίσετε ποιες στήλες θέλετε να κάνετε κοινές. Επιτρέψτε μου να το εφαρμόσω πρακτικά, πρώτα θα δημιουργήσω τρία πλαίσια δεδομένων, τα οποία έχουν μερικά ζεύγη τιμών-κλειδιών και στη συνέχεια θα συγχωνεύσω τα πλαίσια δεδομένων. Ανατρέξτε στον παρακάτω κώδικα:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Παραγωγή:

εισαγωγή panda ως pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, ευρετήριο = [2001, 2002.2003.2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, ευρετήριο = [2005, 2006,2007.2008]) συγχωνευμένη = pd.merge (df1, df2) print (συγχωνεύτηκε)

Όπως μπορείτε να δείτε παραπάνω, τα δύο πλαίσια δεδομένων έχουν συγχωνευθεί σε ένα ενιαίο πλαίσιο δεδομένων. Τώρα, μπορείτε επίσης να καθορίσετε τη στήλη που θέλετε να κάνετε κοινή. Για παράδειγμα, θέλω η στήλη 'HPI' να είναι κοινή και για οτιδήποτε άλλο, θέλω ξεχωριστές στήλες. Λοιπόν, επιτρέψτε μου να το εφαρμόσω πρακτικά:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, ευρετήριο = [2001, 2002.2003.2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, ευρετήριο = [2005, 2006,2007.2008]) συγχωνευμένη = pd.merge (df1, df2, on = 'HPI') εκτύπωση (συγχωνεύτηκε)

Παραγωγή:

IND_GDP Int_Rate Low_Tier_HPI Ανεργία 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Στη συνέχεια, ας καταλάβουμε συμμετοχή στο σεμινάριο python pandas. Είναι μια ακόμη βολική μέθοδος για τον συνδυασμό δύο διαφορετικών ευρετηρίων πλαισίων δεδομένων σε ένα ενιαίο πλαίσιο δεδομένων αποτελεσμάτων. Αυτό είναι αρκετά παρόμοιο με τη λειτουργία 'συγχώνευσης', εκτός από το ότι η λειτουργία σύνδεσης θα βρίσκεται στο 'ευρετήριο' αντί για τις 'στήλες'. Ας το εφαρμόσουμε πρακτικά.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, ευρετήριο = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Ανεργία': [1,3,5,6]}, ευρετήριο = [2001, 2003.2004.2004]] Έγινε μέλος = df1. εγγραφή (df2) εκτύπωση (ένωση)

Παραγωγή:

IND_GDP Int_Rate Low_Tier_HPI Ανεργία 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Όπως μπορείτε να παρατηρήσετε στην παραπάνω έξοδο, το έτος 2002 (ευρετήριο), δεν υπάρχει τιμή που να επισυνάπτεται στις στήλες 'low_tier_HPI' και 'ανεργία', επομένως έχει εκτυπωθεί NaN (Όχι ένας αριθμός). Αργότερα το 2004, και οι δύο τιμές είναι διαθέσιμες, επομένως έχει εκτυπώσει τις αντίστοιχες τιμές.

Μπορείτε να ακολουθήσετε αυτήν την ηχογράφηση του φροντιστηρίου Python Pandas όπου ο εκπαιδευτής μας εξήγησε τα θέματα με λεπτομερή τρόπο με παραδείγματα που θα σας βοηθήσουν να κατανοήσετε καλύτερα αυτήν την ιδέα.

Python για ανάλυση δεδομένων | Εκμάθηση Python Pandas | Εκπαίδευση Python | Έντρεκα


Προχωρώντας στο σεμινάριο Python pandas, ας καταλάβουμε πώς να συνδυάσουμε δύο πλαίσια δεδομένων δεδομένων.

Αληλουχία

Η συνένωση κολλά βασικά τα πλαίσια δεδομένων μεταξύ τους. Μπορείτε να επιλέξετε την ιδιότητα στην οποία θέλετε να συνενώσετε. Για αυτό, απλώς χρησιμοποιήστε το 'pd.concat' και περάστε στη λίστα των πλαισίων δεδομένων για να συνενώσετε μαζί. Εξετάστε το παρακάτω παράδειγμα.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, ευρετήριο = [2001, 2002.2003.2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, ευρετήριο = [2005, 2006,2007.2008]) concat = pd.concat ([df1, df2]) print (concat)

Παραγωγή:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Όπως μπορείτε να δείτε παραπάνω, τα δύο πλαίσια δεδομένων είναι κολλημένα σε ένα ενιαίο πλαίσιο δεδομένων, όπου το ευρετήριο ξεκινά από το 2001 μέχρι το 2008. Στη συνέχεια, μπορείτε επίσης να καθορίσετε τον άξονα = 1 για να ενώσετε, να συγχωνεύσετε ή να ακυρώσετε τις στήλες. Ανατρέξτε στον παρακάτω κώδικα:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, ευρετήριο = [2001, 2002.2003.2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, ευρετήριο = [2005, 2006,2007.2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Παραγωγή:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 1.0 2007 NaN NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0

Όπως μπορείτε παραπάνω, υπάρχουν πολλές τιμές που λείπουν. Αυτό συμβαίνει επειδή τα πλαίσια δεδομένων δεν είχαν τιμές για όλα τα ευρετήρια στα οποία θέλετε να συνενώσετε. Επομένως, πρέπει να βεβαιωθείτε ότι έχετε όλες τις πληροφορίες που παρατάσσονται σωστά όταν ενώνετε ή συνενώνετε στον άξονα.

Αλλάξτε το ευρετήριο

Στη συνέχεια στο σεμινάριο python pandas, θα καταλάβουμε πώς να αλλάζουμε τις τιμές ευρετηρίου σε ένα πλαίσιο δεδομένων. Για παράδειγμα, ας δημιουργήσουμε ένα πλαίσιο δεδομένων με μερικά ζεύγη τιμών κλειδιών σε ένα λεξικό και να αλλάξουμε τις τιμές ευρετηρίου. Εξετάστε το παρακάτω παράδειγμα:

Ας δούμε πώς πραγματικά συμβαίνει:

εισαγωγή panda ως pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) εκτύπωση (df)

Παραγωγή:

Bounce_Rate Επισκέπτες Ημέρα 1 20 200 2 45 100 3 60 230 4 10 300

Όπως μπορείτε να παρατηρήσετε στην έξοδο παραπάνω, η τιμή ευρετηρίου έχει αλλάξει σε σχέση με τη στήλη 'Ημέρα'.

Αλλαγή των κεφαλίδων στηλών

Ας αλλάξουμε τώρα τις κεφαλίδες της στήλης σε αυτό το σεμινάριο python pandas. Ας πάρουμε το ίδιο παράδειγμα, όπου θα αλλάξω την κεφαλίδα της στήλης από 'Επισκέπτες' σε 'Χρήστες'. Λοιπόν, επιτρέψτε μου να το εφαρμόσω πρακτικά.

εισαγωγή panda ως pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (στήλες = {'Επισκέπτες': 'Χρήστες'}) εκτύπωση (df)

Παραγωγή:

Bounce_Rate Χρήστες Ημέρας 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Όπως βλέπετε παραπάνω, η κεφαλίδα στήλης 'Επισκέπτες' έχει αλλάξει σε 'Χρήστες'. Στη συνέχεια στο σεμινάριο python pandas, ας εκτελέσουμε munging δεδομένων.

Αντιστοίχιση δεδομένων

Στο Data munging, μπορείτε να μετατρέψετε ένα συγκεκριμένο στοιχείο σε διαφορετική μορφή. Για παράδειγμα, εάν έχετε ένα αρχείο .csv, μπορείτε να το μετατρέψετε σε .html ή οποιαδήποτε άλλη μορφή δεδομένων επίσης. Λοιπόν, επιτρέψτε μου να το εφαρμόσω πρακτικά.

εισαγωγή panda ως pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-employmentAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Μόλις εκτελέσετε αυτόν τον κώδικα, θα δημιουργηθεί ένα αρχείο HTML με το όνομα 'edu.html'. Μπορείτε να αντιγράψετε απευθείας τη διαδρομή του αρχείου και να το επικολλήσετε στο πρόγραμμα περιήγησής σας που εμφανίζει τα δεδομένα σε μορφή HTML. Ανατρέξτε στο παρακάτω στιγμιότυπο οθόνης:


Στη συνέχεια στο σεμινάριο python pandas, ας ρίξουμε μια ματιά σε μια υπόθεση χρήσης που μιλά για την παγκόσμια ανεργία των νέων.

Εκμάθηση Python Pandas: Χρησιμοποιήστε την Περίπτωση για την ανάλυση δεδομένων ανεργίας των νέων

Δήλωση προβλήματος :Σας δίνεται ένα σύνολο δεδομένων το οποίο αποτελείται από το ποσοστό των ανέργων νέων παγκοσμίως από το 2010 έως το 2014. Πρέπει να χρησιμοποιήσετε αυτό το σύνολο δεδομένων και να βρείτε την αλλαγή στο ποσοστό των νέων για κάθε χώρα από το 2010-2011.

πώς να τερματίσετε ένα πρόγραμμα στην Java

Αρχικά, ας κατανοήσουμε το σύνολο δεδομένων που περιέχει τις στήλες ως Όνομα χώρας, Κωδικός χώρας και το έτος από το 2010 έως το 2014. Τώρα χρησιμοποιώντας τα pandas, θα χρησιμοποιήσουμε το 'pd.read_csv' για να διαβάσουμε το αρχείο μορφής αρχείου .csv.
Ανατρέξτε στο παρακάτω στιγμιότυπο οθόνης:

Ας προχωρήσουμε μπροστά και να πραγματοποιήσουμε ανάλυση δεδομένων στην οποία πρόκειται να ανακαλύψουμε την ποσοστιαία αλλαγή στους άνεργους νέους μεταξύ 2010 και 2011. Στη συνέχεια θα απεικονίσουμε το ίδιο χρησιμοποιώντας βιβλιοθήκη, η οποία είναι μια ισχυρή βιβλιοθήκη οπτικοποίησης στην Python. Μπορεί να χρησιμοποιηθεί σε σενάρια Python, κέλυφος, διακομιστές εφαρμογών ιστού και άλλα εργαλεία εργαλείων GUI. Μπορείτε να διαβάσετε περισσότερα εδώ:

Τώρα, ας εφαρμόσουμε τον κώδικα στο PyCharm:

εισαγωγή pandas ως pd import matplotlib.pyplot as plt από matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-employmentAPI_ILO_country_YU.csv', index_col = 0) df = χώρα. head (5) df = df.set_index (['Country Code']) sd = sd.reindex (στήλες = ['2010', '2011']) db = sd.diff (άξονας = 1) db.plot (είδος = 'bar') plt.show ()

Όπως μπορείτε να δείτε παραπάνω, έχω πραγματοποιήσει την ανάλυση στις 5 πρώτες σειρές του πλαισίου δεδομένων χώρας. Στη συνέχεια, έχω ορίσει μια τιμή ευρετηρίου ως 'Κωδικός χώρας' και μετά επαναπροσδιορίζω τη στήλη έως το 2010 και το 2011. Στη συνέχεια, έχουμε ένα ακόμη πλαίσιο δεδομένων db, το οποίο εκτυπώνει τη διαφορά μεταξύ των δύο στηλών ή την ποσοστιαία αλλαγή των ανέργων νέων από το 2010 έως το 2011. Τέλος, έχω σχεδιάσει ένα barplot χρησιμοποιώντας τη βιβλιοθήκη Matplotlib στην Python.


Τώρα, εάν παρατηρήσατε στην παραπάνω πλοκή, στο Αφγανιστάν (AFG) μεταξύ 2010 και 2011, υπήρξε αύξηση των ανέργων νέων περίπου. 0,25%. Στη συνέχεια, στην Αγκόλα (AGO), υπάρχει μια αρνητική τάση που σημαίνει ότι το ποσοστό των ανέργων νέων έχει μειωθεί. Ομοίως, μπορείτε να πραγματοποιήσετε ανάλυση σε διαφορετικά σύνολα δεδομένων.

Ελπίζω ότι το ιστολόγιό μου στο 'Python Pandas Tutorial' ήταν σχετικό για εσάς. Για να αποκτήσετε σε βάθος γνώσεις σχετικά με το python μαζί με τις διάφορες εφαρμογές του, μπορείτε να εγγραφείτε ζωντανά από την Edureka με 24ωρη υποστήριξη και πρόσβαση σε όλη τη διάρκεια ζωής.

Έχετε μια ερώτηση για εμάς; Παρακαλώ αναφέρετέ το στην ενότητα σχολίων αυτού του ιστολογίου «Python Pandas tutorial» και θα επικοινωνήσουμε μαζί σας το συντομότερο δυνατό.