Συγκέντρωση Fuzzy K-Means στο Mahout

Αυτό το blog δίνει μια εισαγωγή στο συγκρότημα Fuzzy K-Means στο Apache Mahout.



Το Fuzzy K-Means είναι ακριβώς ο ίδιος αλγόριθμος με το K-means, που είναι μια δημοφιλής τεχνική απλής ομαδοποίησης. Η μόνη διαφορά είναι ότι, αντί να αντιστοιχίζεται ένα σημείο αποκλειστικά σε ένα σύμπλεγμα, μπορεί να έχει κάποιο είδος ασαφούς ή αλληλεπικάλυψης μεταξύ δύο ή περισσότερων συστάδων. Ακολουθούν τα βασικά σημεία, που περιγράφουν το Fuzzy K-Means:



  • Σε αντίθεση με το K-Means, το οποίο αναζητά σκληρό σύμπλεγμα, όπου κάθε ένα από τα σημεία ανήκει σε ένα σύμπλεγμα, το Fuzzy K-Means αναζητά τα πιο μαλακά σμήνη για επικάλυψη.
  • Ένα μόνο σημείο σε ένα μαλακό σύμπλεγμα μπορεί να ανήκει σε περισσότερα από ένα σύμπλεγμα με μια συγκεκριμένη τιμή συγγένειας προς καθένα από τα σημεία.
  • Η συγγένεια είναι ανάλογη με την απόσταση αυτού του σημείου από το κεντροειδές του συμπλέγματος.
  • Παρόμοια με το K-Means, το Fuzzy K-Means λειτουργεί σε αντικείμενα που έχουν καθοριστεί το μέτρο απόστασης και μπορούν να αναπαρασταθούν στο ν- διαστάσεων διάνυσμα χώρο.

Fuzzy K-Means MapReduce Flow

Δεν υπάρχει μεγάλη διαφορά μεταξύ της ροής MapReduce του K-Means και του Fuzzy K-Means. Η εφαρμογή και των δύο στο Mahout είναι παρόμοια.

ρύθμιση java classpath στο linux

Ακολουθούν τα βασικές παράμετροι για την εφαρμογή του Fuzzy K-Means:



  • Χρειάζεστε ένα σύνολο δεδομένων φορέα για εισαγωγή.
  • Πρέπει να υπάρχει το RandomSeedGenerator για τη σπορά των αρχικών συστάδων k.
  • Για τη μέτρηση απόστασης απαιτείται SquaredEuclideanDistanceMeasure.
  • Μεγάλη τιμή ορίου σύγκλισης, όπως –cd 1.0, εάν έχει χρησιμοποιηθεί η τετραγωνική τιμή του μέτρου απόστασης
  • Μια τιμή για maxIterations η προεπιλεγμένη τιμή είναι -x 10.
  • Ο συντελεστής κανονικοποίησης ή ο συντελεστής ασαφείας, με τιμή μεγαλύτερη από -m 1,0

Έχετε μια ερώτηση για εμάς; Αναφέρετέ τα στην ενότητα σχολίων και θα επικοινωνήσουμε μαζί σας.

ssis φροντιστήριο βήμα προς βήμα

σχετικές αναρτήσεις



Εποπτευόμενη μάθηση στο Apache Mahout