Πίνακας περιεχομένων
Το σεμινάριο εξηγεί τα βασικά στοιχεία της συσχέτισης Spearman σε απλή γλώσσα και δείχνει πώς να υπολογίζετε τον συντελεστή συσχέτισης Spearman στο Excel.
Όταν κάνετε ανάλυση συσχέτισης στο Excel, στις περισσότερες περιπτώσεις θα ασχοληθείτε με τη συσχέτιση Pearson. Επειδή όμως ο συντελεστής συσχέτισης Pearson μετράει μόνο τη γραμμική σχέση μεταξύ δύο μεταβλητών, δεν λειτουργεί για όλους τους τύπους δεδομένων - οι μεταβλητές σας μπορεί να συνδέονται έντονα με μη γραμμικό τρόπο και παρόλα αυτά ο συντελεστής να είναι κοντά στο μηδέν. Σε τέτοιες περιπτώσεις, μπορείτε να κάνετε τη συσχέτιση Spearmanrank correlation αντί της Pearson.
Συσχέτιση Spearman - τα βασικά
Το Συσχέτιση Spearman είναι η μη παραμετρική εκδοχή του συντελεστή συσχέτισης Pearson που μετρά τον βαθμό συσχέτισης μεταξύ δύο μεταβλητών με βάση τις τάξεις τους.
Το Συσχέτιση Pearson Product Moment δοκιμάζει το γραμμικό σχέση μεταξύ δύο συνεχών μεταβλητών. Γραμμική σημαίνει σχέση όταν δύο μεταβλητές μεταβάλλονται προς την ίδια κατεύθυνση με σταθερό ρυθμό.
Συσχέτιση Spearman Rank Correlation αξιολογεί το μονοτονικό σχέση μεταξύ των καταταγμένων τιμών. Σε μια μονοτονική σχέση, οι μεταβλητές τείνουν επίσης να μεταβάλλονται μαζί, αλλά όχι απαραίτητα με σταθερό ρυθμό.
Πότε να κάνετε συσχέτιση Spearman
Η ανάλυση συσχέτισης Spearman πρέπει να χρησιμοποιείται σε οποιαδήποτε από τις ακόλουθες περιπτώσεις, όταν δεν πληρούνται οι υποκείμενες παραδοχές της συσχέτισης Pearson:
- Εάν τα δεδομένα σας παρουσιάζουν μη γραμμική σχέση ή δεν κατανέμονται κανονικά.
- Εάν τουλάχιστον μία μεταβλητή είναι ordinal Αν οι τιμές σας μπορούν να τοποθετηθούν με τη σειρά "πρώτη, δεύτερη, τρίτη...", τότε έχετε να κάνετε με δεδομένα με τάξη.
- Εάν υπάρχουν σημαντικές outliers Σε αντίθεση με τη συσχέτιση Pearson, η συσχέτιση Spearman δεν είναι ευαίσθητη στις ακραίες τιμές, επειδή εκτελεί υπολογισμούς στις τάξεις, οπότε η διαφορά μεταξύ των πραγματικών τιμών δεν έχει νόημα.
Για παράδειγμα, μπορείτε να χρησιμοποιήσετε τη συσχέτιση Spearman για να βρείτε τις απαντήσεις στις ακόλουθες ερωτήσεις:
- Οι άνθρωποι με υψηλότερο επίπεδο εκπαίδευσης ενδιαφέρονται περισσότερο για το περιβάλλον;
- Σχετίζεται ο αριθμός των συμπτωμάτων που έχει ένας ασθενής με την προθυμία του να λάβει φάρμακα;
Συντελεστής συσχέτισης Spearman
Στη στατιστική, η Συντελεστής συσχέτισης Spearman αντιπροσωπεύεται είτε από r s ή το ελληνικό γράμμα ρ ("rho"), γι' αυτό και συχνά αποκαλείται rho του Spearman .
Ο συντελεστής συσχέτισης κατάταξης Spearman μετρά τόσο την ισχύ όσο και την κατεύθυνση της σχέσης μεταξύ των τάξεων των δεδομένων. Μπορεί να έχει οποιαδήποτε τιμή από -1 έως 1 και όσο πιο κοντά στο 1 είναι η απόλυτη τιμή του συντελεστή, τόσο ισχυρότερη είναι η σχέση:
- 1 είναι τέλεια θετική συσχέτιση
- -1 είναι μια τέλεια αρνητική συσχέτιση
- 0 δεν υπάρχει συσχέτιση
Τύπος συσχέτισης κατάταξης Spearman
Ανάλογα με το αν υπάρχουν ή δεν υπάρχουν δεσμοί στην κατάταξη (η ίδια κατάταξη αποδίδεται σε δύο ή περισσότερες παρατηρήσεις), ο συντελεστής συσχέτισης Spearman μπορεί να υπολογιστεί με έναν από τους ακόλουθους τύπους.
Εάν υπάρχουν δεν υπάρχουν δεμένες τάξεις , αρκεί ένας απλούστερος τύπος:
Πού:
- d i είναι η διαφορά μεταξύ ενός ζεύγους βαθμών
- n είναι ο αριθμός των παρατηρήσεων
Για την αντιμετώπιση ισόβαθμες θέσεις , πρέπει να χρησιμοποιηθεί η πλήρης έκδοση του τύπου συσχέτισης Spearman, ο οποίος είναι μια ελαφρώς τροποποιημένη έκδοση του r του Pearson:
Πού:
- R(x) και R(y) είναι οι τάξεις του x και y μεταβλητές
- R(x) και R(y) είναι οι μέσες τάξεις
Πώς να υπολογίσετε τη συσχέτιση Spearman στο Excel με τη συνάρτηση CORREL
Δυστυχώς, το Excel δεν διαθέτει ενσωματωμένη συνάρτηση για τον υπολογισμό του συντελεστή συσχέτισης Spearman. Ωστόσο, αυτό δεν σημαίνει ότι θα πρέπει να βασανίζετε το μυαλό σας με τους παραπάνω τύπους. Χειριζόμενοι λίγο το Excel, μπορούμε να βρούμε έναν πολύ απλούστερο τρόπο για να κάνουμε τη συσχέτιση Spearman.
Ως παράδειγμα, ας προσπαθήσουμε να βρούμε αν η σωματική μας δραστηριότητα έχει κάποια σχέση με την αρτηριακή μας πίεση. Στη στήλη Β έχουμε τον αριθμό των λεπτών που 10 άνδρες της ίδιας ηλικίας περνούν καθημερινά σε ένα γυμναστήριο και στη στήλη Γ έχουμε τη συστολική τους αρτηριακή πίεση.
Για να βρείτε τον συντελεστή συσχέτισης Spearman στο Excel, εκτελέστε τα εξής βήματα:
- Κατατάξτε τα δεδομένα σας
Επειδή η συσχέτιση Spearman αξιολογεί τις συσχετίσεις μεταξύ δύο μεταβλητών με βάση την κατάταξή τους, πρέπει να κατατάξετε τα δεδομένα της πηγής σας. Αυτό μπορεί να γίνει γρήγορα με τη χρήση της συνάρτησης RANK.AVG του Excel.
Για να κατατάξετε την πρώτη μεταβλητή (σωματική δραστηριότητα), εισαγάγετε τον παρακάτω τύπο στο D2 και στη συνέχεια σύρετέ τον στο D11:
=RANK.AVG(B2,$B$2:$B$11,0)
Για να κατατάξετε τη δεύτερη μεταβλητή (αρτηριακή πίεση), τοποθετήστε τον ακόλουθο τύπο στο κελί E2 και αντιγράψτε τον στη στήλη:
=RANK.AVG(C2,$C$2:$C$11,0)
Για να λειτουργήσουν σωστά οι τύποι, βεβαιωθείτε ότι έχετε κλειδώσει τις περιοχές με απόλυτες αναφορές κελιών.
Σε αυτό το σημείο, τα δεδομένα της πηγής σας θα πρέπει να μοιάζουν με αυτό:
- Εύρεση του συντελεστή συσχέτισης Spearman
Με την καθιέρωση των τάξεων, μπορούμε τώρα να χρησιμοποιήσουμε τη συνάρτηση CORREL του Excel για να λάβουμε το rho του Spearman:
=CORREL(D2:D11, E2:E11)
Ο τύπος επιστρέφει έναν συντελεστή -0,7576 (στρογγυλοποιημένο σε 4 ψηφία), ο οποίος δείχνει μια αρκετά ισχυρή αρνητική συσχέτιση και μας επιτρέπει να συμπεράνουμε ότι όσο περισσότερο ασκείται ένα άτομο, τόσο χαμηλότερη είναι η αρτηριακή του πίεση.
Ο συντελεστής συσχέτισης Pearson για το ίδιο δείγμα (-0,7445) υποδηλώνει μια λίγο ασθενέστερη συσχέτιση, αλλά εξακολουθεί να είναι στατιστικά σημαντική:
Η ομορφιά αυτής της μεθόδου είναι ότι είναι γρήγορη, εύκολη και λειτουργεί ανεξάρτητα από το αν υπάρχουν ισοπαλίες στην κατάταξη ή όχι.
Υπολογισμός του συντελεστή συσχέτισης Spearman στο Excel με τον παραδοσιακό τύπο
Αν δεν είστε απόλυτα σίγουροι ότι η συνάρτηση CORREL έχει υπολογίσει σωστά το rho του Spearman, μπορείτε να επαληθεύσετε το αποτέλεσμα με τον παραδοσιακό τύπο που χρησιμοποιείται στη στατιστική. Ακολουθεί ο τρόπος:
- Βρείτε τη διαφορά μεταξύ κάθε ζεύγους βαθμών ( d ) αφαιρώντας τη μία θέση από την άλλη:
=D2-E2
Αυτός ο τύπος πηγαίνει στο F2 και στη συνέχεια αντιγράφεται προς τα κάτω στη στήλη.
- Ανυψώστε κάθε διαφορά τάξης στη δύναμη του δύο ( d2 ):
=F2^2
Αυτός ο τύπος πηγαίνει στη στήλη G.
- Προσθέστε τις τετραγωνικές διαφορές:
=SUM(G2:G11)
Αυτός ο τύπος μπορεί να πάει σε οποιοδήποτε κενό κελί, το G12 στην περίπτωσή μας.
Από το ακόλουθο στιγμιότυπο οθόνης, πιθανόν να κατανοήσετε καλύτερα τη διάταξη των δεδομένων:
- Ανάλογα με το αν το σύνολο δεδομένων σας έχει ή όχι δεσμευμένες τάξεις, χρησιμοποιήστε έναν από αυτούς τους τύπους για τον υπολογισμό του συντελεστή συσχέτισης Spearman.
Στο παράδειγμά μας, δεν υπάρχουν ισοπαλίες, οπότε μπορούμε να χρησιμοποιήσουμε έναν απλούστερο τύπο:
Με d2 ίση με 290 και n (αριθμός παρατηρήσεων) ίσος με 10, ο τύπος υφίσταται τους ακόλουθους μετασχηματισμούς:
Ως αποτέλεσμα, λαμβάνετε -0,75757575758, το οποίο συμφωνεί απόλυτα με τον συντελεστή συσχέτισης Spearman που υπολογίστηκε στο προηγούμενο παράδειγμα.
Στο Microsoft Excel, οι παραπάνω υπολογισμοί μπορούν να πραγματοποιηθούν με την ακόλουθη εξίσωση:
=1-(6*G12/(10*(10^2-1)))
Όπου G12 είναι το άθροισμα των τετραγωνικών διαφορών κατάταξης (d2).
Πώς να κάνετε συσχέτιση Spearman στο Excel χρησιμοποιώντας ένα γράφημα
Οι συντελεστές συσχέτισης στο Excel μετρούν μόνο γραμμικές (Pearson) ή μονοτονικές (Spearman) σχέσεις. Ωστόσο, είναι δυνατές και άλλες συσχετίσεις. Έτσι, ανεξάρτητα από το ποια συσχέτιση κάνετε, είναι πάντα καλή ιδέα να αναπαραστήσετε τη σχέση μεταξύ των μεταβλητών σε ένα γράφημα.
Για να σχεδιάσετε ένα γράφημα συσχέτισης για τα δεδομένα με κατάταξη, πρέπει να κάνετε τα εξής:
- Υπολογίστε τις τάξεις χρησιμοποιώντας τη συνάρτηση RANK.AVG, όπως εξηγείται σε αυτό το παράδειγμα.
- Επιλέξτε δύο στήλες με τους βαθμούς.
- Εισάγετε ένα διάγραμμα διασποράς XY. Για το σκοπό αυτό, κάντε κλικ στο κουμπί Scatter διάγραμμα στο εικονίδιο Ενσωματωμένο στην καρτέλα Συζητήσεις ομάδα.
- Προσθέστε μια γραμμή τάσης στο γράφημά σας. Ο γρηγορότερος τρόπος είναι να κάνετε κλικ στο κουμπί Στοιχεία διαγράμματος κουμπί>, Προσθήκη γραμμής τάσης... .
- Εμφάνιση της τιμής του τετραγώνου R στο διάγραμμα. Κάντε διπλό κλικ στη γραμμή τάσης για να ανοίξετε το παράθυρό της, μεταβείτε στο Επιλογές γραμμής τάσης και επιλέξτε την καρτέλα Εμφάνιση της τιμής του τετραγώνου R στο διάγραμμα κουτί.
- Δείξτε περισσότερα ψηφία στην τιμή R2 για μεγαλύτερη ακρίβεια.
Ως αποτέλεσμα, θα έχετε μια οπτική αναπαράσταση της σχέσης μεταξύ των βαθμίδων. Επιπλέον, θα έχετε την Συντελεστής προσδιορισμού (R2), η τετραγωνική ρίζα του οποίου είναι ο συντελεστής συσχέτισης Pearson (r). Επειδή όμως έχετε απεικονίσει τα δεδομένα με κατάταξη, αυτό το r του Pearson δεν είναι τίποτε άλλο από το rho του Spearman.
Σημείωση. Το R-τετράγωνο είναι πάντα θετικός αριθμός, επομένως ο συναγόμενος συντελεστής συσχέτισης Spearman θα είναι επίσης πάντα θετικός. Για να προσθέσετε το κατάλληλο πρόσημο, απλώς κοιτάξτε τη γραμμή στο γράφημα συσχέτισης - μια κλίση προς τα πάνω υποδηλώνει θετική συσχέτιση (πρόσημο συν) και μια κλίση προς τα κάτω υποδηλώνει αρνητική συσχέτιση (πρόσημο μείον).
Στην περίπτωσή μας, το R2 ισούται με 0,5739210285. Χρησιμοποιήστε τη συνάρτηση SQRT για να βρείτε την τετραγωνική ρίζα:
=SQRT(0,5739210285)
...και θα λάβετε τον ήδη γνωστό συντελεστή 0,75757575758.
Η καθοδική κλίση στο γράφημα παρουσιάζει αρνητική συσχέτιση, οπότε προσθέτουμε το μείον πρόσημο και λαμβάνουμε τον σωστό συντελεστή συσχέτισης Spearman -0,75757575758.
Με αυτόν τον τρόπο μπορείτε να υπολογίσετε τον συντελεστή συσχέτισης Spearman στο Excel. Για να δείτε από κοντά τα παραδείγματα που αναλύονται σε αυτό το σεμινάριο, μπορείτε να κατεβάσετε το βιβλίο εργασίας του δείγματος παρακάτω. Σας ευχαριστώ για την ανάγνωση και ελπίζω να σας δω στο blog μας την επόμενη εβδομάδα!
Βιβλίο ασκήσεων
Συσχέτιση Spearman Rank στο Excel (.xlsx αρχείο)