Korelacja rang - Rank correlation
W statystykach , A korelacja ranga jest jedną z kilku statystyk, które zmierzyć porządkowej asocjacji -The zależność pomiędzy ocenami różnych porządkowych zmiennych lub różnych rankingach tej samej zmiennej, gdzie „rankingu” jest przypisanie etykiet zamawiania „pierwszy”, " drugi”, „trzeci” itd. na różne obserwacje danej zmiennej. Współczynnik korelacji rang mierzy stopień podobieństwa między dwiema ocenami, i mogą być wykorzystane do oceny znaczenia relacji między nimi. Na przykład dwie popularne nieparametryczne metody istotności, które wykorzystują korelację rang, to test U Manna–Whitneya i test rang ze znakiem Wilcoxona .
Kontekst
Jeśli, na przykład, jedna zmienna jest tożsamością szkolnego programu koszykówki, a inna zmienna jest tożsamością szkolnego programu piłkarskiego, można przetestować związek między rankingami w sondażach dwóch typów programów: czy uczelnie z wyższym rankingowy program koszykówki ma zwykle wyższą rangę programu piłkarskiego? Współczynnik korelacji rang może zmierzyć tę relację, a miara istotności współczynnika korelacji rang może pokazać, czy mierzona relacja jest na tyle mała, że prawdopodobnie jest zbiegiem okoliczności.
Jeśli istnieje tylko jedna zmienna, tożsamość programu uniwersyteckiego futbolu, ale podlega on dwóm różnym rankingom ankiet (powiedzmy, jednemu przez trenerów, a drugiemu przez dziennikarzy sportowych), wówczas podobieństwo dwóch różnych rankingów w sondażach można zmierzyć za pomocą współczynnik korelacji rang.
Jako inny przykład, w tabeli kontyngencji z niskimi dochodami , średnimi dochodami i wysokimi dochodami w wierszu zmienna i poziom wykształcenia — brak szkoły średniej , liceum , uniwersytet — zmienna w kolumnie), korelacja rang mierzy związek między poziom edukacji.
Współczynniki korelacji
Niektóre z bardziej popularnych statystyk korelacji rang obejmują
Rosnący współczynnik korelacji rang oznacza rosnącą zgodność między rankingami. Współczynnik mieści się w przedziale [-1, 1] i przyjmuje wartość:
- 1 jeśli zgodność między dwoma rankingami jest doskonała; oba rankingi są takie same.
- 0 jeśli rankingi są całkowicie niezależne.
- -1 jeśli niezgodność między dwoma rankingami jest doskonała; jeden ranking jest odwrotnością drugiego.
W następstwie Diaconis (1988) , A rankingu mogą być postrzegane jako permutacji z zestawu przedmiotów. W ten sposób możemy spojrzeć na obserwowane rankingi jako dane uzyskane, gdy przestrzeń próbki jest (utożsamiana z) grupą symetryczną . Następnie możemy wprowadzić metrykę , zmieniając grupę symetryczną w przestrzeń metryczną . Różne metryki będą odpowiadać różnym korelacjom rang.
Ogólny współczynnik korelacji
Kendall 1970 wykazał, że jego (tau) i Spearmana (rho) są szczególnymi przypadkami ogólnego współczynnika korelacji.
Załóżmy, że mamy zbiór obiektów, które są rozważane w odniesieniu do dwóch właściwości, reprezentowanych przez i , tworzących zbiory wartości i . Każdej parze indywiduów powiedzmy, że -ty i -ty przypisujemy -punktację, oznaczoną przez , oraz -punktację, oznaczoną przez . Jedynym wymogiem dla tych funkcji jest to, aby były antysymetryczne, więc i . (Zauważ, że w szczególności jeśli .) Wtedy uogólniony współczynnik korelacji jest definiowany jako
Równoważnie, jeśli wszystkie współczynniki są zebrane w macierze i , z i , to
gdzie jest wewnętrzny produkt Frobeniusa i normą Frobeniusa . W szczególności ogólny współczynnik korelacji jest cosinusem kąta między macierzami i .
Kendall jako szczególny przypadek
Jeżeli , są rangami -członka według odpowiednio -jakości i -jakości, to możemy zdefiniować
Suma to liczba zgodnych par minus liczba niezgodnych par (patrz współczynnik korelacji rang tau Kendalla ). Suma to tylko liczba terminów , jaka jest . Tak więc w tym przypadku
Spearman jako szczególny przypadek
Jeśli , są rangami -członka zgodnie z odpowiednio i -jakością, możemy po prostu zdefiniować
Sumy i są równe, ponieważ oba i wahają się od do . Potem będzie:
teraz
Mamy też
i stąd
będąc sumą kwadratów pierwszych naturalnych równa się . Zatem ostatnie równanie redukuje się do
Dalej
a zatem, podstawiając do oryginalnej formuły te wyniki, otrzymujemy
gdzie jest różnica między rangami.
który jest dokładnie współczynnikiem korelacji rang Spearmana .
Korelacja rang-biserial
Gene Glass (1965) zauważył, że rang-biserial może pochodzić od Spearmana . „Można wyprowadzić współczynnik zdefiniowany na X, zmiennej dychotomicznej i Y, zmiennej rankingowej, która szacuje rho Spearmana między X i Y w ten sam sposób, w jaki biserial r szacuje r Pearsona między dwiema normalnymi zmiennymi” (s. 91). Korelacja rang-dwuserial została wprowadzona dziewięć lat wcześniej przez Edwarda Curetona (1956) jako miara korelacji rang, gdy rang znajduje się w dwóch grupach.
Formuła prostej różnicy Kerby
Dave Kerby (2014) zalecił dwuserial rang jako środek wprowadzający uczniów w korelację rang, ponieważ ogólną logikę można wyjaśnić na poziomie wstępnym. Ranga dwuserialowa to korelacja stosowana z testem U Manna–Whitneya , metodą często omawianą na kursach wprowadzających w college'u na temat statystyki. Dane do tego testu składają się z dwóch grup; a dla każdego członka grup wynik jest oceniany jako całość badania.
Kerby wykazał, że tę korelację rang można wyrazić za pomocą dwóch pojęć: procent danych, które wspierają postawioną hipotezę, oraz procent danych, które jej nie potwierdzają. Prosta formuła różnicy Kerby'ego stwierdza, że korelację rang można wyrazić jako różnicę między proporcją korzystnych dowodów ( f ) minus proporcją niekorzystnych dowodów ( u ).
Przykład i interpretacja
Aby zilustrować obliczenia, załóżmy, że trener trenuje biegaczy długodystansowych przez miesiąc przy użyciu dwóch metod. Grupa A ma 5 biegaczy, a grupa B ma 4 biegaczy. Postawiono hipotezę, że metoda A daje szybszych biegaczy. W wyścigu oceniającym wyniki biegacze z grupy A rzeczywiście biegają szybciej, zajmując następujące miejsca: 1, 2, 3, 4 i 6. Wolniejsi biegacze z grupy B mają zatem miejsca 5, 7, 8, i 9.
Analiza prowadzona jest na parach, określonych jako członek jednej grupy w porównaniu z członkiem drugiej grupy. Na przykład najszybszy biegacz w badaniu jest członkiem czterech par: (1,5), (1,7), (1,8) i (1,9). Wszystkie cztery z tych par potwierdzają hipotezę, ponieważ w każdej parze biegacz z grupy A jest szybszy od biegacza z grupy B. W sumie jest 20 par, a 19 par potwierdza hipotezę. Jedyną parą, która nie potwierdza hipotezy, są dwaj biegacze z miejscami 5 i 6, ponieważ w tej parze szybszy czas miał biegacz z grupy B. Według wzoru na prostą różnicę Kerby'ego 95% danych potwierdza hipotezę (19 z 20 par), a 5% nie wspiera (1 z 20 par), więc korelacja rang wynosi r = 0,95 - 0,05 = 0,90 .
Maksymalna wartość korelacji wynosi r = 1, co oznacza, że 100% par faworyzuje hipotezę. Korelacja r = 0 wskazuje, że połowa par popiera hipotezę, a połowa nie; innymi słowy, próby nie różnią się rangami, więc nie ma dowodów na to, że pochodzą z dwóch różnych populacji. Można powiedzieć, że wielkość efektu r = 0 nie opisuje związku między członkostwem w grupie a rangami członków.
Bibliografia
Dalsza lektura
- Cureton, Edward E. (1956). „Ranga-biserial korelacja”. Psychometrika . 21 (3): 287–290. doi : 10.1007/BF02289138 .
- Everitt, BS (2002), The Cambridge Dictionary of Statistics , Cambridge: Cambridge University Press, ISBN 0-521-81099-X
- Diaconis, P. (1988), Group Representations in Probability and Statistics , Lecture Notes-Monograph Series, Hayward, CA: Institute of Mathematical Statistics, ISBN 0-940600-14-5
- Szkło, Gene V. (1965). „Rankingowa zmienna analogowa korelacji biserii: implikacje dla analizy pozycji skrótów”. Dziennik Pomiarów Edukacyjnych . 2 (1): 91–95. doi : 10.1111/j.1745-3984.1965.tb00396.x .
- Kendall, MG (1970), Metody korelacji rang , Londyn: Griffin, ISBN 0-85264-199-0
- Kerby, Dave S. (2014). „Prosta formuła różnicy: podejście do nauczania korelacji nieparametrycznej” . Kompleksowa psychologia . 3 (1). doi : 10.2466/11.IT.3.1 .
Linki zewnętrzne
- Krótki przewodnik autorstwa psychologa eksperymentalnego Karla L. Weunscha - Nieparametryczne wielkości efektów (Copyright 2015, Karl L. Weunsch)