Korelacja rang - Rank correlation

W statystykach , A korelacja ranga jest jedną z kilku statystyk, które zmierzyć porządkowej asocjacji -The zależność pomiędzy ocenami różnych porządkowych zmiennych lub różnych rankingach tej samej zmiennej, gdzie „rankingu” jest przypisanie etykiet zamawiania „pierwszy”, " drugi”, „trzeci” itd. na różne obserwacje danej zmiennej. Współczynnik korelacji rang mierzy stopień podobieństwa między dwiema ocenami, i mogą być wykorzystane do oceny znaczenia relacji między nimi. Na przykład dwie popularne nieparametryczne metody istotności, które wykorzystują korelację rang, to test U Manna–Whitneya i test rang ze znakiem Wilcoxona .

Kontekst

Jeśli, na przykład, jedna zmienna jest tożsamością szkolnego programu koszykówki, a inna zmienna jest tożsamością szkolnego programu piłkarskiego, można przetestować związek między rankingami w sondażach dwóch typów programów: czy uczelnie z wyższym rankingowy program koszykówki ma zwykle wyższą rangę programu piłkarskiego? Współczynnik korelacji rang może zmierzyć tę relację, a miara istotności współczynnika korelacji rang może pokazać, czy mierzona relacja jest na tyle mała, że ​​prawdopodobnie jest zbiegiem okoliczności.

Jeśli istnieje tylko jedna zmienna, tożsamość programu uniwersyteckiego futbolu, ale podlega on dwóm różnym rankingom ankiet (powiedzmy, jednemu przez trenerów, a drugiemu przez dziennikarzy sportowych), wówczas podobieństwo dwóch różnych rankingów w sondażach można zmierzyć za pomocą współczynnik korelacji rang.

Jako inny przykład, w tabeli kontyngencji z niskimi dochodami , średnimi dochodami i wysokimi dochodami w wierszu zmienna i poziom wykształcenia — brak szkoły średniej , liceum , uniwersytet — zmienna w kolumnie), korelacja rang mierzy związek między poziom edukacji.

Współczynniki korelacji

Niektóre z bardziej popularnych statystyk korelacji rang obejmują

  1. ρ . Spearmana
  2. τ . Kendalla
  3. γ . Goodmana i Kruskala
  4. D . Somersa

Rosnący współczynnik korelacji rang oznacza rosnącą zgodność między rankingami. Współczynnik mieści się w przedziale [-1, 1] i przyjmuje wartość:

  • 1 jeśli zgodność między dwoma rankingami jest doskonała; oba rankingi są takie same.
  • 0 jeśli rankingi są całkowicie niezależne.
  • -1 jeśli niezgodność między dwoma rankingami jest doskonała; jeden ranking jest odwrotnością drugiego.

W następstwie Diaconis (1988) , A rankingu mogą być postrzegane jako permutacji z zestawu przedmiotów. W ten sposób możemy spojrzeć na obserwowane rankingi jako dane uzyskane, gdy przestrzeń próbki jest (utożsamiana z) grupą symetryczną . Następnie możemy wprowadzić metrykę , zmieniając grupę symetryczną w przestrzeń metryczną . Różne metryki będą odpowiadać różnym korelacjom rang.

Ogólny współczynnik korelacji

Kendall 1970 wykazał, że jego (tau) i Spearmana (rho) są szczególnymi przypadkami ogólnego współczynnika korelacji.

Załóżmy, że mamy zbiór obiektów, które są rozważane w odniesieniu do dwóch właściwości, reprezentowanych przez i , tworzących zbiory wartości i . Każdej parze indywiduów powiedzmy, że -ty i -ty przypisujemy -punktację, oznaczoną przez , oraz -punktację, oznaczoną przez . Jedynym wymogiem dla tych funkcji jest to, aby były antysymetryczne, więc i . (Zauważ, że w szczególności jeśli .) Wtedy uogólniony współczynnik korelacji jest definiowany jako

Równoważnie, jeśli wszystkie współczynniki są zebrane w macierze i , z i , to

gdzie jest wewnętrzny produkt Frobeniusa i normą Frobeniusa . W szczególności ogólny współczynnik korelacji jest cosinusem kąta między macierzami i .

Kendall jako szczególny przypadek

Jeżeli , są rangami -członka według odpowiednio -jakości i -jakości, to możemy zdefiniować

Suma to liczba zgodnych par minus liczba niezgodnych par (patrz współczynnik korelacji rang tau Kendalla ). Suma to tylko liczba terminów , jaka jest . Tak więc w tym przypadku

Spearman jako szczególny przypadek

Jeśli , są rangami -członka zgodnie z odpowiednio i -jakością, możemy po prostu zdefiniować

Sumy i są równe, ponieważ oba i wahają się od do . Potem będzie:

teraz

Mamy też

i stąd

będąc sumą kwadratów pierwszych naturalnych równa się . Zatem ostatnie równanie redukuje się do

Dalej

a zatem, podstawiając do oryginalnej formuły te wyniki, otrzymujemy

gdzie jest różnica między rangami.

który jest dokładnie współczynnikiem korelacji rang Spearmana .

Korelacja rang-biserial

Gene Glass (1965) zauważył, że rang-biserial może pochodzić od Spearmana . „Można wyprowadzić współczynnik zdefiniowany na X, zmiennej dychotomicznej i Y, zmiennej rankingowej, która szacuje rho Spearmana między X i Y w ten sam sposób, w jaki biserial r szacuje r Pearsona między dwiema normalnymi zmiennymi” (s. 91). Korelacja rang-dwuserial została wprowadzona dziewięć lat wcześniej przez Edwarda Curetona (1956) jako miara korelacji rang, gdy rang znajduje się w dwóch grupach.

Formuła prostej różnicy Kerby

Dave Kerby (2014) zalecił dwuserial rang jako środek wprowadzający uczniów w korelację rang, ponieważ ogólną logikę można wyjaśnić na poziomie wstępnym. Ranga dwuserialowa to korelacja stosowana z testem U Manna–Whitneya , metodą często omawianą na kursach wprowadzających w college'u na temat statystyki. Dane do tego testu składają się z dwóch grup; a dla każdego członka grup wynik jest oceniany jako całość badania.

Kerby wykazał, że tę korelację rang można wyrazić za pomocą dwóch pojęć: procent danych, które wspierają postawioną hipotezę, oraz procent danych, które jej nie potwierdzają. Prosta formuła różnicy Kerby'ego stwierdza, że ​​korelację rang można wyrazić jako różnicę między proporcją korzystnych dowodów ( f ) minus proporcją niekorzystnych dowodów ( u ).

Przykład i interpretacja

Aby zilustrować obliczenia, załóżmy, że trener trenuje biegaczy długodystansowych przez miesiąc przy użyciu dwóch metod. Grupa A ma 5 biegaczy, a grupa B ma 4 biegaczy. Postawiono hipotezę, że metoda A daje szybszych biegaczy. W wyścigu oceniającym wyniki biegacze z grupy A rzeczywiście biegają szybciej, zajmując następujące miejsca: 1, 2, 3, 4 i 6. Wolniejsi biegacze z grupy B mają zatem miejsca 5, 7, 8, i 9.

Analiza prowadzona jest na parach, określonych jako członek jednej grupy w porównaniu z członkiem drugiej grupy. Na przykład najszybszy biegacz w badaniu jest członkiem czterech par: (1,5), (1,7), (1,8) i (1,9). Wszystkie cztery z tych par potwierdzają hipotezę, ponieważ w każdej parze biegacz z grupy A jest szybszy od biegacza z grupy B. W sumie jest 20 par, a 19 par potwierdza hipotezę. Jedyną parą, która nie potwierdza hipotezy, są dwaj biegacze z miejscami 5 i 6, ponieważ w tej parze szybszy czas miał biegacz z grupy B. Według wzoru na prostą różnicę Kerby'ego 95% danych potwierdza hipotezę (19 z 20 par), a 5% nie wspiera (1 z 20 par), więc korelacja rang wynosi r = 0,95 - 0,05 = 0,90 .

Maksymalna wartość korelacji wynosi r = 1, co oznacza, że ​​100% par faworyzuje hipotezę. Korelacja r = 0 wskazuje, że połowa par popiera hipotezę, a połowa nie; innymi słowy, próby nie różnią się rangami, więc nie ma dowodów na to, że pochodzą z dwóch różnych populacji. Można powiedzieć, że wielkość efektu r = 0 nie opisuje związku między członkostwem w grupie a rangami członków.

Bibliografia

Dalsza lektura

Linki zewnętrzne