Korelacja rang - Rank correlation

W statystykach , A korelacja ranga jest jedną z kilku statystyk, które zmierzyć porządkowej asocjacji -The zależność pomiędzy ocenami różnych porządkowych zmiennych lub różnych rankingach tej samej zmiennej, gdzie „rankingu” jest przypisanie etykiet zamawiania „pierwszy”, " drugi”, „trzeci” itd. na różne obserwacje danej zmiennej. Współczynnik korelacji rang mierzy stopień podobieństwa między dwiema ocenami, i mogą być wykorzystane do oceny znaczenia relacji między nimi. Na przykład dwie popularne nieparametryczne metody istotności, które wykorzystują korelację rang, to test U Manna–Whitneya i test rang ze znakiem Wilcoxona .

Kontekst

Jeśli, na przykład, jedna zmienna jest tożsamością szkolnego programu koszykówki, a inna zmienna jest tożsamością szkolnego programu piłkarskiego, można przetestować związek między rankingami w sondażach dwóch typów programów: czy uczelnie z wyższym rankingowy program koszykówki ma zwykle wyższą rangę programu piłkarskiego? Współczynnik korelacji rang może zmierzyć tę relację, a miara istotności współczynnika korelacji rang może pokazać, czy mierzona relacja jest na tyle mała, że prawdopodobnie jest zbiegiem okoliczności.

Jeśli istnieje tylko jedna zmienna, tożsamość programu uniwersyteckiego futbolu, ale podlega on dwóm różnym rankingom ankiet (powiedzmy, jednemu przez trenerów, a drugiemu przez dziennikarzy sportowych), wówczas podobieństwo dwóch różnych rankingów w sondażach można zmierzyć za pomocą współczynnik korelacji rang.

Jako inny przykład, w tabeli kontyngencji z niskimi dochodami , średnimi dochodami i wysokimi dochodami w wierszu zmienna i poziom wykształcenia — brak szkoły średniej , liceum , uniwersytet — zmienna w kolumnie), korelacja rang mierzy związek między poziom edukacji.

Współczynniki korelacji

Niektóre z bardziej popularnych statystyk korelacji rang obejmują

Rosnący współczynnik korelacji rang oznacza rosnącą zgodność między rankingami. Współczynnik mieści się w przedziale [-1, 1] i przyjmuje wartość:

1 jeśli zgodność między dwoma rankingami jest doskonała; oba rankingi są takie same.
0 jeśli rankingi są całkowicie niezależne.
-1 jeśli niezgodność między dwoma rankingami jest doskonała; jeden ranking jest odwrotnością drugiego.

W następstwie Diaconis (1988) , A rankingu mogą być postrzegane jako permutacji z zestawu przedmiotów. W ten sposób możemy spojrzeć na obserwowane rankingi jako dane uzyskane, gdy przestrzeń próbki jest (utożsamiana z) grupą symetryczną . Następnie możemy wprowadzić metrykę , zmieniając grupę symetryczną w przestrzeń metryczną . Różne metryki będą odpowiadać różnym korelacjom rang.

Ogólny współczynnik korelacji

Kendall 1970 wykazał, że jego (tau) i Spearmana (rho) są szczególnymi przypadkami ogólnego współczynnika korelacji. ${\ Displaystyle \ tau}$ ${\ Displaystyle \ rho}$

Załóżmy, że mamy zbiór obiektów, które są rozważane w odniesieniu do dwóch właściwości, reprezentowanych przez i , tworzących zbiory wartości i . Każdej parze indywiduów powiedzmy, że -ty i -ty przypisujemy -punktację, oznaczoną przez , oraz -punktację, oznaczoną przez . Jedynym wymogiem dla tych funkcji jest to, aby były antysymetryczne, więc i . (Zauważ, że w szczególności jeśli .) Wtedy uogólniony współczynnik korelacji jest definiowany jako ${\ Displaystyle n}$ $x$ $y$ ${\ Displaystyle \ {x_ {i} \} _ {i \ leq n}}$ ${\ Displaystyle \ {y_ {i} \} _ {i \ leq n}}$ $i$ ${\ Displaystyle j}$ $x$ $a_{ij}$ $y$ $b_{ij}$ $a_{ij}=-a_{ji}$ $b_{ij}=-b_{ji}$ ${\ Displaystyle a_ {ij} = b_ {ij} = 0}$ $i=j$ ${\ Displaystyle \ Gamma}$

{\ Displaystyle \ Gamma = {\ Frac {\ suma _ {i, j = 1} ^ {n} a_ {ij} b_ {ij}} {\ sqrt {\ suma _ {i, j = 1} ^ {n }a_{ij}^{2}\sum _{i,j=1}^{n}b_{ij}^{2}}}}}

Równoważnie, jeśli wszystkie współczynniki są zebrane w macierze i , z i , to ${\ Displaystyle A = (a_ {ij})}$ ${\ Displaystyle B = (b_ {ij})}$ ${\ Displaystyle A ^ {\ textsf {T}} = - A}$ ${\ Displaystyle B ^ {\ textsf {T}} = - B}$

{\ Displaystyle \ Gamma = {\ Frac {\ langle A, B \ rangle _ {\ rm {f}}} {\ | A \ | _ {\ rm {f}} \ | B \ | _ {\ rm { FA}}}}}

gdzie jest wewnętrzny produkt Frobeniusa i normą Frobeniusa . W szczególności ogólny współczynnik korelacji jest cosinusem kąta między macierzami i . ${\ Displaystyle \ langle A, B \ rangle _ {\ rm {F}}}$ ${\ Displaystyle \ | A \ | _ {\ rm {F}} = {\ sqrt {\ langle A, A \ rangle _ {\ rm {F}}}}}$ ${\ Displaystyle A}$ ${\ Displaystyle B}$

Kendall jako szczególny przypadek ${\ Displaystyle \ tau}$

Jeżeli , są rangami -członka według odpowiednio -jakości i -jakości, to możemy zdefiniować $r_{i}$ $s_{i}$ $i$ $x$ $y$

{\ Displaystyle a_ {ij} = \ operatorname {sgn} (r_ {j}-r_ {i}), \ quad b_ {ij} = \ operatorname {sgn} (s_ {j}-s_ {i}).}

Suma to liczba zgodnych par minus liczba niezgodnych par (patrz współczynnik korelacji rang tau Kendalla ). Suma to tylko liczba terminów , jaka jest . Tak więc w tym przypadku ${\ Displaystyle \ suma a_ {ij} b_ {ij}}$ ${\ Displaystyle \ suma a_ {ij} ^ {2}}$ $n(n-1)/2$ $a_{ij}$ ${\ Displaystyle \ suma b_ {ij} ^ {2}}$

{\ Displaystyle \ Gamma = {\ Frac {2 \, (({\ tekst {liczba par zgodnych}}) - ({\ tekst {liczba par niezgodnych}}))} {n (n-1)}} ={\text{Kendalla }}\tau }

Spearman jako szczególny przypadek ${\ Displaystyle \ rho}$

Jeśli , są rangami -członka zgodnie z odpowiednio i -jakością, możemy po prostu zdefiniować $r_{i}$ $s_{i}$ $i$ $x$ $y$

a_{ij}=r_{j}-r_{i}

b_{ij}=s_{j}-s_{i}

Sumy i są równe, ponieważ oba i wahają się od do . Potem będzie: ${\ Displaystyle \ suma a_ {ij} ^ {2}}$ ${\ Displaystyle \ suma b_ {ij} ^ {2}}$ $r_{i}$ $s_{i}$ ${\ Displaystyle 1}$ ${\ Displaystyle n}$

{\ Displaystyle \ Gamma = {\ Frac {\ suma (r_ {j}-r_ {i}) (s_ {j}-s_ {i})} {\ suma (r_ {j} -r_ {i}) ^ {2}}}}

teraz

{\ Displaystyle {\ zacząć {wyrównany} \ suma _ {i, j = 1} ^ {n} (r_ {j} -r_ {i}) (s_ {j} -s_ {i}) i = \ suma _ {i=1}^{n}\sum _{j=1}^{n}r_{i}s_{i}+\sum _{i=1}^{n}\sum _{j=1} ^{n}r_{j}s_{j}&-\sum _{i=1}^{n}\sum _{j=1}^{n}r_{i}s_{j}-\sum _ {i=1}^{n}\sum _{j=1}^{n}r_{j}s_{i}\\&=2n\sum _{i=1}^{n}r_{i} s_{i}&-2\sum _{i=1}^{n}r_{i}\sum _{j=1}^{n}s_{j}\\&=2n\sum _{i= 1}^{n}r_{i}s_{i}&-2({\frac {1}{2}}n(n+1))^{2}\\&=2n\sum _{i= 1}^{n}r_{i}s_{i}-{\frac {1}{2}}n^{2}(n+1)^{2}\\\end{wyrównany}}}

Mamy też

{\ Displaystyle S = \ suma _ {i = 1} ^ {n} (r_ {i}-s_ {i}) ^ {2} = 2 \ suma r_ {i} ^ {2} -2 \ suma r_ { ja}s_{i}}

i stąd

{\ Displaystyle \ suma (r_ {j} -r_ {i}) (s_ {j} - s_ {i}) = 2n \ suma r_ {i} ^ {2} - {\ Frac {1} {2}} n^{2}(n+1)^{2}-nS}

${\ Displaystyle \ suma r_ {i} ^ {2}}$ będąc sumą kwadratów pierwszych naturalnych równa się . Zatem ostatnie równanie redukuje się do ${\ Displaystyle n}$ ${\ Displaystyle {\ Frac {1} {6}} n (n + 1) (2n + 1)}$

{\ Displaystyle \ suma (r_ {j}-r_ {i}) (s_ {j}-s_ {i}) = {\ Frac {1} {6}} n ^ {2} (n ^ {2}- 1)-nS}

Dalej

{\ Displaystyle \ suma (r_ {j} -r_ {i}) ^ {2} = 2n \ suma r_ {i} ^ {2} -2 \ suma r_ {i} r_ {j}}

{\ Displaystyle = 2n \ suma r_ {i} ^ {2}-2 (\ suma r_ {i}) ^ {2} = {\ Frac {1} {6}} n ^ {2} (n ^ {2 }-1)}

a zatem, podstawiając do oryginalnej formuły te wyniki, otrzymujemy

{\ Displaystyle \ Gamma _ {R} = 1- {\ Frac {6 \ suma d_ {i} ^ {2}} {n ^ {3}-n}}}

gdzie jest różnica między rangami. $d_{i}=r_{i}-s_{i}$

który jest dokładnie współczynnikiem korelacji rang Spearmana . ${\ Displaystyle \ rho}$

Korelacja rang-biserial

Gene Glass (1965) zauważył, że rang-biserial może pochodzić od Spearmana . „Można wyprowadzić współczynnik zdefiniowany na X, zmiennej dychotomicznej i Y, zmiennej rankingowej, która szacuje rho Spearmana między X i Y w ten sam sposób, w jaki biserial r szacuje r Pearsona między dwiema normalnymi zmiennymi” (s. 91). Korelacja rang-dwuserial została wprowadzona dziewięć lat wcześniej przez Edwarda Curetona (1956) jako miara korelacji rang, gdy rang znajduje się w dwóch grupach. ${\ Displaystyle \ rho}$

Formuła prostej różnicy Kerby

Dave Kerby (2014) zalecił dwuserial rang jako środek wprowadzający uczniów w korelację rang, ponieważ ogólną logikę można wyjaśnić na poziomie wstępnym. Ranga dwuserialowa to korelacja stosowana z testem U Manna–Whitneya , metodą często omawianą na kursach wprowadzających w college'u na temat statystyki. Dane do tego testu składają się z dwóch grup; a dla każdego członka grup wynik jest oceniany jako całość badania.

Kerby wykazał, że tę korelację rang można wyrazić za pomocą dwóch pojęć: procent danych, które wspierają postawioną hipotezę, oraz procent danych, które jej nie potwierdzają. Prosta formuła różnicy Kerby'ego stwierdza, że korelację rang można wyrazić jako różnicę między proporcją korzystnych dowodów ( f ) minus proporcją niekorzystnych dowodów ( u ).

r=fu

Przykład i interpretacja

Aby zilustrować obliczenia, załóżmy, że trener trenuje biegaczy długodystansowych przez miesiąc przy użyciu dwóch metod. Grupa A ma 5 biegaczy, a grupa B ma 4 biegaczy. Postawiono hipotezę, że metoda A daje szybszych biegaczy. W wyścigu oceniającym wyniki biegacze z grupy A rzeczywiście biegają szybciej, zajmując następujące miejsca: 1, 2, 3, 4 i 6. Wolniejsi biegacze z grupy B mają zatem miejsca 5, 7, 8, i 9.

Analiza prowadzona jest na parach, określonych jako członek jednej grupy w porównaniu z członkiem drugiej grupy. Na przykład najszybszy biegacz w badaniu jest członkiem czterech par: (1,5), (1,7), (1,8) i (1,9). Wszystkie cztery z tych par potwierdzają hipotezę, ponieważ w każdej parze biegacz z grupy A jest szybszy od biegacza z grupy B. W sumie jest 20 par, a 19 par potwierdza hipotezę. Jedyną parą, która nie potwierdza hipotezy, są dwaj biegacze z miejscami 5 i 6, ponieważ w tej parze szybszy czas miał biegacz z grupy B. Według wzoru na prostą różnicę Kerby'ego 95% danych potwierdza hipotezę (19 z 20 par), a 5% nie wspiera (1 z 20 par), więc korelacja rang wynosi r = 0,95 - 0,05 = 0,90 .

Maksymalna wartość korelacji wynosi r = 1, co oznacza, że 100% par faworyzuje hipotezę. Korelacja r = 0 wskazuje, że połowa par popiera hipotezę, a połowa nie; innymi słowy, próby nie różnią się rangami, więc nie ma dowodów na to, że pochodzą z dwóch różnych populacji. Można powiedzieć, że wielkość efektu r = 0 nie opisuje związku między członkostwem w grupie a rangami członków.

Bibliografia

Dalsza lektura

Cureton, Edward E. (1956). „Ranga-biserial korelacja”. Psychometrika . 21 (3): 287–290. doi : 10.1007/BF02289138 .
Everitt, BS (2002), The Cambridge Dictionary of Statistics , Cambridge: Cambridge University Press, ISBN 0-521-81099-X
Diaconis, P. (1988), Group Representations in Probability and Statistics , Lecture Notes-Monograph Series, Hayward, CA: Institute of Mathematical Statistics, ISBN 0-940600-14-5
Szkło, Gene V. (1965). „Rankingowa zmienna analogowa korelacji biserii: implikacje dla analizy pozycji skrótów”. Dziennik Pomiarów Edukacyjnych . 2 (1): 91–95. doi : 10.1111/j.1745-3984.1965.tb00396.x .
Kendall, MG (1970), Metody korelacji rang , Londyn: Griffin, ISBN 0-85264-199-0
Kerby, Dave S. (2014). „Prosta formuła różnicy: podejście do nauczania korelacji nieparametrycznej” . Kompleksowa psychologia . 3 (1). doi : 10.2466/11.IT.3.1 .

Linki zewnętrzne

Krótki przewodnik autorstwa psychologa eksperymentalnego Karla L. Weunscha - Nieparametryczne wielkości efektów (Copyright 2015, Karl L. Weunsch)

Languages

In other projects

Korelacja rang - Rank correlation

Zawartość

Kontekst

Współczynniki korelacji

Ogólny współczynnik korelacji

Kendall jako szczególny przypadek ${\ Displaystyle \ tau}$

Spearman jako szczególny przypadek ${\ Displaystyle \ rho}$

Korelacja rang-biserial

Formuła prostej różnicy Kerby

Przykład i interpretacja

Bibliografia

Dalsza lektura

Linki zewnętrzne

Languages

In other projects

Korelacja rang - Rank correlation

Kontekst

Współczynniki korelacji

Ogólny współczynnik korelacji

Kendall jako szczególny przypadek τ {\ Displaystyle \ tau}

Spearman jako szczególny przypadek ρ {\ Displaystyle \ rho}

Korelacja rang-biserial

Formuła prostej różnicy Kerby

Przykład i interpretacja

Bibliografia

Dalsza lektura

Linki zewnętrzne

Kendall jako szczególny przypadek ${\ Displaystyle \ tau}$

Spearman jako szczególny przypadek ${\ Displaystyle \ rho}$