Korelacja Kendalla (tau)
Korelacja Kendalla to metoda statystyczna służąca do oceny związku między dwiema zmiennymi porządkowymi. Jest szczególnie przydatna w przypadku zmiennych jakościowych o uporządkowanych kategoriach, gdzie zależy nam na porównaniu rang.
Na czym polega?
Korelacja ta porównuje rangi obserwacji dla dwóch zmiennych, przy czym pary mogą być zgodne lub niezgodne:
- Zgodne: Jeśli dwie obserwacje są uporządkowane tak samo dla obu zmiennych, to para jest zgodna.
- Niezgodne: Jeśli dwie obserwacje mają odwrotne porządki w zmiennych, to para jest niezgodna.
Kiedy używać?
Metody tej używa się, gdy chcemy ocenić związek między zmiennymi porządkowymi lub gdy dane nie spełniają założeń wymaganych dla korelacji Pearsona.
Przykładowe obszary zastosowania:
- Badania społeczne: Związek między poziomem wykształcenia a satysfakcją zawodową.
- Psychologia: Analiza wyników testów w odniesieniu do klasyfikacji uczniów.
- Biologia: Zależność między zagrożeniem gatunku a jego populacją.
Wzór na analizę korelacji Kendalla
Jeśli posiadamy n obserwacji dwóch zmiennych X i Y, wzór na współczynnik korelacji Kendalla jest wyrażony jako:
\[ \tau = \frac{2 (C - D)}{n (n - 1)} \]
Gdzie:
- \( \tau \) - współczynnik korelacji Kendalla
- C - liczba par zgodnych
- D - liczba par niezgodnych
- n - liczba obserwacji
Objaśnienie wzoru
Analiza korelacji Kendalla polega na porównywaniu każdej pary obserwacji. Para jest zgodna, jeśli obserwacje obu zmiennych mają taką samą kolejność, zarówno rosnącą, jak i malejącą. Para jest niezgodna, gdy jedna zmienna w parze obserwacji rośnie, a druga maleje.
Procedura obliczeniowa
- Policz liczbę par zgodnych (C).
- Policz liczbę par niezgodnych (D).
- Podstaw wyniki do wzoru i oblicz wartość \( \tau \).
Przykład obliczenia analizy korelacji Kendalla
Rozważmy zestaw danych dotyczący liczby owoców i warzyw sprzedanych w ciągu jednego dnia w różnych sklepach:
Sklep | Owoce (X) | Warzywa (Y) |
---|---|---|
1 | 5 | 3 |
2 | 6 | 4 |
3 | 7 | 8 |
4 | 8 | 7 |
5 | 10 | 9 |
Obliczamy liczby par zgodnych (C) i niezgodnych (D) dla tych danych:
- Para Sklep 1 i Sklep 2: (5, 3) i (6, 4) - zgodna (C = 1)
- Para Sklep 1 i Sklep 3: (5, 3) i (7, 8) - zgodna (C = 2)
- Para Sklep 1 i Sklep 4: (5, 3) i (8, 7) - zgodna (C = 3)
- Para Sklep 1 i Sklep 5: (5, 3) i (10, 9) - zgodna (C = 4)
- Para Sklep 2 i Sklep 3: (6, 4) i (7, 8) - zgodna (C = 5)
- Para Sklep 2 i Sklep 4: (6, 4) i (8, 7) - zgodna (C = 6)
- Para Sklep 2 i Sklep 5: (6, 4) i (10, 9) - zgodna (C = 7)
- Para Sklep 3 i Sklep 4: (7, 8) i (8, 7) - niezgodna (D = 1)
- Para Sklep 3 i Sklep 5: (7, 8) i (10, 9) - zgodna (C = 8)
- Para Sklep 4 i Sklep 5: (8, 7) i (10, 9) - zgodna (C = 9)
Ostateczne obliczenie:
\[ C = 9, \quad D = 1, \quad n = 5 \]
\[ \tau = \frac{2 (9 - 1)}{5 \cdot (5 - 1)} = \frac{2 \cdot 8}{20} = \frac{16}{20} = 0.8 \]
Wynik \( \tau = 0.8 \) sugeruje silną dodatnią korelację między liczbą sprzedanych owoców i warzyw.
Analiza korelacji Kendalla wskazuje nam, że istnieje silny dodatni związek między sprzedażą owoców a warzyw. Stosowanie testu Kendalla pozwala na wyciąganie wniosków nawet w przypadku niezbyt dużych zbiorów danych, jak w powyższym przykładzie. Przedstawiony wzór i procedura obliczeniowa może być stosowana jako narzędzie do analizy wielu innych zestawów danych.
Bibliografia:
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/
Kendall M (1938) A new measure of rank correlation. Biometrika 30:81–89