Test Kruskala-Wallisa

Test Kruskala-Wallisa jest nieparametrycznym testem statystycznym, który służy do porównywania median więcej niż dwóch grup. Jest to rozszerzenie testu Manna-Whitneya i alternatywa dla jednoczynnikowej analizy wariancji (ANOVA), gdy założenia o normalności danych nie są spełnione.

Test Kruskala-Wallisa jest nieparametrycznym narzędziem statystycznym służącym do porównywania median w trzech lub więcej niezależnych grupach. Opracowany przez Williama Kruskala i Wally'ego Wallisa, test ten jest alternatywą dla analizy wariancji (ANOVA) w sytuacjach, gdy dane nie spełniają założeń normalności rozkładu.

Kiedy stosujemy test Kruskala-Wallisa?

Test Kruskala-Wallisa stosuje się, gdy chcemy porównać wyniki trzech lub więcej niezależnych grup. Jest to szczególnie przydatne, gdy dane są na poziomie porządkowym lub interwałowym, ale nie mają rozkładu normalnego. Test ten można wykorzystać w następujących sytuacjach:

gdy liczba obserwacji w grupach jest mała,
gdy dane mają rozkład nienormalny.

Jakie działania badawcze wykorzystują test Kruskala-Wallisa?

Test ten znajduje zastosowanie w różnych dziedzinach naukowych, takich jak:

psychologia - do analizy wyników testów w różnych grupach (np. różne terapie),
medycyna - do porównywania skuteczności różnych metod leczenia,
nauki przyrodnicze - do badania różnic w wynikach eksperymentów z różnych warunków.

Wzór na test Kruskala-Wallisa

Wzór na test Kruskala-Wallisa jest następujący:

$$ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) $$

Gdzie:

$ H $ - wartość testu Kruskala-Wallisa,
$ N $ - całkowita liczba wszystkich obserwacji,
$ k $ - liczba porównywanych grup,
$ R_i $ - suma rang w i-tej grupie,
$ n_i $ - liczba obserwacji w i-tej grupie.

Sens wzoru

Test Kruskala-Wallisa porównuje sumy rang w różnych grupach. Jeśli obserwacje w poszczególnych grupach są podobne, wartości rang w każdej grupie będą podobne, co zaowocuje niską wartością $ H $. Natomiast, jeśli różnice między grupami są znaczące, wartości rang będą się różniły między grupami, co zaowocuje wyższą wartością $ H $. Wartość $ H $ jest następnie porównywana z wartością z rozkładu chi-kwadrat, aby określić istotność statystyczną.

Przykład obliczenia testu Kruskala-Wallisa na danych owoców i warzyw

Załóżmy, że chcemy porównać trzy grupy:

Grupa A (jabłka): 1, 2, 3
Grupa B (banany): 4, 5, 6
Grupa C (marchewki): 7, 8, 9

Najpierw obliczamy rangi wszystkich obserwacji razem:

Obserwacja	Ranga
1	1
2	2
3	3
4	4
5	5
6	6
7	7
8	8
9	9

Następnie obliczamy sumy rang dla każdej grupy:

Grupa A: $ R_1 = 1 + 2 + 3 = 6 $
Grupa B: $ R_2 = 4 + 5 + 6 = 15 $
Grupa C: $ R_3 = 7 + 8 + 9 = 24 $

Podstawiamy te wartości do wzoru:

$$ H = \frac{12}{9 \cdot (9 + 1)} \left( \frac{6^2}{3} + \frac{15^2}{3} + \frac{24^2}{3} \right) - 3 \cdot (9 + 1) $$ $$ H = \frac{12}{90} \left( \frac{36}{3} + \frac{225}{3} + \frac{576}{3} \right) - 30 $$ $$ H = \frac{12}{90} ( 12 + 75 + 192 ) - 30 $$ $$ H = \frac{12}{90} \cdot 279 - 30 $$ $$ H = 3.72 - 30 $$ $$ H = -26.28 $$

Ze względu na to, że wynik $ H $ powinien być większy od zera, widać, że pojawił się błąd w obliczeniach. Spróbujmy ponownie policzyć, poprawiając obliczenia:

$$ H = \frac{12}{90} \left( 12 + 75 + 192 \right) - 30 $$ $$ H = \frac{12 \cdot 279}{90} - 30 $$ $$ H = \frac{3348}{90} - 30 $$ $$ H = 37.2 - 30 $$ $$ H = 7.2 $$

Poprawnie obliczona wartość $ H $ wynosi 7.2. Następnie trzeba porównać tę wartość z odpowiednią wartością z rozkładu chi-kwadrat przy odpowiednim poziomie istotności. Jeśli wartość $ H $ przekroczy tę wartość, możemy stwierdzić, że istnieją statystycznie istotne różnice między grupami.

Test Kruskala-Wallisa który tutaj opisaliśmy, stanowi więc potężne narzędzie do porównania median wielu grup, szczególnie gdy dane nie spełniają założeń normalności.

Bibliografia:

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/

Kruskal, W. H., & Wallis, W. A. (1952). Use of Ranks in One-Criterion Variance Analysis. Journal of the American Statistical Association, 47(260), 583–621. https://doi.org/10.2307/2280779