Analiza wariancji dla prób niezależnych

Analiza wariancji dla prób niezależnych (ANOVA - Analysis of Variance) jest statystyczną metodą służącą do porównywania średnich wśród dwóch lub więcej grup, w celu zbadania, czy istnieją istotne różnice między nimi. Metoda ta pozwala na dekompozycję całkowitej wariacji w danych na wariację między grupami oraz wariację wewnątrz grup.

Analiza wariancji dla prób niezależnych (ANOVA) to technika statystyczna, która pozwala na porównanie średnich wartości w dwóch lub więcej grupach niezależnych od siebie. Głównym celem tej analizy jest określenie, czy istnieją istotne różnice między średnimi wartościami tych grup.

Kiedy się go używa?

ANOVA dla prób niezależnych jest stosowana, gdy:

Chcemy porównać średnie wartości w dwóch lub więcej grupach, które są niezależne od siebie (np. różne grupy uczestników).
Interesują nas różnice w wynikach w kontekście różnych warunków, takich jak płeć, wiek, lub rodzaj terapii.
Spełnione są założenia dotyczące normalności rozkładu i homogeniczności wariancji w badanych grupach.

Zastosowania w badaniach naukowych

Analiza wariancji dla prób niezależnych znajduje zastosowanie w różnych dziedzinach, takich jak:

Psychologia: badanie wpływu różnych metod nauczania na wyniki uczniów w niezależnych grupach.
Medycyna: ocena skuteczności różnych leków poprzez porównanie wyników pacjentów w różnych grupach leczenia.
Marketing: analiza preferencji konsumentów w różnych segmentach rynku, np. porównanie reakcji na reklamy wśród różnych grup wiekowych.

Wzór na analizę wariancji dla prób niezależnych

Jednym z podstawowych wzorów używanych w analizie wariancji dla prób niezależnych jest:

\[ F = \frac{\frac{SSB}{df_{between}}}{\frac{SSW}{df_{within}}} \]

gdzie:

\(F\) - statystyka F
\(SSB\) (sum of squares between) - suma kwadratów między grupami
\(SSW\) (sum of squares within) - suma kwadratów wewnątrz grup
\(df_{between}\) - stopnie swobody dla wariancji między grupami (liczba grup minus 1)
\(df_{within}\) - stopnie swobody dla wariancji wewnątrz grup (całkowita liczba obserwacji minus liczba grup)

Etapy przeliczania wzoru

Krok 1: Obliczenie średnich grupowych

\[ \bar{X}_i = \frac{\sum_{j=1}^{n_i} X_{ij}}{n_i} \]

gdzie:

\(X_{ij}\) - wartość j-tej obserwacji w i-tej grupie
\(n_i\) - liczba obserwacji w i-tej grupie
\(\bar{X}_i\) - średnia i-tej grupy

Krok 2: Obliczenie średniej całkowitej

\[ \bar{X} = \frac{\sum_{i=1}^{k} \sum_{j=1}^{n_i} X_{ij}}{N} \]

gdzie:

\(k\) - liczba grup
\(N\) - całkowita liczba obserwacji
\(\bar{X}\) - średnia całkowita

Krok 3: Obliczenie SSB i SSW

\[ SSB = \sum_{i=1}^{k} n_i (\bar{X}_i - \bar{X})^2 \]

\[ SSW = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2 \]

Krok 4: Obliczenie df

\[ df_{between} = k - 1 \]

\[ df_{within} = N - k \]

Krok 5: Obliczenie wartości F

\[ F = \frac{\frac{SSB}{df_{between}}}{\frac{SSW}{df_{within}}} \]

Przykład obliczenia analizy wariancji dla prób niezależnych na owocach i warzywach

Załóżmy, że mamy trzy grupy: jabłka, banany i marchewki, i chcemy porównać ich średnią wagę.

Jabłka: 120g, 130g, 140g
Banany: 100g, 110g, 105g
Marchewki: 90g, 95g, 85g

1. Obliczenie średnich grupowych:

Średnie grupowe to odpowiednio:

\(\bar{X}_{jabłka} = \frac{120 + 130 + 140}{3} = 130g\)
\(\bar{X}_{banany} = \frac{100 + 110 + 105}{3} = 105g\)
\(\bar{X}_{marchewki} = \frac{90 + 95 + 85}{3} = 90g\)

2. Obliczenie średniej całkowitej:

\[ \bar{X} = \frac{120 + 130 + 140 + 100 + 110 + 105 + 90 + 95 + 85}{9} \approx 108.33g \]

3. Obliczenie SSB i SSW:

\[ SSB = 3 \left( (130 - 108.33)^2 + (105 - 108.33)^2 + (90 - 108.33)^2 \right) \approx 3 \left( 461.01 + 10.89 + 336.67 \right) = 2412.57 \]

\[ SSW = (120 - 130)^2 + (130 - 130)^2 + (140 - 130)^2 + (100 - 105)^2 + (110 - 105)^2 + (105 - 105)^2 + (90 - 90)^2 + (95 - 90)^2 + (85 - 90)^2 = 200 + 0 + 100 + 25 + 25 + 0 + 0 + 25 + 25 = 400 \]

4. Obliczenie df:

\[ df_{between} = 3 - 1 = 2 \]

\[ df_{within} = 9 - 3 = 6 \]

5. Obliczenie wartości F:

\[ F = \frac{\frac{SSB}{df_{between}}}{\frac{SSW}{df_{within}}} = \frac{\frac{2412.57}{2}}{\frac{400}{6}} = \frac{1206.285}{66.667} \approx 18.1 \]

Na tej podstawie możemy stwierdzić, że istnieje istotna różnica między średnimi wagami jabłek, bananów i marchewek na poziomie istotności, który należy wyznaczyć na podstawie odpowiednich wartości krytycznych dla testu F.

Bibliografia:

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/

Fisher RA. Studies in crop variation. I. An examination of the yield of dressed grain from Broadbalk. The Journal of Agricultural Science. 1921;11(2):107-135. doi:10.1017/S0021859600003750