Dwuczynnikowa analiza wariancji (ANOVA)

Co to jest?

Dwuczynnikowa analiza wariancji (ANOVA) jest techniką statystyczną używaną do analizy wpływu dwóch zmiennych niezależnych (czynników) na jedną zmienną zależną. Dzięki niej możemy ocenić, czy różnice w wynikach pomiędzy grupami są istotne statystycznie.

Kiedy stosować ANOVA dwuczynnikową?

Stosujemy ją, gdy:

Posiadamy dwie zmienne niezależne (np. płeć i rodzaj diety).
Chcemy zbadać nie tylko główne efekty, ale także interakcje pomiędzy tymi czynnikami.
Nasze dane są zebrane w sposób losowy i grupy są niezależne.

Działania badawcze i dziedziny zastosowania

Dwuczynnikowa ANOVA jest szeroko stosowana w różnych dziedzinach nauki. Oto kilka przykładów:

Psychologia: Badanie wpływu różnych terapii (np. terapia poznawczo-behawioralna vs. terapia psychodynamiczna) na wyniki testów psychologicznych.

Medycyna: Analiza skuteczności różnych leków (np. lek A vs. lek B) w zależności od płci pacjentów.

Edukacja: Ocena wpływu różnych metod nauczania (np. wykłady vs. nauka przez zabawę) na osiągnięcia uczniów.

Ekonomia

Jak działa ANOVA dwuczynnikowa?

Proces analizy składa się z kilku kluczowych kroków:

Formułowanie hipotez:

Hipoteza zerowa (H0): Nie ma różnic między grupami.

Hipoteza alternatywna (H1): Istnieją różnice między grupami.

Obliczenia:
Obliczamy wariancję wewnątrzgrupową i międzygrupową, a następnie obliczamy statystykę F, która porównuje te dwie wariancje.

Interpretacja wyników:
Na podstawie wartości p, która jest obliczana podczas analizy, możemy ocenić, czy hipoteza zerowa może być odrzucona. Zazwyczaj wartość p < 0.05 wskazuje na istotne różnice.

Przykład zastosowania

Wyobraźmy sobie badanie dotyczące wpływu dwóch czynników na wyniki testów matematycznych uczniów: metoda nauczania (metoda tradycyjna, metoda interaktywna) i płeć (chłopcy, dziewczynki). Chcemy sprawdzić, czy różne metody nauczania mają różny wpływ na wyniki w zależności od płci.

Po zebraniu danych i przeprowadzeniu analizy ANOVA, możemy ustalić, czy różnice w wynikach są istotne, a także czy istnieje interakcja między metodą nauczania a płcią.

Wzór na dwuczynnikową analizę wariancji

Wzór ogólny dla dwuczynnikowej analizy wariancji można zapisać jako:
$$ S_{total}^2 = S_{A}^2 + S_{B}^2 + S_{AB}^2 + S_{E}^2 $$
Etapy obliczeń

1. Zbiór danych

Rozważmy dane dotyczące masy w gramach dla dwóch grup owoców (jabłka, banany) i dwóch grup warzyw (marchew, brokuły):

Jabłka: 150, 160, 170

Banany: 120, 130, 140

Marchew: 90, 100, 110

Brokuły: 80, 85, 90

2. Obliczanie średnich grupowych

Obliczamy średnie dla każdej grupy oraz całkowitą średnią:

Średnia dla jabłek: $$ \bar{X}_{jabłka} = \frac{150 + 160 + 170}{3} = \frac{480}{3} = 160 \text{ g} $$

Średnia dla bananów: $$ \bar{X}_{banany} = \frac{120 + 130 + 140}{3} = \frac{390}{3} = 130 \text{ g} $$

Średnia dla marchwi: $$ \bar{X}_{marchew} = \frac{90 + 100 + 110}{3} = \frac{300}{3} = 100 \text{ g} $$

Średnia dla brokułów: $$ \bar{X}_{brokuły} = \frac{80 + 85 + 90}{3} = \frac{255}{3} = 85 \text{ g} $$

Całkowita średnia:
$$ \bar{X}_{total} = \frac{150 + 160 + 170 + 120 + 130 + 140 + 90 + 100 + 110 + 80 + 85 + 90}{12} = \frac{1715}{12} \approx 142.92 \text{ g} $$
3. Obliczanie wariancji dla czynników

Czynnik A (owoce)

Wariancja dla czynnika A obliczamy na podstawie różnicy średnich:
$$ S_{A}^2 = \frac{n_B \cdot \sum (\bar{X}_A - \bar{X}_{total})^2}{k_A - 1} $$ gdzie: - $n_B = 3$ (liczba pomiarów w grupie B), - $k_A = 2$ (liczba grup w czynniku A, jabłka i banany). Obliczamy sumę kwadratów: $$ S_{A}^2 = \frac{3 \cdot ((160 - 142.92)^2 + (130 - 142.92)^2)}{2 - 1} $$ $$ = \frac{3 \cdot ((17.08)^2 + (-12.92)^2)}{1} $$ $$ = 3 \cdot (291.36 + 166.77) $$ $$ = 3 \cdot 458.13 = 1374.39 $$
Czynnik B (warzywa)
$$ S_{B}^2 = \frac{n_A \cdot \sum (\bar{X}_B - \bar{X}_{total})^2}{k_B - 1} $$ gdzie: - $n_A = 3$ (liczba pomiarów w grupie A), - $k_B = 2$ (liczba grup w czynniku B, marchew i brokuły). Obliczamy sumę kwadratów: $$ S_{B}^2 = \frac{3 \cdot ((100 - 142.92)^2 + (85 - 142.92)^2)}{2 - 1} $$ $$ = \frac{3 \cdot ((-42.92)^2 + (-57.92)^2)}{1} $$ $$ = 3 \cdot (1840.66 + 3358.93) $$ $$ = 3 \cdot 5199.59 = 15598.77 $$
Interakcja między czynnikami A i B
$$ S_{AB}^2 = \sum_{i=1}^{k_A} \sum_{j=1}^{k_B} \frac{n_{ij} \cdot (\bar{X}_{ij} - \bar{X}_A - \bar{X}_B + \bar{X}_{total})^2}{(k_A - 1)(k_B - 1)} $$ Dla każdej kombinacji jabłek i marchwi, jabłek i brokułów, bananów i marchwi, bananów i brokułów obliczamy średnie: - Jabłka - marchew: $$ \bar{X}_{jabłka, marchew} = \frac{(150 + 90)}{2} = 120 $$ - Jabłka - brokuły: $$ \bar{X}_{jabłka, brokuły} = \frac{(150 + 80)}{2} = 115 $$ - Banany - marchew: $$ \bar{X}_{banany, marchew} = \frac{(120 + 90)}{2} = 105 $$ - Banany - brokuły: $$ \bar{X}_{banany, brokuły} = \frac{(120 + 80)}{2} = 100 $$ Obliczamy wartości: $$ S_{AB}^2 = \frac{3 \cdot \left[(120 - 142.92)^2 + (115 - 142.92)^2 + (105 - 142.92)^2 + (100 - 142.92)^2\right]}{(2 - 1)(2 - 1)} $$ $$ = 3 \cdot \left[(529.88 + 762.49 + 1457.34 + 1850.56)\right] $$ $$ = 3 \cdot 3598.27 = 10794.81 $$
4. Obliczanie wariancji błędu

Wariancja błędu obliczamy poprzez zsumowanie kwadratów różnic dla poszczególnych pomiarów od ich średnich:
$$ S_{E}^2 = \frac{SS_E}{N - k_A \cdot k_B} $$ Liczmy $SS_E$ jako sumę kwadratów różnic dla pomiarów:

Jabłka: $$ (150 - 160)^2 + (160 - 160)^2 + (170 - 160)^2 = 200 $$

Banany: $$ (120 - 130)^2 + (130 - 130)^2 + (140 - 130)^2 = 200 $$

Marchew: $$ (90 - 100)^2 + (100 - 100)^2 + (110 - 100)^2 = 200 $$

Brokuły: $$ (80 - 85)^2 + (85 - 85)^2 + (90 - 85)^2 = 50 $$

$$ SS_E = 200 + 200 + 200 + 50 = 650 $$ $$ S_{E}^2 = \frac{650}{12 - 2 \cdot 2} = \frac{650}{8} = 81.25 $$
5. Obliczanie statystyk F

Dla czynnika A
$$ F_A = \frac{MS_A}{MS_E} = \frac{1374.39}{10.16} \approx 135.59 $$
Dla czynnika B
$$ F_B = \frac{MS_B}{MS_E} = \frac{15598.77}{10.16} \approx 1530.09 $$
Dla interakcji
$$ F_{AB} = \frac{MS_{AB}}{MS_E} = \frac{10794.81}{10.16} \approx 1067.82 $$
Wyniki końcowe

Ostateczne wyniki statystyk F dla każdego z efektów:

Statystyka F dla czynnika A (owoce): $$ F_A \approx 135.59 $$

Statystyka F dla czynnika B (warzywa): $$ F_B \approx 1530.09 $$

Statystyka F dla interakcji AB: $$ F_{AB} \approx 1067.82 $$

Wnioski

Dwuczynnikowa analiza wariancji dla prób niezależnych pozwala na zbadanie, jak dwa różne czynniki wpływają na zmienną zależną. Analizując wyniki, możemy zrozumieć, czy różnice w średnich są statystycznie istotne oraz czy istnieje interakcja między czynnikami.

Bibliografia:

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/

Field, A. P. (2013). Discovering statistics using IBM SPSS Statistics (4th ed.). SAGE Publications.