Analiza Regresji

Analiza regresji to technika statystyczna, która pozwala na zbadanie zależności pomiędzy zmiennymi. Najczęściej stosuje się ją do przewidywania wartości jednej zmiennej (zmiennej zależnej) na podstawie wartości innej zmiennej (zmiennej niezależnej).

Kiedy się jej używa?

Analiza regresji jest używana w różnych sytuacjach, takich jak:

Przewidywanie wartości (np. prognozowanie sprzedaży w oparciu o wydatki na reklamę).
Badanie wpływu zmiennych na siebie (np. jak poziom wykształcenia wpływa na zarobki).
Analiza trendów w danych (np. zmiany temperatury w różnych porach roku).

W jakich działaniach badawczych?

Analiza regresji jest szeroko stosowana w badaniach naukowych, w tym:

Ekonomia – do przewidywania wskaźników gospodarczych.
Psychologia – do badania związku między zmiennymi psychologicznymi (np. stres a wydajność).
Medycyna – do oceny wpływu czynników ryzyka na zdrowie pacjentów.

W jakich naukach?

Technika ta jest wykorzystywana w wielu dziedzinach nauki, takich jak:

Statystyka
Informatyka
Biologia
Socjologia
Marketing

Podsumowując, analiza regresji to potężne narzędzie, które pomaga zrozumieć i przewidywać zachowania oraz zależności w różnych dziedzinach badań. Dzięki jej zastosowaniu można lepiej analizować dane i podejmować bardziej świadome decyzje.

Wzór na Analiza Regresji

W przypadku regresji liniowej, wzór matematyczny na analizę regresji jest następujący:

\[ y = a + bx \]

Gdzie:

y – zmienna zależna (to, co chcemy przewidzieć),
x – zmienna niezależna (na podstawie której przewidujemy),
a – wyraz wolny (intercept),
b – współczynnik nachylenia prostej regresji (slope).

Sens Wzoru Analizy Regresji

Wzór ten opisuje liniową zależność między zmiennymi x a y. Innymi słowy, dla każdej jednostki wzrostu zmiennej x, zmienna y zmienia się o wartość współczynnika b. Wyraz wolny a określa wartość zmiennej y, gdy zmienna x wynosi zero.

Przykład Obliczenia Analizy Regresji na Owockach i Warzywkach

Załóżmy, że mamy dane dotyczące sprzedaży owoców i warzyw w zależności od dni tygodnia:

Dzień	Sprzedaż Owoców (kg)	Sprzedaż Warzyw (kg)
Poniedziałek	20	10
Wtorek	18	12
Środa	25	15
Czwartek	22	13
Piątek	24	14

Obliczenia

Dla uproszczenia obliczeń przyjmijmy, że zmienna niezależna to sprzedaż owoców (x), a zmienna zależna to sprzedaż warzyw (y).

Do wyliczenia wzoru analizy regresji użyjemy metody najmniejszych kwadratów (LSM). Potrzebujemy najpierw obliczyć a (wyraz wolny) oraz b (współczynnik nachylenia).

Wzory na a i b wyglądają następująco:

\[ b = \frac{N\sum_{i=1}^N{(x_i \cdot y_i)} - \sum_{i=1}^N{x_i} \sum_{i=1}^N{y_i}}{N\sum_{i=1}^N{x_i^2} - \left( \sum_{i=1}^N{x_i} \right)^2} \]

\[ a = \frac{\sum_{i=1}^N{y_i} - b \sum_{i=1}^N{x_i}}{N} \]

Podstawiając dane do wzorów, obliczamy wartości:

\(\sum{x_i} = 20 + 18 + 25 + 22 + 24 = 109\) \\ \(\sum{y_i} = 10 + 12 + 15 + 13 + 14 = 64\) \\ \(\sum{x_i y_i} = (20 \cdot 10) + (18 \cdot 12) + (25 \cdot 15) + (22 \cdot 13) + (24 \cdot 14) = 200 + 216 + 375 + 286 + 336 = 1413\) \\ \(\sum{x_i^2} = 20^2 + 18^2 + 25^2 + 22^2 + 24^2 = 400 + 324 + 625 + 484 + 576 = 2409\)

Teraz wyliczamy b:

\[ b = \frac{5 \cdot 1413 - 109 \cdot 64}{5 \cdot 2409 - 109^2} = \frac{7065 - 6976}{12045 - 11881} = \frac{89}{164} \approx 0.54 \]

Następnie wyliczamy a:

\[ a = \frac{64 - 0.54 \cdot 109}{5} = \frac{64 - 58.86}{5} = \frac{5.14}{5} \approx 1.03 \]

Ostateczny wzór regresji wygląda następująco:

\[ y = 1.03 + 0.54x \]

Oznacza to, że dla każdej dodatniej sprzedaży owoców o 1 kg, sprzedaż warzyw rośnie o około 0.54 kg, z wyjściowym poziomem sprzedaży warzyw 1.03 kg, gdy sprzedaż owoców wynosi 0 kg.

Bibliografia:

Fox, J. and Weisberg, S. (2011) An R Companion to Applied Regression. Sage Publishing, Thousand Oaks.

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/