Regresja Logistyczna - Wyjaśnienie i Przykład
W statystyce regresja logistyczna jest metodą analizy danych, która pozwala modelować zależność pomiędzy zmienną zależną typu binarnego (czyli taką, która przyjmuje wartości 0 lub 1) a jedną lub większą liczbą zmiennych niezależnych.
Wzór na regresję logistyczną
Wzór matematyczny na regresję logistyczną jest wyrażony jako:
\[ \pi(x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k)}} \]
gdzie:
- \(\pi(x)\) - prawdopodobieństwo, że zmienna zależna przyjmuje wartość 1
- \(e\) - podstawa logarytmu naturalnego
- \(\beta_0\) - wyraz wolny (intercept)
- \(\beta_1, \beta_2, \ldots, \beta_k\) - współczynniki regresji
- \(x_1, x_2, \ldots, x_k\) - zmienne niezależne
Sens wzoru
Wzór ten modeluje prawdopodobieństwo wystąpienia danego zdarzenia jako funkcję liniową zmiennych niezależnych przekształconą przez funkcję logistyczną. Funkcja logistyczna (sigmoidalna) zapewnia, że wyniki będą w zakresie od 0 do 1, co odpowiada zakresowi prawdopodobieństwa.
Przecinanie wzoru i etapy przeliczania
- Oblicz wartość liniową \((z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k)\).
- Po obliczeniu wartości \(z\), przekształć ją przez funkcję logistyczną, aby uzyskać prawdopodobieństwo \(\pi(x)\).
Przykład na owocach i warzywach
Załóżmy, że chcemy przewidzieć, czy dany produkt to owoc (1) czy warzywo (0) na podstawie jego koloru (czerwony = 1, zielony = 0) i czy ma nasiona (tak = 1, nie = 0).
Nasze dane wyglądają następująco:
Kolor (x1) | Nasiona (x2) | Czy owoc (y) |
---|---|---|
1 | 1 | 1 |
0 | 1 | 1 |
0 | 0 | 0 |
1 | 0 | 0 |
Przypuśćmy, że po wytrenowaniu modelu otrzymaliśmy następujące wartości współczynników:
- \(\beta_0 = -1\)
- \(\beta_1 = 1.5\)
- \(\beta_2 = 1\)
Rozważmy przypadek produktu o czerwonym kolorze (x1 = 1) i posiadającego nasiona (x2 = 1).
Podstawiamy wartości do równania: \[ z = -1 + 1.5 \cdot 1 + 1 \cdot 1 = -1 + 1.5 + 1 = 1.5 \]
Następnie przekształcamy \(z\) przez funkcję logistyczną: \[ \pi(x) = \frac{1}{1 + e^{-1.5}} \approx \frac{1}{1 + 0.2231} \approx 0.82 \]
Otrzymane prawdopodobieństwo wynosi 0.82, co oznacza, że model przewiduje, że dany produkt to owoc z prawdopodobieństwem 82%.
Regresja Logistyczna w R
Regresja logistyczna jest techniką statystyczną stosowaną do modelowania zależności między jedną lub więcej zmiennymi niezależnymi a zmienną zależną, która jest dychotomiczna (przyjmuje wartości 0 lub 1). W R regresję logistyczną można przeprowadzić za pomocą funkcji glm()
(generalized linear model). Poniżej przedstawiam przykładowy kod do przeprowadzenia analizy regresji logistycznej.
Przykład kodu regresji logistycznej w R
```r
# Wczytanie pakietów
library(dplyr)
# Przykładowe dane
set.seed(123)
data <- data.frame(
wynik = sample(0:1, 100, replace = TRUE), # Zmienna zależna (dychotomiczna)
wiek = rnorm(100, mean = 30, sd = 10), # Zmienna niezależna
dochod = rnorm(100, mean = 50000, sd = 15000) # Zmienna niezależna
)
# Regresja logistyczna
model <- glm(wynik ~ wiek + dochod, data = data, family = binomial)
# Podsumowanie modelu
summary(model)
Opis kodu
- Wczytanie pakietów: W tym przykładzie używamy podstawowych funkcji R, ale w razie potrzeby można wczytać dodatkowe pakiety.
- Przykładowe dane: Tworzymy przykładowy zbiór danych z dychotomiczną zmienną zależną
wynik
oraz dwiema zmiennymi niezależnymi:wiek
idochod
. - Regresja logistyczna: Używamy funkcji
glm()
do przeprowadzenia analizy, gdzie zmienna zależna jest modelowana w zależności od zmiennych niezależnych. Parametrfamily = binomial
wskazuje, że modelujemy zmienną dychotomiczną. - Podsumowanie modelu: Wywołanie
summary(model)
zwraca wyniki analizy, w tym współczynniki regresji, wartości p i inne statystyki.
Wyniki analizy
Wyniki regresji logistycznej pozwalają na zrozumienie, jak zmienne niezależne wpływają na prawdopodobieństwo wystąpienia określonego zdarzenia. Wartości p można wykorzystać do oceny istotności współczynników regresji.
```Bibliografia:
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/