Oferty statystyczne Jak działa SZTOS Start Tutoriale FAQ Opinie Kontakt

Regresja Logistyczna - Wyjaśnienie i Przykład

W statystyce regresja logistyczna jest metodą analizy danych, która pozwala modelować zależność pomiędzy zmienną zależną typu binarnego (czyli taką, która przyjmuje wartości 0 lub 1) a jedną lub większą liczbą zmiennych niezależnych.

Wzór na regresję logistyczną

Wzór matematyczny na regresję logistyczną jest wyrażony jako:

\[ \pi(x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k)}} \]

gdzie:

  • \(\pi(x)\) - prawdopodobieństwo, że zmienna zależna przyjmuje wartość 1
  • \(e\) - podstawa logarytmu naturalnego
  • \(\beta_0\) - wyraz wolny (intercept)
  • \(\beta_1, \beta_2, \ldots, \beta_k\) - współczynniki regresji
  • \(x_1, x_2, \ldots, x_k\) - zmienne niezależne

Sens wzoru

Wzór ten modeluje prawdopodobieństwo wystąpienia danego zdarzenia jako funkcję liniową zmiennych niezależnych przekształconą przez funkcję logistyczną. Funkcja logistyczna (sigmoidalna) zapewnia, że wyniki będą w zakresie od 0 do 1, co odpowiada zakresowi prawdopodobieństwa.

Przecinanie wzoru i etapy przeliczania

  1. Oblicz wartość liniową \((z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k)\).
  2. Po obliczeniu wartości \(z\), przekształć ją przez funkcję logistyczną, aby uzyskać prawdopodobieństwo \(\pi(x)\).

Przykład na owocach i warzywach

Załóżmy, że chcemy przewidzieć, czy dany produkt to owoc (1) czy warzywo (0) na podstawie jego koloru (czerwony = 1, zielony = 0) i czy ma nasiona (tak = 1, nie = 0).

Nasze dane wyglądają następująco:

Kolor (x1) Nasiona (x2) Czy owoc (y)
1 1 1
0 1 1
0 0 0
1 0 0

Przypuśćmy, że po wytrenowaniu modelu otrzymaliśmy następujące wartości współczynników:

  • \(\beta_0 = -1\)
  • \(\beta_1 = 1.5\)
  • \(\beta_2 = 1\)

Rozważmy przypadek produktu o czerwonym kolorze (x1 = 1) i posiadającego nasiona (x2 = 1).

Podstawiamy wartości do równania: \[ z = -1 + 1.5 \cdot 1 + 1 \cdot 1 = -1 + 1.5 + 1 = 1.5 \]

Następnie przekształcamy \(z\) przez funkcję logistyczną: \[ \pi(x) = \frac{1}{1 + e^{-1.5}} \approx \frac{1}{1 + 0.2231} \approx 0.82 \]

Otrzymane prawdopodobieństwo wynosi 0.82, co oznacza, że model przewiduje, że dany produkt to owoc z prawdopodobieństwem 82%.

Regresja Logistyczna w R

Regresja logistyczna jest techniką statystyczną stosowaną do modelowania zależności między jedną lub więcej zmiennymi niezależnymi a zmienną zależną, która jest dychotomiczna (przyjmuje wartości 0 lub 1). W R regresję logistyczną można przeprowadzić za pomocą funkcji glm() (generalized linear model). Poniżej przedstawiam przykładowy kod do przeprowadzenia analizy regresji logistycznej.

Przykład kodu regresji logistycznej w R

```r
# Wczytanie pakietów
library(dplyr)

# Przykładowe dane
set.seed(123)
data <- data.frame(
  wynik = sample(0:1, 100, replace = TRUE),  # Zmienna zależna (dychotomiczna)
  wiek = rnorm(100, mean = 30, sd = 10),       # Zmienna niezależna
  dochod = rnorm(100, mean = 50000, sd = 15000) # Zmienna niezależna
)

# Regresja logistyczna
model <- glm(wynik ~ wiek + dochod, data = data, family = binomial)

# Podsumowanie modelu
summary(model)

Opis kodu

  • Wczytanie pakietów: W tym przykładzie używamy podstawowych funkcji R, ale w razie potrzeby można wczytać dodatkowe pakiety.
  • Przykładowe dane: Tworzymy przykładowy zbiór danych z dychotomiczną zmienną zależną wynik oraz dwiema zmiennymi niezależnymi: wiek i dochod.
  • Regresja logistyczna: Używamy funkcji glm() do przeprowadzenia analizy, gdzie zmienna zależna jest modelowana w zależności od zmiennych niezależnych. Parametr family = binomial wskazuje, że modelujemy zmienną dychotomiczną.
  • Podsumowanie modelu: Wywołanie summary(model) zwraca wyniki analizy, w tym współczynniki regresji, wartości p i inne statystyki.

Wyniki analizy

Wyniki regresji logistycznej pozwalają na zrozumienie, jak zmienne niezależne wpływają na prawdopodobieństwo wystąpienia określonego zdarzenia. Wartości p można wykorzystać do oceny istotności współczynników regresji.

```

Bibliografia:


Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/