Oferty statystyczne Jak działa SZTOS Start Tutoriale FAQ Opinie Kontakt

Standaryzowane Reszty w Modelu Regresji

W statystyce, standaryzowane reszty w modelu regresji są miarą, która pozwala na ocenę odległości indywidualnych obserwacji od przewidywanych wartości w sposób uwzględniający wariancję reszt.

Współczynnik zstandaryzowanej reszty znajduje zastosowanie w różnych dziedzinach, takich jak:

  • Ekonomia – analiza danych dotyczących sprzedaży, gdzie nietypowe transakcje mogą wpływać na ogólne wyniki.
  • Medycyna – ocena wyników badań klinicznych, gdzie niektóre wyniki mogą być wyjątkowe w stosunku do ogólnych tendencji.
  • Psychologia – badania ankietowe, w których nietypowe odpowiedzi mogą wskazywać na problemy w odpowiedziach lub różnice między respondentami.

Znaczenie zstandaryzowanych reszt

Zstandaryzowane reszty są istotne, ponieważ pozwalają na wykrycie obserwacji, które mogą mieć nieproporcjonalny wpływ na dopasowanie modelu regresji. Umożliwiają one lepszą ocenę jakości modelu i pomagają zidentyfikować dane, które wymagają dalszej analizy.

Wzór na standaryzowane reszty w modelu regresji

Standaryzowana reszta \( r_i \) jest obliczana za pomocą następującego wzoru:

\[ r_i = \frac{e_i}{\hat{\sigma} e_i} \]

Gdzie:

  • \( e_i \) – reszta (różnica między wartościami obserwowanymi a przewidywanymi),
  • \( \hat{\sigma} e_i \) – oszacowanie standardowego błędu reszty.

Obliczenie reszty \( e_i \)

Reszta \( e_i \) obliczana jest jako różnica między wartością obserwowaną \( y_i \) a wartością przewidywaną \( \hat{y_i} \):

\[ e_i = y_i - \hat{y_i} \]

Obliczenie oszacowania standardowego błędu reszty \( \hat{\sigma} e_i \)

Oszacowanie standardowego błędu reszty \( \hat{\sigma} e_i \) można wyrazić za pomocą wzoru:

\[ \hat{\sigma} e_i = \sqrt{\text{MSE} \left(1 - h_{ii}\right)} \]

Gdzie:

  • \(\text{MSE}\) – Mean Squared Error (średni błąd kwadratowy),
  • \(h_{ii}\) – element diagonali macierzy hat.

Przykład obliczenia standaryzowanej reszty

Załóżmy, że mamy dane dotyczące wag różnych owoców i warzyw oraz ich cena:

  • Jabłko: waga = 150 g, cena = 1.5 zł
  • Gruszka: waga = 170 g, cena = 1.8 zł
  • Pomidor: waga = 200 g, cena = 2.1 zł

Zakładamy, że mamy już wyznaczony model regresji: \( \hat{y} = 0.01x + 0.3 \), gdzie \( x \) to waga, a \( y \) to cena.

Krok 1: Obliczenie reszty

Dla Jabłka:

\[ \hat{y}_{jabłko} = 0.01 \times 150 + 0.3 = 1.8 \, \text{zł} \]

\[ e_{jabłko} = 1.5 - 1.8 = -0.3 \, \text{zł} \]

Krok 2: Oszacowanie standardowego błędu reszty

Załóżmy, że \(\text{MSE} = 0.02\) i \(h_{ii} = 0.1\) dla Jabłka:

\[ \hat{\sigma} e_{jabłko} = \sqrt{0.02 \times (1 - 0.1)} = \sqrt{0.02 \times 0.9} = \sqrt{0.018} \approx 0.134 \]

Krok 3: Obliczenie standaryzowanej reszty

\[ r_{jabłko} = \frac{e_{jabłko}}{\hat{\sigma} e_{jabłko}} = \frac{-0.3}{0.134} \approx -2.24 \]

Wartość standaryzowanej reszty wskazuje, jak wiele odchyleń standardowych reszta różni się od zera.

Podsumowanie

Standaryzowane reszty w modelu regresji są istotnym narzędziem w analizie regresji, ponieważ pozwalają na ocenę, jak dobrze model tłumaczy zmienność danych. Dzięki eliminacji jednostek miar i uwzględnieniu wariancji reszt, standaryzowane reszty umożliwiają lepsze zrozumienie i porównywanie wyników między różnymi analizami regresji.


Bibliografia:


Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/


Cook, R. D. and Weisberg, S. (1984) Residuals and Influence in Regression. Wiley. Fox, J. (1997) Applied Regression, Linear Models, and Related Methods. Sage. Williams, D. A. (1987) Generalized linear model diagnostics using the deviance and single case deletions. Applied Statistics 36, 181--191.