Współczynnik studentyzowanej reszty w regresji
Współczynnik studentyzowanej reszty (ang. studentized residual) jest wskaźnikiem używanym w analizie regresji, który mierzy, jak bardzo rzeczywista wartość zmiennej zależnej różni się od wartości przewidywanej przez model, z uwzględnieniem zmienności (odchylenia standardowego) błędów resztowych.
Czym są reszty?
Reszta to różnica pomiędzy rzeczywistą wartością zmiennej zależnej (oznaczaną jako \( y_i \)) a wartością przewidywaną przez model regresji (oznaczaną jako \( \hat{y}_i \)):
\[ e_i = y_i - \hat{y}_i \]
Jednak same reszty mogą nie dostarczać pełnej informacji o tym, czy dana obserwacja jest odstająca, ponieważ różne obserwacje mogą mieć różne poziomy wariancji. Dlatego wprowadza się współczynnik studentyzowanej reszty, który normalizuje reszty, biorąc pod uwagę zmienność błędów.
Studentyzowana reszta
Studentyzowana reszta jest obliczana poprzez podzielenie reszty \( e_i \) przez szacowane odchylenie standardowe dla danej obserwacji.
Kiedy używa się studentyzowanej reszty?
Studentyzowana reszta jest szczególnie przydatna, gdy chcemy zidentyfikować punkty odstające w analizie regresji. Obserwacje, które mają bardzo duże wartości studentyzowanej reszty (zarówno dodatnie, jak i ujemne), mogą wskazywać na nietypowe dane, które nie są dobrze wyjaśniane przez model. W takich przypadkach warto dokładniej zbadać te obserwacje, aby zrozumieć ich wpływ na model.
Przykłady zastosowań
Współczynnik studentyzowanej reszty znajduje zastosowanie w wielu dziedzinach, takich jak:
- Ekonomia – w analizie regresji finansowej, gdzie duże odstępstwa w danych mogą wskazywać na wyjątkowe zdarzenia rynkowe.
- Medycyna – podczas analizy wyników badań klinicznych, gdzie nietypowe wyniki mogą wynikać z indywidualnych różnic pacjentów.
- Psychologia – w badaniach ankietowych, gdzie pewne odpowiedzi mogą nie być dobrze wyjaśniane przez model predykcyjny.
Znaczenie studentyzowanych reszt
Studentyzowane reszty są istotne, ponieważ pozwalają na wykrycie obserwacji, które mogą mieć nieproporcjonalny wpływ na dopasowanie modelu regresji. Wartość ta pozwala na ocenę, czy model dobrze wyjaśnia dane, czy może istnieją obserwacje, które wymagają dalszego zbadania.
Wzór na studentyzowane reszty w modelu regresji
Matematyczny wzór na studentyzowane reszty w modelu regresji jest przedstawiony poniżej:
$$ t_i = \frac{e_i}{s(e_i)} = \frac{e_i}{s \sqrt{1 - h_{ii}}} $$
gdzie:
- \( t_i \) - studentyzowana reszta dla i-tej obserwacji,
- \( e_i \) - reszta dla i-tej obserwacji,
- \( s \) - estymowana standardowa odchylenie reszt modelu,
- \( h_{ii} \) - wartość z macierzy odwrotności wariancji i kowariancji, zwana dźwignią (leverage) dla i-tego punku.
Objaśnienie składników wzoru
Zacznijmy od obliczenia poszczególnych składników wzoru na studentyzowane reszty:
- \( e_i = y_i - \hat{y}_i \) - reszta, czyli różnica między wartością rzeczywistą \( y_i \) a przewidywaną \( \hat{y}_i \).
- \( s \) - standardowe odchylenie reszt, obliczane jako: $$ s = \sqrt{\frac{\sum_{i=1}^{n} e_i^2}{n - p}} $$ gdzie \( n \) to liczba obserwacji, a \( p \) to liczba parametrów modelu (włącznie z wyrazem wolnym).
- \( h_{ii} \) - element diagonalny macierzy dźwigni, obliczany jako: $$ h_{ii} = x_i^T (X^T X)^{-1} x_i $$ gdzie \( x_i \) to wektor wartości predyktorów dla i-tej obserwacji, a \( X \) to macierz projektująca.
Przykład obliczenia studentyzowanych reszt na prostych danych
Rozważmy dane dotyczące sprzedaży owoców i warzyw, gdzie mamy zależność między ceną (zmienna niezależna \( X \)) a ilością sprzedanych jednostek (zmienna zależna \( Y \)).
i | X | Y |
---|---|---|
1 | 2 | 4 |
2 | 3 | 5 |
3 | 5 | 7 |
Załóżmy, że równanie regresji jest następujące:
$$ \hat{Y} = 1 + 1.1X $$
Dla każdego punktu wyjściowego obliczamy wartość przewidywaną \( \hat{Y}_i \), resztę \( e_i \), a następnie studentyzowaną resztę \( t_i \):
- Obserwacja 1:
- \( \hat{Y}_1 = 1 + 1.1 \cdot 2 = 3.2 \)
- \( e_1 = 4 - 3.2 = 0.8 \)
- Obserwacja 2:
- \( \hat{Y}_2 = 1 + 1.1 \cdot 3 = 4.3 \)
- \( e_2 = 5 - 4.3 = 0.7 \)
- Obserwacja 3:
- \( \hat{Y}_3 = 1 + 1.1 \cdot 5 = 6.5 \)
- \{ e_3 = 7 - 6.5 = 0.5 \}
Obliczmy teraz standardowe odchylenie reszt \( s \):
$$ s = \sqrt{\frac{(0.8^2 + 0.7^2 + 0.5^2)}{3 - 2}} = \sqrt{1.38} \approx 1.17 $$
Wartość dźwigni \( h_{ii} \) dla uproszczenia i w tym przykładzie zakładamy równą \( 0.33 \) dla każdej obserwacji (w innym przypadku trzeba by obliczyć macierz projektującą \( X \)).
Obliczmy studentyzowane reszty:
- Obserwacja 1: $$ t_1 = \frac{0.8}{1.17 \sqrt{1 - 0.33}} \approx 0.98 $$
- Obserwacja 2: $$ t_2 = \frac{0.7}{1.17 \sqrt{1 - 0.33}} \approx 0.86 $$
- Obserwacja 3: $$ t_3 = \frac{0.5}{1.17 \sqrt{1 - 0.33}} \approx 0.61 $$
W ten sposób otrzymaliśmy studentyzowane reszty w modelu regresji dla trzech obserwacji naszego przykładu:
- Obserwacja 1: 0.98
- Obserwacja 2: 0.86
- Obserwacja 3: 0.61
Bibliografia:
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/
Cook, R. D. and Weisberg, S. (1984) Residuals and Influence in Regression. Wiley. Fox, J. (1997) Applied Regression, Linear Models, and Related Methods. Sage. Williams, D. A. (1987) Generalized linear model diagnostics using the deviance and single case deletions. Applied Statistics 36, 181--191.