Wartość dźwigni w modelu regresji
W statystyce, wartość dźwigni w modelu regresji (ang. leverage) jest miarą tego, jak wpływowy jest dany punkt danych na dopasowanie modelu regresji. Wartości dźwigni wskazują, które punkty danych mają największy potencjał do wpływu na oszacowania parametrów regresji. Wartości te są wykorzystywane do identyfikacji punktów odstających oraz do oceny stabilności modelu.
Współczynnik dźwigni w modelach liniowych
Współczynnik dźwigni (ang. leverage) jest istotnym pojęciem w analizie regresji liniowej. Mierzy, jak duży wpływ na przewidywane wartości ma każda pojedyncza obserwacja w modelu. Współczynnik ten jest związany z pozycją danej obserwacji w zbiorze danych i jej odległością od pozostałych punktów.
Kiedy stosuje się współczynnik dźwigni?
Współczynnik dźwigni jest używany, aby zidentyfikować punkty odstające w modelach regresji liniowej. Punkty o wysokiej dźwigni mają duży wpływ na dopasowanie modelu, a tym samym mogą zaburzać wyniki analizy. Dzięki temu współczynnikowi można ocenić, które obserwacje mogą być problematyczne lub odbiegać od normy.
Obliczanie współczynnika dźwigni
Współczynnik dźwigni jest obliczany jako element diagonalny macierzy „hat” (macierzy projekcji) w regresji liniowej. Macierz „hat” ma postać:
\[ H = X(X^TX)^{-1}X^T \]
Gdzie:
- X – macierz projektowa, zawierająca zmienne niezależne (kolumny z wartościami zmiennych, wraz z kolumną jedynek dla wyrazu wolnego).
- (X^TX)^{-1} – odwrotność macierzy iloczynu transpozycji \(X\) i macierzy \(X\).
- X^T – transpozycja macierzy \(X\).
Leverage dla i-tej obserwacji, oznaczane jako \(h_{ii}\), jest wartością diagonalną macierzy „hat”:
Wzór na wartość dźwigni
Wartość dźwigni \( h_i \) dla punktu danych \( i \) w modelu regresji liniowej można wyznaczyć za pomocą następującego wzoru:
\[ h_i = \mathbf{x}_i (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{x}_i^T \]
gdzie:
- \( \mathbf{x}_i \) to wektor cech dla \( i \)-tego punktu danych.
- \( \mathbf{X} \) to macierz projektująca, zawierająca wektory cech dla wszystkich punktów danych.
- \( (\mathbf{X}^T \mathbf{X})^{-1} \) to odwrotność macierzy iloczynu transponowanej macierzy \(\mathbf{X}\) i macierzy \(\mathbf{X}\).
Sens wzoru i przeliczenia
Wartość dźwigni mierzy odległość punktu danych od centroidu wszystkich punktów w przestrzeni cech. Wysokie wartości \( h_i \) oznaczają, że punkt \( i \) jest dużym odstającym i ma silny wpływ na oszacowania parametrów modelu.
Przykład obliczenia wartości dźwigni w modelu regresji na owockach i warzywkach
Rozważmy prosty przykład modelu regresji na zbiorze danych zawierających wymiary i wagi różnych owoców i warzyw.
Załóżmy, że mamy następujące dane:
- Masa jabłka (100 gramów, 8 centymetrów średnicy)
- Masa marchwi (150 gramów, 7 centymetrów długości)
- Masa ogórka (200 gramów, 10 centymetrów długości)
Dane te zapiszemy w macierzy projektującej \( \mathbf{X} \):
\[ \mathbf{X} = \begin{bmatrix} 1 & 100 & 8 \\ 1 & 150 & 7 \\ 1 & 200 & 10 \end{bmatrix} \]
Obliczenie macierzy \( (\mathbf{X}^T \mathbf{X}) \):
\[ \mathbf{X}^T \mathbf{X} = \begin{bmatrix} 1 & 1 & 1 \\ 100 & 150 & 200 \\ 8 & 7 & 10 \end{bmatrix} \begin{bmatrix} 1 & 100 & 8 \\ 1 & 150 & 7 \\ 1 & 200 & 10 \end{bmatrix} = \begin{bmatrix} 3 & 450 & 25 \\ 450 & 62500 & 4550 \\ 25 & 4550 & 183 \end{bmatrix} \]
Obliczenie odwrotności macierzy \( (\mathbf{X}^T \mathbf{X})^{-1} \):
Zakładając, że te obliczenia są poprawne i można znaleźć jej odwrotność (w celu uproszczenia obliczeń możemy posłużyć się kalkulatorem macierzy):
\[ (\mathbf{X}^T \mathbf{X})^{-1} \approx \begin{bmatrix} 4.67 & -0.03 & -0.13 \\ -0.03 & 0.01 & 0.00 \\ -0.13 & 0.00 & 0.07 \end{bmatrix} \]
Obliczmy wartość dźwigni dla punktu pierwszego (jabłka):
\[ h_i = \mathbf{x}_1 (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{x}_1^T = \begin{bmatrix} 1 & 100 & 8 \end{bmatrix} \begin{bmatrix} 4.67 & -0.03 & -0.13 \\ -0.03 & 0.01 & 0.00 \\ -0.13 & 0.00 & 0.07 \end{bmatrix} \begin{bmatrix} 1 \\ 100 \\ 8 \end{bmatrix} = 0.67 \]
W ten sposób otrzymujemy wartość dźwigni dla punktu jabłka, która wynosi 0.67.
Podobnie można obliczyć wartości dźwigni dla pozostałych punktów danych.
Podsumowanie
Wartość dźwigni w modelu regresji jest kluczowym narzędziem do identyfikacji punktów odstających i oceny wpływu poszczególnych obserwacji na model. Jest to szczególnie przydatne przy pracy z danymi zawierającymi wiele zmiennych, gdzie punktu danych mogą mieć silny wpływ na parametry modelu.
Bibliografia:
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/
Cook, R. D. and Weisberg, S. (1984) Residuals and Influence in Regression. Wiley. Fox, J. (1997) Applied Regression, Linear Models, and Related Methods. Sage. Williams, D. A. (1987) Generalized linear model diagnostics using the deviance and single case deletions. Applied Statistics 36, 181--191.