Dystans Cooka w regresji

Dystans Cooka w regresji to miara wpływu obserwacji na aproksymację modelu regresji. Pozwala zidentyfikować obserwacje, które mają duży wpływ na oszacowania współczynników regresji. Obserwacje te mogą być potencjalnymi obserwacjami odstającymi, które znacząco wpływają na model.

Współczynnik dystansu Cooka to miara wykorzystywana w analizie regresji liniowej do oceny wpływu poszczególnych obserwacji na dopasowanie modelu. Jego wartość pozwala zidentyfikować tzw. punkty odstające (outliers) oraz obserwacje, które mogą mieć nadmierny wpływ na parametry modelu, takie jak nachylenie prostej regresji.

Kiedy używamy współczynnika dystansu Cooka?

Współczynnik ten jest używany, gdy chcemy ocenić, które z obserwacji mogą zaburzać wyniki modelu. Zazwyczaj stosuje się go w sytuacjach, gdy:

Obserwujemy nieoczekiwane lub nietypowe wyniki w analizie regresji.
Chcemy sprawdzić, czy dane są wolne od punktów odstających, które mogą nieproporcjonalnie wpływać na wyniki analizy.
Oceniamy jakość i stabilność modelu predykcyjnego.

W jaki sposób obliczamy dystans Cooka?

Dystans Cooka dla każdej obserwacji mierzy, jak bardzo zmieniłyby się parametry modelu, gdyby usunąć daną obserwację z analizy. Im wyższy dystans Cooka, tym większy wpływ danej obserwacji na wynik modelu. Ogólna zasada mówi, że jeśli wartość współczynnika dystansu Cooka przekracza 1, warto bliżej przyjrzeć się takiej obserwacji.

W jakich działaniach badawczych i naukach stosujemy dystans Cooka?

Współczynnik dystansu Cooka znajduje szerokie zastosowanie w naukach społecznych, ekonomicznych, medycznych, a także w psychologii. Każda dziedzina, która korzysta z analizy regresji, może stosować ten wskaźnik, aby lepiej zrozumieć wpływ poszczególnych danych na model. W badaniach empirycznych pomaga on unikać błędnych wniosków, wynikających z obecności punktów odstających.

Przykład zastosowania:

Załóżmy, że badamy zależność między liczbą godzin nauki a wynikami egzaminów studentów. W modelu regresji może pojawić się obserwacja, która znacząco odbiega od reszty, np. student, który uczył się bardzo mało, ale uzyskał wysoki wynik na egzaminie. Współczynnik dystansu Cooka pomoże zidentyfikować, czy taka obserwacja ma nadmierny wpływ na wyniki naszego modelu.

Wzór na dystans Cooka w regresji jest następujący:

$$ D_i = \frac{(e_i^2 / p) \cdot (h_{ii})}{(1 - h_{ii})^2} $$

gdzie:

$e_i$ - resztowe stany dla i-tej obserwacji (różnica między wartością faktyczną a przewidywaną)
p - liczba parametrów modelu (w tym wyraz wolny)
h_{ii} - odpowiednia wartość z macierzy "hat" (macierzy projekcji)

Przykład obliczenia dystansu Cooka w regresji na danych o owockach i warzywkach

Załóżmy, że mamy taki zestaw danych:

Fragment danych	Waga (g)	Cena (zł)	Przewidywana cena (zł)	Reszta $e_i$	h_{ii}
Jabłko	150	3	2.8	0.2	0.1
Marchewka	100	1.5	1.4	0.1	0.2

Obliczamy dystans Cooka dla Jabłka:

$$ D_i = \frac{(e_i^2) / p \cdot h_{ii}}{(1 - h_{ii})^2} = \frac{(0.2^2) / 2 \cdot 0.1}{(1 - 0.1)^2} = \frac{(0.04/2) \cdot 0.1}{(0.9)^2} = \frac{0.02 \cdot 0.1}{0.81} \approx 0.0025 $$

Wynik 0.0025 oznacza, że Jabłko nie ma dużego wpływu na model regresji.

Obliczamy dystans Cooka dla Marchewka:

$$ D_i = \frac{(e_i^2) / p \cdot h_{ii}}{(1 - h_{ii})^2} = \frac{(0.1^2) / 2 \cdot 0.2}{(1 - 0.2)^2} = \frac{(0.01/2) \cdot 0.2}{(0.8)^2} = \frac{0.005 \cdot 0.2}{0.64} \approx 0.00156 $$

Wynik 0.00156 oznacza, że Marchewka również nie ma dużego wpływu na model regresji.

W ten sposób można obliczyć dystans Cooka dla każdej obserwacji i zidentyfikować obserwacje odstające i wpływające na model.

Bibliografia:

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/

Cook, R. D. and Weisberg, S. (1984) Residuals and Influence in Regression. Wiley. Fox, J. (1997) Applied Regression, Linear Models, and Related Methods. Sage. Williams, D. A. (1987) Generalized linear model diagnostics using the deviance and single case deletions. Applied Statistics 36, 181--191.