Raport analizy regresji

Niniejszą analizę i raport opisowy wykonano w Systemie Zautomatyzowanego Tworzenia Opisu Statystycznego - SZTOS (Hryniewicz, Milewska, 2023). Wizualizacje wyników przeprowadzono z wykorzystaniem pakietu graficznego “ggplot2” (Wickham, 2016).

Model regresji dla zmiennej Objawy depresyjne BDI

Model wpływu Samoocena SES, Poczucie skuteczności GSES, Lęk jako cecha STAI, Płeć Mężczyzna na wyniki zmiennej Objawy depresyjne BDI.

W celu wyjaśnienia zmiennej Objawy depresyjne BDI przeprowadzono wielozmiennową analizę regresji liniowej (Fisher, 1922). W analizie wzięło udział N = 303 badanych obserwacji. Natomiast jakościowy charakter zmiennej Płeć wymagał przekształcenia jej kategorii na wartości liczbowe 0 i 1. Dlatego do dalszej analizy wykorzystano jej przekształcone kategorie.

Analiza regresji wykazała istotne przewidywanie F(4, 298) = 6387.56; p < 0.001. Analiza wartości współczynnika R² wykazała, że model regresyjny uwzględnionych zmiennych niezależnych Samoocena SES, Poczucie skuteczności GSES, Lęk jako cecha STAI, Płeć Mężczyzna, wyjaśniał około 99% (99% po skorygowaniu) zmienności wyników zmiennej Objawy depresyjne BDI. Współczynnik nieskorygowany i skorygowany wyjaśnionej wariancji wynosił odpowiednio: R² = 0.99, adj.R² = 0.99. Ilość istotnych predyktorów w modelu wynosiła: 3. Analiza wykazała, że przewidywany przez model regresji średni poziom zmiennej Objawy depresyjne BDI wynosił M = 0.00. Natomiast analiza statystyk poszczególnych predyktorów w modelu wykazała następujące rezultaty:

• Wzrost wyników zmiennej Samoocena SES wiązał się ze wzrostem wyników Objawy depresyjne BDI, uzyskany wynik był istotny statystycznie, B = 0.50; t = 65.75; p < 0.001; β = 0.50, 95%PU = [ 0.49; 0.52]

• Wzrost wyników zmiennej Poczucie skuteczności GSES wiązał się ze wzrostem wyników Objawy depresyjne BDI, uzyskany wynik był istotny statystycznie, B = 0.62; t = 81.61; p < 0.001; β = 0.63, 95%PU = [ 0.61; 0.64]

• Wzrost wyników zmiennej Lęk jako cecha STAI wiązał się ze spadkiem wyników Objawy depresyjne BDI, uzyskany wynik był istotny statystycznie, B = -0.01; t = -2.05; p = 0.042; β = -0.01, 95%PU = [-0.03; 0.00]

• Wzrost wyników zmiennej Płeć Mężczyzna wiązał się ze spadkiem wyników Objawy depresyjne BDI, uzyskany wynik nie był istotny statystycznie, B = -0.01; t = -0.41; p = 0.682; β = 0.00, 95%PU = [-0.03; 0.02]

Rezultaty oszacowań testowanego modelu przedstawia tabela nr 1. Wizualizacje wyników bazujących na oszacowaniach testowanego modelu przedstawia seria wykresów od nr 1 do nr 5

Tabela nr 1

Wpływ zmiennych Samoocena SES, Poczucie skuteczności GSES, Lęk jako cecha STAI, Płeć Mężczyzna na poziom wyników zmiennej Objawy depresyjne BDI

Zmienne w modelu B s.e. t DPU1 GPU1 p β DPU2 GPU2
Stała 0.00 0.01 0.29 -0.01 0.02 0.771 NA NA NA
Samoocena SES 0.50 0.01 65.75 0.49 0.52 < 0.001 0.50 0.49 0.52
Poczucie skuteczności GSES 0.62 0.01 81.61 0.61 0.64 < 0.001 0.63 0.61 0.64
Lęk jako cecha STAI -0.01 0.01 -2.05 -0.03 0.00 0.042 -0.01 -0.03 0.00
Płeć Mężczyzna -0.01 0.01 -0.41 -0.03 0.02 0.682 0.00 -0.03 0.02

Nota: B = Niestandaryzowany współczynnik regresji; s.e. = błąd standardowy dla B; t = Statystyka t studenta; DPU = Dolny przedział ufności; GPU = Górny przedział ufności; DPU1 / GPU1 = 95% przedziały ufności dla B; p = Istotność statystyczna; β = Standaryzowany współczynnik regresji; DPU2 / GPU2 = 95% przedziały ufności dla β; NA = Brak oszacowań.

Rysunek nr 1

Wpływ zmiennej Samoocena SES na zmienną Objawy depresyjne BDI

Nota: Ciągła linia - oznacza istotny wpływ predyktora.

Rysunek nr 2

Wpływ zmiennej Poczucie skuteczności GSES na zmienną Objawy depresyjne BDI

Nota: Ciągła linia - oznacza istotny wpływ predyktora.

Rysunek nr 3

Wpływ zmiennej Lęk jako cecha STAI na zmienną Objawy depresyjne BDI

Nota: Ciągła linia - oznacza istotny wpływ predyktora.

Rysunek nr 4

Wpływ zmiennej Płeć Mężczyzna na zmienną Objawy depresyjne BDI

Nota: Przerywana linia - - - - oznacza nieistotny wpływ predyktora.

Rysunek nr 5

Wpływ zmiennych Samoocena SES, Poczucie skuteczności GSES, Lęk jako cecha STAI, Płeć Mężczyzna na poziom wyników zmiennej Objawy depresyjne BDI

Nota: Wąsy błędów przedstawiają 95% przedziały ufności dla oszacowania B. Linie zachodzące na siebie przedstawiają w przybliżeniu brak różnic między predyktorami we wpływie na poziom Objawy depresyjne BDI. Natomiast, linie nie zachodzące na siebie przedstawiają w przybliżeniu istotne różnice we wpływie predyktorów na poziom zmiennej Objawy depresyjne BDI.

Diagnostyka utworzonego modelu regresji i rekomendacje wprowadzenia zmian i przekształceń w model

Założenie dotyczące założenia o normalności zmiennych w modelu

W celu weryfikacji normalności rozkładów zmiennych: Objawy depresyjne BDI, Samoocena SES, Poczucie skuteczności GSES, Lęk jako cecha STAI, Płeć Mężczyzna, przeprowadzono serię analiz weryfikujących podobieństwo rozkładu z próby do teoretycznego rozkładu normalnego testem Shapiro-Wilka (Royston, 1982). Analiza wykazała, że:

• Rozkład wyników zmiennej Objawy depresyjne BDI był podobny do teoretycznego rozkladu normalnego SW = 1.00; p = 0.980

• Rozkład wyników zmiennej Samoocena SES był podobny do teoretycznego rozkladu normalnego SW = 1.00; p = 0.771

• Rozkład wyników zmiennej Poczucie skuteczności GSES był istotnie różny od rozkładu normalnego SW = 0.99; p = 0.034

• Rozkład wyników zmiennej Lęk jako cecha STAI był podobny do teoretycznego rozkladu normalnego SW = 1.00; p = 0.907

• Rozkład wyników zmiennej Płeć Mężczyzna był istotnie różny od rozkładu normalnego SW = 0.63; p < 0.001

W celu weryfikacji normalności rozkładów zmiennych: Objawy depresyjne BDI, Samoocena SES, Poczucie skuteczności GSES, Lęk jako cecha STAI, Płeć Mężczyzna, przeprowadzono serię analiz weryfikujących podobieństwo rozkładu z próby do teoretycznego rozkładu normalnego testem Kolmogorova-Smirnova z poprawką Lilieforce’a (Dallal i Wilkinson, 1986). Analiza wykazała, że:

• Rozkład wyników zmiennej Objawy depresyjne BDI był podobny do teoretycznego rozkładu normalnego KS = 0.02; p = 0.970

• Rozkład wyników zmiennej Samoocena SES był podobny do teoretycznego rozkładu normalnego KS = 0.05; p = 0.113

• Rozkład wyników zmiennej Poczucie skuteczności GSES był istotnie różny od rozkładu normalnego KS = 0.07; p = 0.005

• Rozkład wyników zmiennej Lęk jako cecha STAI był podobny do teoretycznego rozkładu normalnego KS = 0.03; p = 0.769

• Rozkład wyników zmiennej Płeć Mężczyzna był istotnie różny od rozkładu normalnego KS = 0.38; p < 0.001

Omawiane wyniki przedstawia Tabela nr 2.

Założenie dotyczące współliniowości predyktorów w modelu

Analiza współczynników współliniowości VIF (Farrar i Glauber, 1967) wykazała, że zmienna Samoocena SES nie jest współliniowa VIF = 1.52, Poczucie skuteczności GSES nie jest współliniowa VIF = 1.52, Lęk jako cecha STAI nie jest współliniowa VIF = 1.08, Płeć Mężczyzna nie jest współliniowa VIF = 1.07. Omawiane wyniki przedstawia Tabela nr 2.

Założenie dotyczące o normalności reszt w modelu

W celu weryfikacji założenia dotyczącego rozkładu normalności wartości resztowych testowanego modelu (Knief i Forstmeier, 2021) przeprowadzono Kolmogorova - Smirnova z poprawką Lilieforce’a (test dedykowany dla wielkości próbki N > 50). Analiza testem Kolmogorowa Smirnova z poprawką Lilieforce’a (Dallal i Wilkinson, 1986; Royston, 1982) wykazała, że rozkład wyników reszt testowanego modelu regresji był istotnie różny od teoretycznego rozkładu normalnego KS = 0.18; p < 0.001. Oceny wzrokowej normalności rozkładu reszt można dokonać analizując wzorce wyników na Rysunku nr 6 i Rysunku nr 7.

Założenie dotyczące homoskedastyczności wariancji reszt

W celu weryfikacji założenia dotyczącego homoskedastyczności wariancji przeprowadzono analizę testem Breusha - Pagana (Breusch i Pagan, 1979). Analiza jego wyników wykazała, że wariancja reszt była różna i wskazuje to na brak spełnienia założenia o homoskedastyczności wariancji (reszty w testowanym modelu malały lub wzrastały wraz ze wzrostem wyników przewidywanej zmiennej), χ² = 15.38; p < 0.001. Wyniki tego założenia przedstawia Rysunek nr 9.

Przewidywanie i rozkład wyników przewidywanej zmiennej Objawy depresyjne BDI

Relację między rzeczywistymi wartościami zmiennej Objawy depresyjne BDI, a wartościami przewidywanymi przez testowany model przedstawia Rysunek nr 10. Rozkład wyników zmiennej Objawy depresyjne BDI przewidywanych przez model przedstawia rysunek nr 8.

Tabela nr 2

Diagnoza normalności rozkładów zmiennych w modelu oraz analiza współliniowosci predyktorow

Zmienne KS p dla KS SW p dla SW M SD s.e. MIN MAX VIF Interpretacja VIF
Objawy depresyjne BDI 0.02 0.970 1.00 0.980 0.00 1.00 0.06 -2.72 2.72 NA NA
Samoocena SES 0.05 0.113 1.00 0.771 0.00 1.00 0.06 -2.72 2.94 1.52 Zmienna nie jest współliniowa
Poczucie skuteczności GSES 0.07 0.005 0.99 0.034 0.00 1.00 0.06 -2.25 2.70 1.52 Zmienna nie jest współliniowa
Lęk jako cecha STAI 0.03 0.769 1.00 0.907 0.00 1.00 0.06 -2.72 2.72 1.08 Zmienna nie jest współliniowa
Płeć Mężczyzna 0.38 < 0.001 0.63 < 0.001 0.42 0.49 0.03 0.00 1.00 1.07 Zmienna nie jest współliniowa

Nota: Wyniki testu KS (Kołmogorov - Smirnov z poprawką Lilieforce’a) i SW (Shapiro - Wilk), których p < 0.05 dla danej zmiennej, wskazują na istotną różnicę między rozkładem wyników obserwowanych w próbie danych a teoretycznym rozkładem normalnym: NA = Współczynnik VIF nie jest wyliczany dla zmiennej Objawy depresyjne BDI ze względu na to, że Objawy depresyjne BDI jest zmienną wyjaśnianą przez model.

Graficzne podsumowanie diagnozy modelu regresji

Rysunek nr 6

Rozkład składnika losowego (reszt) modelu regresji

Nota: Rozkład wyników podobny do dzwonu wskazuje na podobieństwo do teoretycznego rozkładu normalnego.

Rysunek nr 7

Rozkład składnika losowego (reszt) modelu regresji - TYP QQ

Nota: Normalność składnika losowego modelu regresji (reszt) zachodzi, gdy wartości obserwacji są położone blisko przekątnej linii

Wykres nr 8

Rozkład przewidywanych przez model wartosci zmiennej Objawy depresyjne BDI

Nota: Rozkład wyników wartości przewidywanych podobny do dzwonu, wskazuje na podobieństwo do teoretycznego rozkładu normalnego.

Rysunek nr 9

Równość wariancji składnika losowego modelu regresji

Nota: Równość wariancji składnika losowego modelu regresji zachodzi, gdy na na całej długości wartości przewidywanych przez model występuje podobna zmienność reszt modelu.

Rysunek nr 10

Relacja między wartościami rzeczywistymi (z próby) a wartościami przewidzianymi przez model

Nota: Modelowy wykres relacji wartości rzeczywistych (z próby) z wartościami przewidywanymi, powinien ukazywać pozytywną relację między zmiennymi. Im większa siła korelacji między obiema zmiennymi, a także mniejsze odchylenia obserwacji od linii regresji, tym model predyktorów Samoocena SES, Poczucie skuteczności GSES, Lęk jako cecha STAI, Płeć Mężczyzna lepiej przewiduje wartości rzeczywiste zmiennej Objawy depresyjne BDI.

Bibliografia:

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/

Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. ISBN 978-3-319-24277-4

Fisher, R. A. 1922. The goodness of fit of regression formulae, and the distribution of regression coefficients. Journal of the Royal Statistical Society. 85 (4), pp. 597-612. https://doi.org/10.2307/2341124

Royston, J. P. (1982). An Extension of Shapiro and Wilk’s W Test for Normality to Large Samples. Journal of the Royal Statistical Society. Series C (Applied Statistics), 31(2), 115–124. https://doi.org/10.2307/2347973

Dallal, G.E. and Wilkinson, L. (1986) An analytic approximation to the distribution of Lilliefors’ test for normality. The American Statistician, 40, 294–296.

Farrar, D. E., & Glauber, R. R. (1967). Multicollinearity in Regression Analysis: The Problem Revisited. The Review of Economics and Statistics, 49(1), 92–107. https://doi.org/10.2307/1937887

Knief, U., & Forstmeier, W. (2021). Violating the normality assumption may be the lesser of two evils. In Behavior Research Methods (Vol. 53, Issue 6, pp. 2576–2590). Springer Science and Business Media LLC. https://doi.org/10.3758/s13428-021-01587-5

T.S. Breusch & A.R. Pagan (1979), A Simple Test for Heteroscedasticity and Random Coefficient Variation. Econometrica 47, 1287–1294