Rysunek nr 1
Relacja zmiennej Lęk jako cecha STAI ze zmienną Lęk jako stan STAI
Niniejszą analizę i raport opisowy wykonano w Systemie Zautomatyzowanego Tworzenia Opisu Statystycznego - SZTOS (Hryniewicz, Milewska, 2023).Wybrana procedura ma na celu identyfikacje wartości odstających w liniowych relacjach między dwiema zmiennymi. Pierwszy krok algorymtu w losowej kolejności (jeśli zmiennych niezależnych lub zależnych jest więcej niż dwie) wybiera zmienną niezależną i zależną, a następnie buduje z nich model regresji. Losowość doboru tych zmiennych ma na celu ograniczenie tendencyjności w kolejności uzupełniania braków danych. Na podstawie modelu regresyjnego wyliczane są następujące współczynniki: studentyzowane reszty, wartości dźwigni oraz dystans Cooka (Fox, 2016). Na podstawie ich podwyższonych wartości są wskazywane wiersze obserwacji w bazie danych które w których program wstawia braki danych. Wstawia je zarówno w zmienną niezależną jak i zależną. Po ich wstawieniu, miejsca tych braków są uzupełniane techniką losowych lasów ang. random forests. Jeśli zmiennych niezależnych lub zależnych jest więcej niż dwie, to dane z pierwszej analizy wygładzania przechodzą wygładzone do następnej analizy wygładzania i następnej itd. Zaleca się ostrożność w wykorzystywaniu tej procedury.
Technika losowych lasów
Wypełnianie braków danych metodą losowych lasów zostało wykonane za pośrednictwem pakietu „missForest” z repozytorium CRAN (Stekhoven & Bühlmann, 2012) w programie R. Jest to nieparametryczna metoda, która wykorzystuje technikę losowych lasów (ang. random forests) do maksymalizacji predykcji wartości w miejscach braków danych (Breiman, 2001). Technika lasów losowych polega na losowej selekcji (ze zwracaniem) obserwacji ze wskazanego zbioru danych w celu utworzenia licznych trzew decyzyjnych (zawierających różne zmienne i obserwacje ze zbioru danych), pozwalających po agregacji na predykcję (metodą przewidywania) lub klasyfikację (metodą głosowania) zmiennych zależnych (ilościowych lub jakościowych). Technika uzupełniania braków danych oparta o metodę losowych lasów polega z grubsza na iteracyjnej realizacji 3 kroków. W pierwszym kroku ustalana jest ilość i jakość (jakościowe vs ilościowe) braków danych. W drugim, braki danych są wypełniane wartością średnią lud dominantą. W trzecim korku następuje predykcja regresyjna lub klasyfikacyjna tych braków danych metodą losowych lasów. W procedurze przwidywania wartrości w miejscach braków jest wykorzystywany cały zbiór danych. Kroki te są powtarzane do momentu zminimalizowania błędu predykcji lub klasyfikacji.
Wyniki analizy są przedstawione na serii rysunków oraz w tabalach. Rysunek z indeksem a przedstawia wykres obserwacji wpływowych, rysunek z indeksem b przedstawia relację między zmiennymi przeliczoną na danych surowych i relację między tymi samymi zmiennymi przeliczoną na danych wygładzonych, przewidzianych przez technikę losowych lasów. Tabela przedstawia te zestawienia w sposób tebelaryczny.
Analizę wykonano na zbiorze liczącym N = 303 obserwacji.
Zmienne w zbiorze biorące udział w przewidywaniu braków danych to: Płeć; Wykształcenie; Wiek; Samoocena SES; Poczucie skuteczności GSES; Objawy depresyjne BDI; Lęk jako cecha STAI; Lęk jako stan STAI; Pozytywny afekt PANAS; Negatywny afekt PANAS.
Bibliografia
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/
Breiman, L. (2001). Random Forests. Machine Learning, 45, 5–32. https://doi.org/10.1007/978-3-030-62008-0_35
Stekhoven, D. J., & Bühlmann, P. (2012). Missforest-Non-parametric missing value imputation for mixed-type data. Bioinformatics, 28(1), 112–118. https://doi.org/10.1093/bioinformatics/btr597
Fox, J. and Weisberg, S. (2019) An R Companion to Applied Regression, Third Edition, Sage. https://cran.r-project.org/web/packages/car/index.html
Rysunek nr 1a
Obserwacje odstające w relacji między Lęk jako stan STAI i Lęk jako cecha STAI
Nota: Nr id = pozycja wiersza w zbiorze danych
Rysunek nr 1b
Obserwacje odstające w relacji między Lęk jako stan STAI i Lęk jako cecha STAI - Dane surowe i dane po imputacji (odpowiednio lewa i prawa strona)
Nota: Nr id = pozycja wiersza w zbiorze danych
Tabela nr 1
Obserwacje odstające dla pary zmiennych Lęk jako stan STAI i Lęk jako cecha STAI - Dane surowe i po imputacji
| id | Lęk jako stan STAI - dane surowe | Lęk jako stan STAI po imputacji | Lęk jako cecha STAI - dane surowe | Lęk jako cecha STAI po imputacji |
|---|---|---|---|---|
| 1 | -20.00 | 3.76 | 4.25 | 4.04 |
| 2 | -21.00 | 3.51 | 4.25 | 3.29 |
| 31 | 1.25 | 1.56 | 1.00 | 2.24 |
| 76 | 1.00 | 2.19 | 1.00 | 2.84 |
Nota: Nr id = pozycja wiersza w zbiorze danych