Niniejszą analizę eksploracyjną zbioru danych wykonano w Systemie Zautomatyzowanego Tworzenia Opisu Statystycznego - SZTOS (Hryniewicz, Milewska, 2023) w module eksploracja.
• W pierwszej części raportu została umieszczona informacja o liczbie
obserwacji oraz liczbie zmiennych we wprowadzonej bazie danych.
•
Aby usunąć z bazy danych a) obserwacje które nie zawierają żadnych
danych, b) zmienne których liczba obserwacji jest mniejsza lub równa 1,
zidentyfikowano takie przypadki. Jeśli takowe wystąpiły, zostały
usunięte wraz z podaniem informacji o ich współrzędnych.
• Tej
samej procedurze zostały poddane zmienne, które posiadały identyczne
wartości.
Liczba obserwacji: 303
Liczba zmiennych: 11
W bazie danych nie wystąpują OBSERWACJE,
które zawierają wyłącznie braki danych.
Obserwacje, które
zawierały wyłącznie braki danych to: brak.
W bazie danych nie wystąpiły ZMIENNE, które
zawierają wyłącznie braki danych lub 1 obserwację.
Zmienne, które
zawierały wyłącznie braki danych lub 1 obserwację to: brak.
W bazie danych nie wystąpiły zmienne, które miały
STAŁĄ WARIANCJĘ.
Zmienne, które posiadały identyczne wartości to:
brak.
Wyniki po wstępnym oczyszczeniu są zapisane w bazie
danych
baza_wstępnie_oczyszczona.xlsx
• W tak przygotowanej bazie danych zidentyfikowano zmienne, które
posiadają odsetek braków danych większy niż ten wyznaczony przez
użytkownika, a informację podano do raportu.
W bazie danych wystąpiły ZMIENNE, które zawierają
ponad lub równo: 5% braków danych.
Zmienne, które zawierają równo
lub ponad 5% braków danych, to: Wykształcenie, Poczucie skuteczności
GSES, Objawy depresyjne BDI, Negatywny afekt PANAS.
Dokładne wyniki przedstawia Tabela nr 1.
| Zmienna | % braków danych | n/N braków danych |
|---|---|---|
| Płeć | 3.30% | 10/303 |
| Wiek | 4.29% | 13/303 |
| Wykształcenie | 5.28% | 16/303 |
| Samoocena SES | 3.96% | 12/303 |
| Poczucie skuteczności GSES | 6.93% | 21/303 |
| Objawy depresyjne BDI | 5.28% | 16/303 |
| Lęk jako stan STAI | 4.62% | 14/303 |
| Lęk jako cecha STAI | 4.29% | 13/303 |
| Pozytywny afekt PANAS | 3.96% | 12/303 |
| Negatywny afekt PANAS | 6.93% | 21/303 |
• Następnie zidentyfikowano obserwacje, które zawierają ponad połowę
braków danych i podano ich współrzędne. Taki stan rzeczy może wynikać
np. z porzucenia badania w trakcie jego trwania. Może to powodować
ograniczoną przydatność takich obserwacji w analizach.
W bazie danych nie wystąpiły OBSERWACJE, które
zawierają ponad połowę braków danych.
Numery wierszy, które
zawierają ponad połowę braków danych: brak.
Wizualną prezentację braków danych stanowi Rysunek nr 1.
Rysunek nr 1
Graficzna prezentacja braków
danych występujących w zakresie zmiennych; Płeć, Wiek, Wykształcenie,
Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk
jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny
afekt PANAS .
Nota:
Wykres przedstawia następujące zmienne: Zm1 - Płeć, Zm2 - Wiek, Zm3 -
Wykształcenie, Zm4 - Samoocena SES, Zm5 - Poczucie skuteczności GSES,
Zm6 - Objawy depresyjne BDI, Zm7 - Lęk jako stan STAI, Zm8 - Lęk jako
cecha STAI, Zm9 - Pozytywny afekt PANAS, Zm10 - Negatywny afekt PANAS.
[1] “”
• Analiza dla zmiennej Płeć wykazała, że liczebność jej poszczególnych poziomów Kobieta, Mężczyzna wynosiła odpowiednio 170, 123 (ich odsetek wynosił odpowiednio 56.11, 40.59), co stanowiło sumę 293 na 303 wystąpień (96.70% ogółu obserwacji). A zatem liczebność braków danych to: 10, a odsetek to: 3.30%.
• Analiza dla zmiennej Wykształcenie wykazała, że liczebność jej poszczególnych poziomów Wyższe, Średnie, Podstawowe wynosiła odpowiednio 159, 126, 2 (ich odsetek wynosił odpowiednio 52.48, 41.58, 0.66), co stanowiło sumę 287 na 303 wystąpień (94.72% ogółu obserwacji). A zatem liczebność braków danych to: 16, a odsetek to: 5.28%.
Otrzymane wyniki przedstawiają Rysunki 1-2.
Rysunek nr 1
Częstość występowania
wartości zmiennej Płeć (z uwzględnieniem braków danych)
Rysunek nr 2
Częstość występowania
wartości zmiennej Wykształcenie (z uwzględnieniem braków danych)
Analiza normalności rozkładu zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS.
W celu weryfikacji założeń dotyczacych normalności rozkładów wyników analizowanych zmiennych przeprowadzono dwa testy statystyczne, był to test Shapiro - Wilka (stosowany dla małoliczebnych próbek badawczych N < 50 lub N < 100) (Royston, 1982) oraz test Kolmogorova Smirnova z poprawką Lilieforce’a (stosowany dla dużych prób N > 50 lub N > 100) (Dallal i Wilkinson, 1986). Zdecydowano się na taką analizę ze względu na brak jednoznacznych wytycznych dotyczących stosowania obu testów przy danej liczebności badanych obserwacji.
W celu weryfikacji normalności rozkładów zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS, przeprowadzono serię analiz weryfikujących podobieństwo rozkładu z próby do teoretycznego rozkładu normalnego testem Shapiro-Wilka (Royston, 1982). Analiza wykazała, że:
• Rozkład wyników zmiennej Wiek był istotnie różny od rozkładu normalnego SW = 0.85; p < 0.001
• Rozkład wyników zmiennej Samoocena SES był istotnie różny od rozkładu normalnego SW = 0.97; p < 0.001
• Rozkład wyników zmiennej Poczucie skuteczności GSES był istotnie różny od rozkładu normalnego SW = 0.95; p < 0.001
• Rozkład wyników zmiennej Objawy depresyjne BDI był istotnie różny od rozkładu normalnego SW = 0.96; p < 0.001
• Rozkład wyników zmiennej Lęk jako stan STAI był istotnie różny od rozkładu normalnego SW = 0.98; p < 0.001
• Rozkład wyników zmiennej Lęk jako cecha STAI był istotnie różny od rozkładu normalnego SW = 0.44; p < 0.001
• Rozkład wyników zmiennej Pozytywny afekt PANAS był istotnie różny od rozkładu normalnego SW = 0.97; p < 0.001
• Rozkład wyników zmiennej Negatywny afekt PANAS był istotnie różny od rozkładu normalnego SW = 0.95; p < 0.001
W celu dodatkowej weryfikacji normalności rozkładów zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS, przeprowadzono serię analiz weryfikujących podobieństwo rozkładu z próby do teoretycznego rozkładu normalnego testem Kolmogorova-Smirnova z poprawką Lilieforce’a (Dallal i Wilkinson, 1986). Analiza wykazała, że:
• Rozkład wyników zmiennej Wiek był istotnie różny od rozkładu normalnego KS = 0.22; p < 0.001
• Rozkład wyników zmiennej Samoocena SES był istotnie różny od rozkładu normalnego KS = 0.12; p < 0.001
• Rozkład wyników zmiennej Poczucie skuteczności GSES był istotnie różny od rozkładu normalnego KS = 0.14; p < 0.001
• Rozkład wyników zmiennej Objawy depresyjne BDI był istotnie różny od rozkładu normalnego KS = 0.16; p < 0.001
• Rozkład wyników zmiennej Lęk jako stan STAI był istotnie różny od rozkładu normalnego KS = 0.10; p < 0.001
• Rozkład wyników zmiennej Lęk jako cecha STAI był istotnie różny od rozkładu normalnego KS = 0.23; p < 0.001
• Rozkład wyników zmiennej Pozytywny afekt PANAS był istotnie różny od rozkładu normalnego KS = 0.12; p < 0.001
• Rozkład wyników zmiennej Negatywny afekt PANAS był istotnie różny od rozkładu normalnego KS = 0.14; p < 0.001
Wyniki analiz przedstawia Tabela nr 1.
| Zmienna | N | Min | Max | M | SD | SE | Me | Skośność | Kurtoza | KS | p | SW | p |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Wiek | 290 | 20.00 | 51.00 | 27.62 | 5.95 | 0.35 | 26.00 | 1.43 | 1.72 | 0.22 | < 0.001 | 0.85 | < 0.001 |
| Samoocena SES | 291 | 1.00 | 4.00 | 2.80 | 0.71 | 0.04 | 2.80 | -0.32 | -0.49 | 0.12 | < 0.001 | 0.97 | < 0.001 |
| Poczucie skuteczności GSES | 282 | 1.00 | 4.00 | 2.15 | 0.75 | 0.04 | 2.00 | 0.49 | -0.18 | 0.14 | < 0.001 | 0.95 | < 0.001 |
| Objawy depresyjne BDI | 287 | 1.00 | 5.00 | 3.63 | 0.76 | 0.04 | 3.75 | -0.35 | 0.22 | 0.16 | < 0.001 | 0.96 | < 0.001 |
| Lęk jako stan STAI | 289 | 1.00 | 5.00 | 3.26 | 0.90 | 0.05 | 3.25 | -0.33 | -0.09 | 0.10 | < 0.001 | 0.98 | < 0.001 |
| Lęk jako cecha STAI | 290 | -21.00 | 5.00 | 2.60 | 2.19 | 0.13 | 2.75 | -8.16 | 85.12 | 0.23 | < 0.001 | 0.44 | < 0.001 |
| Pozytywny afekt PANAS | 291 | 1.00 | 4.00 | 2.80 | 0.71 | 0.04 | 2.80 | -0.32 | -0.49 | 0.12 | < 0.001 | 0.97 | < 0.001 |
| Negatywny afekt PANAS | 282 | 1.00 | 4.00 | 2.15 | 0.75 | 0.04 | 2.00 | 0.49 | -0.18 | 0.14 | < 0.001 | 0.95 | < 0.001 |
Nota: N = Liczebność; Min = Wartość minimalna; Max = Wartość maksymalna; M = Średnia arytmetyczna; SD = Odchylenie standardowe; SE = Błąd standardowy średniej; Me = Mediana; p = Istotność statystyczna. Wyniki testu KS (Kołmogorov - Smirnov) i SW (Shapiro - Wilk), których p < 0.05 dla danej zmiennej, wskazują na istotną różnicę między rozkładem wyników w próbie a teoretycznym rozkładem normalnym.
Dallal, G.E. and Wilkinson, L. (1986) An analytic approximation to the distribution of Lilliefors’ test for normality. The American Statistician, 40, 294–296.
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/
Royston, J. P. (1982). An Extension of Shapiro and Wilk’s W Test for Normality to Large Samples. Journal of the Royal Statistical Society. Series C (Applied Statistics), 31(2), 115–124. https://doi.org/10.2307/2347973
Aby dokonać wizualnej oceny rozkładu zmiennych wykonano histogramy
przedstawione na Rysunkach 1-8.
Rysunek nr 1
Rozkład wartości zmiennej Wiek
Nota:
Kolor czerwony przedstawia Średnią;
Kolor zielony przedstawia Medianę.
Rysunek nr 2
Rozkład wartości
zmiennej Samoocena SES
Nota:
Kolor czerwony przedstawia Średnią;
Kolor zielony przedstawia Medianę.
Rysunek nr 3
Rozkład wartości
zmiennej Poczucie skuteczności GSES
Nota:
Kolor czerwony przedstawia Średnią;
Kolor zielony przedstawia Medianę.
Rysunek nr 4
Rozkład wartości
zmiennej Objawy depresyjne BDI
Nota:
Kolor czerwony przedstawia Średnią;
Kolor zielony przedstawia Medianę.
Rysunek nr 5
Rozkład wartości
zmiennej Lęk jako stan STAI
Nota:
Kolor czerwony przedstawia Średnią;
Kolor zielony przedstawia Medianę.
Rysunek nr 6
Rozkład wartości
zmiennej Lęk jako cecha STAI
Nota:
Kolor czerwony przedstawia Średnią;
Kolor zielony przedstawia Medianę.
Rysunek nr 7
Rozkład wartości
zmiennej Pozytywny afekt PANAS
Nota:
Kolor czerwony przedstawia Średnią;
Kolor zielony przedstawia Medianę.
Rysunek nr 8
Rozkład wartości
zmiennej Negatywny afekt PANAS
Nota:
Kolor czerwony przedstawia Średnią;
Kolor zielony przedstawia Medianę.
Aby skoncentrować wizualizację rozkładów zmiennych histogramy ujęto
na matrycach typu 2x2. Grafiki te zostały przedstawione na Rysunkach
1-2.
Rysunek nr 1
Rozkład wartości
zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy
depresyjne BDI
Rysunek
nr 2
Rozkład wartości zmiennych: Lęk jako stan STAI,
Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS
Aby dokonać wizualnej oceny rozkładu zmiennych wykonano box-ploty
przedstawione na Rysunkach 1-8.
Rysunek nr 1
Rozkład wartości zmiennej Wiek
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Rysunek nr 2
Rozkład wartości
zmiennej Samoocena SES
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Rysunek nr 3
Rozkład wartości
zmiennej Poczucie skuteczności GSES
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Rysunek nr 4
Rozkład wartości
zmiennej Objawy depresyjne BDI
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Rysunek nr 5
Rozkład wartości
zmiennej Lęk jako stan STAI
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Rysunek nr 6
Rozkład wartości
zmiennej Lęk jako cecha STAI
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Rysunek nr 7
Rozkład wartości
zmiennej Pozytywny afekt PANAS
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Rysunek nr 8
Rozkład wartości
zmiennej Negatywny afekt PANAS
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Aby skoncentrować wizualizację rozkładów zmiennych box-ploty ujęto na
matrycach typu 2x2. Grafiki te zostały przedstawione na Rysunkach
1-2.
Rysunek nr 1
Rozkład wartości
zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy
depresyjne BDI
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Rysunek nr 2
Rozkład wartości
zmiennych: Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt
PANAS, Negatywny afekt PANAS
Nota:
Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp
międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR.
Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.
Określając przypadki odstające tj. te wykraczające poza pewne wartości odchyleń standardowych ustalono, że za tego typu przypadki uznajemy wartości zmiennych: poniżej -3 SD oraz powyżej 3 SD.
Analiza przypadków odstających wykazała, że:
• W zakresie zmiennej Wiek wykryto 5 przypadków odstających, co stanowiło 1.72% obserwacji.
• W zakresie zmiennej Samoocena SES wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.
• W zakresie zmiennej Poczucie skuteczności GSES wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.
• W zakresie zmiennej Objawy depresyjne BDI wykryto 2 przypadków odstających, co stanowiło 0.70% obserwacji.
• W zakresie zmiennej Lęk jako stan STAI wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.
• W zakresie zmiennej Lęk jako cecha STAI wykryto 2 przypadków odstających, co stanowiło 0.69% obserwacji.
• W zakresie zmiennej Pozytywny afekt PANAS wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.
• W zakresie zmiennej Negatywny afekt PANAS wykryto 0 przypadków
odstających, co stanowiło 0.00% obserwacji.
Wyniki po usunięciu przypadków odstających są zapisane w
bazie danych
baza_usunięte_obsy_po_SD.xlsx
W celu unormalnienia rozkładów w analizowanych danych, wykorzystano bibliotekę języka R o nazwie „bestNormalize” (Ryan, 2021) , która pozwala na testowanie wielu przekształceń unormalniających rozkład. Logika tej funkcji polega na testowaniu 15 możliwych przekształceń, wraz z jednoczesnym ustaleniem optymalnych parametrów przekształceniowych np. hiperperametru Lambda w przekształceniu Boxa Coxa (Box & Cox, 1964).
Istnieje wiele przypadków, w których badacze mogą chcieć znormalizować zmienną. Oto jeden z najczęstszych:
Często problematyczne założenie o normalności zmiennej zależnej (uwarunkowanego współzmiennymi w modelu) w klasycznym problemie regresji liniowej. Przez lata stosowano wiele metod, aby złagodzić to założenie: uogólnione modele liniowe, regresja kwantylowa, modele przetrwania itp. Jedną z technik, która wciąż jest dość popularna w tym kontekście, jest transformacja danych, aby wyglądały normalnie. Może to być coś tak prostego jak transformacja logarytmiczna tzw. log() lub coś tak złożonego jak transformacja Yeo-Johnsona.
• W celu wyboru metody normalizującej zmienną Wiek wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika sqrt_x. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 11.67. • W celu wyboru metody normalizującej zmienną Samoocena SES wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika center_scale. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 13.60. • W celu wyboru metody normalizującej zmienną Poczucie skuteczności GSES wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika boxcox. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 12.06. • W celu wyboru metody normalizującej zmienną Objawy depresyjne BDI wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika arcsinh_x. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 30.21. • W celu wyboru metody normalizującej zmienną Lęk jako stan STAI wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika boxcox. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 13.41. • W celu wyboru metody normalizującej zmienną Lęk jako cecha STAI wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika yeojohnson. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 8.87. • W celu wyboru metody normalizującej zmienną Pozytywny afekt PANAS wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika center_scale. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 13.60. • W celu wyboru metody normalizującej zmienną Negatywny afekt PANAS wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika boxcox. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 12.06.
Wyniki przekształceń zostały zapisane w bazie
danych
baza_trans.xlsx
Box, G. E., & Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical Society: Series B (Methodological), 26 (2), 211–243.
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/
Ryan, A. P. (2021). Finding optimal normalizing transformations via bestNormalize. The R Journal, 13 (1), 310. https://doi.org/10.32614/rj-2021-041.
Wypełnianie braków danych metodą losowych lasów zostało wykonane za pośrednictwem pakietu „missForest” z repozytorium CRAN (Stekhoven & Bühlmann, 2012) w programie R. Jest to nieparametryczna metoda, która wykorzystuje technikę losowych lasów (ang. random forests) do maksymalizacji predykcji wartości w miejscach braków danych (Breiman, 2001). Technika lasów losowych polega na losowej selekcji (ze zwracaniem) obserwacji ze wskazanego zbioru danych w celu utworzenia licznych trzew decyzyjnych (zawierających różne zmienne i obserwacje ze zbioru danych), pozwalających po agregacji na predykcję (metodą przewidywania) lub klasyfikację (metodą głosowania) zmiennych zależnych (ilościowych lub jakościowych). Technika uzupełniania braków danych oparta o metodę losowych lasów polega z grubsza na iteracyjnej realizacji 3 kroków. W pierwszym kroku ustalana jest ilość i jakość (jakościowe vs ilościowe) braków danych. W drugim, braki danych są wypełniane wartością średnią lud dominantą. W trzecim kroku następuje predykcja regresyjna lub klasyfikacyjna tych braków danych metodą losowych lasów. W procedurze przwidywania wartrości w miejscach braków jest wykorzystywany cały zbiór danych w losowy sposób. Kroki te są powtarzane do momentu zminimalizowania błędu predykcji lub klasyfikacji.
Wyniki po usunięciu przypadków odstających i zastąpieniu
wszystkich braków danych techniką missforest są zapisane w bazie
danych
baza_wszystkie_NA_input_missforest_po_cięciu.xlsx
Breiman, L. (2001). Random forests. Machine Learning, 45 , 5–32.
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/
Stekhoven, D. J., & Bühlmann, P. (2012). MissForest—non-parametric missing value imputation for mixed-type data. Bioinformatics, 28 (1), 112–118.