Eksploracja zbioru danych

Stan wprowadzonej bazy danych

Niniejszą analizę eksploracyjną zbioru danych wykonano w Systemie Zautomatyzowanego Tworzenia Opisu Statystycznego - SZTOS (Hryniewicz, Milewska, 2023) w module eksploracja.

• W pierwszej części raportu została umieszczona informacja o liczbie obserwacji oraz liczbie zmiennych we wprowadzonej bazie danych.
• Aby usunąć z bazy danych a) obserwacje które nie zawierają żadnych danych, b) zmienne których liczba obserwacji jest mniejsza lub równa 1, zidentyfikowano takie przypadki. Jeśli takowe wystąpiły, zostały usunięte wraz z podaniem informacji o ich współrzędnych.
• Tej samej procedurze zostały poddane zmienne, które posiadały identyczne wartości.

Liczba obserwacji: 303
Liczba zmiennych: 11

W bazie danych nie wystąpują OBSERWACJE, które zawierają wyłącznie braki danych.
Obserwacje, które zawierały wyłącznie braki danych to: brak.

W bazie danych nie wystąpiły ZMIENNE, które zawierają wyłącznie braki danych lub 1 obserwację.
Zmienne, które zawierały wyłącznie braki danych lub 1 obserwację to: brak.

W bazie danych nie wystąpiły zmienne, które miały STAŁĄ WARIANCJĘ.
Zmienne, które posiadały identyczne wartości to: brak.

Wyniki po wstępnym oczyszczeniu są zapisane w bazie danych
baza_wstępnie_oczyszczona.xlsx

Stan braków danych w analizowanej bazie danych

• W tak przygotowanej bazie danych zidentyfikowano zmienne, które posiadają odsetek braków danych większy niż ten wyznaczony przez użytkownika, a informację podano do raportu.

W bazie danych wystąpiły ZMIENNE, które zawierają ponad lub równo: 5% braków danych.
Zmienne, które zawierają równo lub ponad 5% braków danych, to: Wykształcenie, Poczucie skuteczności GSES, Objawy depresyjne BDI, Negatywny afekt PANAS.

Dokładne wyniki przedstawia Tabela nr 1.

Tabela nr 1
Liczebność oraz odsetek braków danych w poszczególnych zmiennych: Płeć, Wiek, Wykształcenie, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS.

Zmienna	% braków danych	n/N braków danych
Płeć	3.30%	10/303
Wiek	4.29%	13/303
Wykształcenie	5.28%	16/303
Samoocena SES	3.96%	12/303
Poczucie skuteczności GSES	6.93%	21/303
Objawy depresyjne BDI	5.28%	16/303
Lęk jako stan STAI	4.62%	14/303
Lęk jako cecha STAI	4.29%	13/303
Pozytywny afekt PANAS	3.96%	12/303
Negatywny afekt PANAS	6.93%	21/303

• Następnie zidentyfikowano obserwacje, które zawierają ponad połowę braków danych i podano ich współrzędne. Taki stan rzeczy może wynikać np. z porzucenia badania w trakcie jego trwania. Może to powodować ograniczoną przydatność takich obserwacji w analizach.

W bazie danych nie wystąpiły OBSERWACJE, które zawierają ponad połowę braków danych.
Numery wierszy, które zawierają ponad połowę braków danych: brak.

Wizualną prezentację braków danych stanowi Rysunek nr 1.

Rysunek nr 1
Graficzna prezentacja braków danych występujących w zakresie zmiennych; Płeć, Wiek, Wykształcenie, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS .
Nota: Wykres przedstawia następujące zmienne: Zm1 - Płeć, Zm2 - Wiek, Zm3 - Wykształcenie, Zm4 - Samoocena SES, Zm5 - Poczucie skuteczności GSES, Zm6 - Objawy depresyjne BDI, Zm7 - Lęk jako stan STAI, Zm8 - Lęk jako cecha STAI, Zm9 - Pozytywny afekt PANAS, Zm10 - Negatywny afekt PANAS.

[1] “”

Rozkład zmiennych jakościowych z uwzględnieniem braków danych

• Analiza dla zmiennej Płeć wykazała, że liczebność jej poszczególnych poziomów Kobieta, Mężczyzna wynosiła odpowiednio 170, 123 (ich odsetek wynosił odpowiednio 56.11, 40.59), co stanowiło sumę 293 na 303 wystąpień (96.70% ogółu obserwacji). A zatem liczebność braków danych to: 10, a odsetek to: 3.30%.

• Analiza dla zmiennej Wykształcenie wykazała, że liczebność jej poszczególnych poziomów Wyższe, Średnie, Podstawowe wynosiła odpowiednio 159, 126, 2 (ich odsetek wynosił odpowiednio 52.48, 41.58, 0.66), co stanowiło sumę 287 na 303 wystąpień (94.72% ogółu obserwacji). A zatem liczebność braków danych to: 16, a odsetek to: 5.28%.

Otrzymane wyniki przedstawiają Rysunki 1-2.

Rysunek nr 1
Częstość występowania wartości zmiennej Płeć (z uwzględnieniem braków danych)

Rysunek nr 2
Częstość występowania wartości zmiennej Wykształcenie (z uwzględnieniem braków danych)

Statystyki opisowe i testy normalności analizowanych zmiennych

Analiza normalności rozkładu zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS.

W celu weryfikacji założeń dotyczacych normalności rozkładów wyników analizowanych zmiennych przeprowadzono dwa testy statystyczne, był to test Shapiro - Wilka (stosowany dla małoliczebnych próbek badawczych N < 50 lub N < 100) (Royston, 1982) oraz test Kolmogorova Smirnova z poprawką Lilieforce’a (stosowany dla dużych prób N > 50 lub N > 100) (Dallal i Wilkinson, 1986). Zdecydowano się na taką analizę ze względu na brak jednoznacznych wytycznych dotyczących stosowania obu testów przy danej liczebności badanych obserwacji.

W celu weryfikacji normalności rozkładów zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS, przeprowadzono serię analiz weryfikujących podobieństwo rozkładu z próby do teoretycznego rozkładu normalnego testem Shapiro-Wilka (Royston, 1982). Analiza wykazała, że:

• Rozkład wyników zmiennej Wiek był istotnie różny od rozkładu normalnego SW = 0.85; p < 0.001

• Rozkład wyników zmiennej Samoocena SES był istotnie różny od rozkładu normalnego SW = 0.97; p < 0.001

• Rozkład wyników zmiennej Poczucie skuteczności GSES był istotnie różny od rozkładu normalnego SW = 0.95; p < 0.001

• Rozkład wyników zmiennej Objawy depresyjne BDI był istotnie różny od rozkładu normalnego SW = 0.96; p < 0.001

• Rozkład wyników zmiennej Lęk jako stan STAI był istotnie różny od rozkładu normalnego SW = 0.98; p < 0.001

• Rozkład wyników zmiennej Lęk jako cecha STAI był istotnie różny od rozkładu normalnego SW = 0.44; p < 0.001

• Rozkład wyników zmiennej Pozytywny afekt PANAS był istotnie różny od rozkładu normalnego SW = 0.97; p < 0.001

• Rozkład wyników zmiennej Negatywny afekt PANAS był istotnie różny od rozkładu normalnego SW = 0.95; p < 0.001

W celu dodatkowej weryfikacji normalności rozkładów zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS, przeprowadzono serię analiz weryfikujących podobieństwo rozkładu z próby do teoretycznego rozkładu normalnego testem Kolmogorova-Smirnova z poprawką Lilieforce’a (Dallal i Wilkinson, 1986). Analiza wykazała, że:

• Rozkład wyników zmiennej Wiek był istotnie różny od rozkładu normalnego KS = 0.22; p < 0.001

• Rozkład wyników zmiennej Samoocena SES był istotnie różny od rozkładu normalnego KS = 0.12; p < 0.001

• Rozkład wyników zmiennej Poczucie skuteczności GSES był istotnie różny od rozkładu normalnego KS = 0.14; p < 0.001

• Rozkład wyników zmiennej Objawy depresyjne BDI był istotnie różny od rozkładu normalnego KS = 0.16; p < 0.001

• Rozkład wyników zmiennej Lęk jako stan STAI był istotnie różny od rozkładu normalnego KS = 0.10; p < 0.001

• Rozkład wyników zmiennej Lęk jako cecha STAI był istotnie różny od rozkładu normalnego KS = 0.23; p < 0.001

• Rozkład wyników zmiennej Pozytywny afekt PANAS był istotnie różny od rozkładu normalnego KS = 0.12; p < 0.001

• Rozkład wyników zmiennej Negatywny afekt PANAS był istotnie różny od rozkładu normalnego KS = 0.14; p < 0.001

Wyniki analiz przedstawia Tabela nr 1.

Tabela nr 1
Wyniki analizy rozkładu normalności i statystyk opisowych dla zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI, Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS.

								Miary symetrii rozkładu		test KS		test SW
Zmienna	N	Min	Max	M	SD	SE	Me	Skośność	Kurtoza	KS	p	SW	p
Wiek	290	20.00	51.00	27.62	5.95	0.35	26.00	1.43	1.72	0.22	< 0.001	0.85	< 0.001
Samoocena SES	291	1.00	4.00	2.80	0.71	0.04	2.80	-0.32	-0.49	0.12	< 0.001	0.97	< 0.001
Poczucie skuteczności GSES	282	1.00	4.00	2.15	0.75	0.04	2.00	0.49	-0.18	0.14	< 0.001	0.95	< 0.001
Objawy depresyjne BDI	287	1.00	5.00	3.63	0.76	0.04	3.75	-0.35	0.22	0.16	< 0.001	0.96	< 0.001
Lęk jako stan STAI	289	1.00	5.00	3.26	0.90	0.05	3.25	-0.33	-0.09	0.10	< 0.001	0.98	< 0.001
Lęk jako cecha STAI	290	-21.00	5.00	2.60	2.19	0.13	2.75	-8.16	85.12	0.23	< 0.001	0.44	< 0.001
Pozytywny afekt PANAS	291	1.00	4.00	2.80	0.71	0.04	2.80	-0.32	-0.49	0.12	< 0.001	0.97	< 0.001
Negatywny afekt PANAS	282	1.00	4.00	2.15	0.75	0.04	2.00	0.49	-0.18	0.14	< 0.001	0.95	< 0.001

Nota: N = Liczebność; Min = Wartość minimalna; Max = Wartość maksymalna; M = Średnia arytmetyczna; SD = Odchylenie standardowe; SE = Błąd standardowy średniej; Me = Mediana; p = Istotność statystyczna. Wyniki testu KS (Kołmogorov - Smirnov) i SW (Shapiro - Wilk), których p < 0.05 dla danej zmiennej, wskazują na istotną różnicę między rozkładem wyników w próbie a teoretycznym rozkładem normalnym.

Bibliografia

Dallal, G.E. and Wilkinson, L. (1986) An analytic approximation to the distribution of Lilliefors’ test for normality. The American Statistician, 40, 294–296.

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/

Royston, J. P. (1982). An Extension of Shapiro and Wilk’s W Test for Normality to Large Samples. Journal of the Royal Statistical Society. Series C (Applied Statistics), 31(2), 115–124. https://doi.org/10.2307/2347973

Histogramy

Aby dokonać wizualnej oceny rozkładu zmiennych wykonano histogramy przedstawione na Rysunkach 1-8.

Rysunek nr 1
Rozkład wartości zmiennej Wiek
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Rysunek nr 2
Rozkład wartości zmiennej Samoocena SES
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Rysunek nr 3
Rozkład wartości zmiennej Poczucie skuteczności GSES
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Rysunek nr 4
Rozkład wartości zmiennej Objawy depresyjne BDI
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Rysunek nr 5
Rozkład wartości zmiennej Lęk jako stan STAI
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Rysunek nr 6
Rozkład wartości zmiennej Lęk jako cecha STAI
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Rysunek nr 7
Rozkład wartości zmiennej Pozytywny afekt PANAS
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Rysunek nr 8
Rozkład wartości zmiennej Negatywny afekt PANAS
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Histogramy (Wykresy skumulowane)

Aby skoncentrować wizualizację rozkładów zmiennych histogramy ujęto na matrycach typu 2x2. Grafiki te zostały przedstawione na Rysunkach 1-2.

Rysunek nr 1
Rozkład wartości zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI

Rysunek nr 2
Rozkład wartości zmiennych: Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS

Box-ploty

Aby dokonać wizualnej oceny rozkładu zmiennych wykonano box-ploty przedstawione na Rysunkach 1-8.

Rysunek nr 1
Rozkład wartości zmiennej Wiek

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Rysunek nr 2
Rozkład wartości zmiennej Samoocena SES

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Rysunek nr 3
Rozkład wartości zmiennej Poczucie skuteczności GSES

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Rysunek nr 4
Rozkład wartości zmiennej Objawy depresyjne BDI

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Rysunek nr 5
Rozkład wartości zmiennej Lęk jako stan STAI

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Rysunek nr 6
Rozkład wartości zmiennej Lęk jako cecha STAI

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Rysunek nr 7
Rozkład wartości zmiennej Pozytywny afekt PANAS

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Rysunek nr 8
Rozkład wartości zmiennej Negatywny afekt PANAS

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Box-ploty (Wykresy skumulowane)

Aby skoncentrować wizualizację rozkładów zmiennych box-ploty ujęto na matrycach typu 2x2. Grafiki te zostały przedstawione na Rysunkach 1-2.

Rysunek nr 1
Rozkład wartości zmiennych: Wiek, Samoocena SES, Poczucie skuteczności GSES, Objawy depresyjne BDI

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Rysunek nr 2
Rozkład wartości zmiennych: Lęk jako stan STAI, Lęk jako cecha STAI, Pozytywny afekt PANAS, Negatywny afekt PANAS

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Opis przypadków odstających

Określając przypadki odstające tj. te wykraczające poza pewne wartości odchyleń standardowych ustalono, że za tego typu przypadki uznajemy wartości zmiennych: poniżej -3 SD oraz powyżej 3 SD.

Analiza przypadków odstających wykazała, że:

• W zakresie zmiennej Wiek wykryto 5 przypadków odstających, co stanowiło 1.72% obserwacji.

• W zakresie zmiennej Samoocena SES wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.

• W zakresie zmiennej Poczucie skuteczności GSES wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.

• W zakresie zmiennej Objawy depresyjne BDI wykryto 2 przypadków odstających, co stanowiło 0.70% obserwacji.

• W zakresie zmiennej Lęk jako stan STAI wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.

• W zakresie zmiennej Lęk jako cecha STAI wykryto 2 przypadków odstających, co stanowiło 0.69% obserwacji.

• W zakresie zmiennej Pozytywny afekt PANAS wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.

• W zakresie zmiennej Negatywny afekt PANAS wykryto 0 przypadków odstających, co stanowiło 0.00% obserwacji.

Wyniki po usunięciu przypadków odstających są zapisane w bazie danych
baza_usunięte_obsy_po_SD.xlsx

Opis przeprowadzonej normalizacji

W celu unormalnienia rozkładów w analizowanych danych, wykorzystano bibliotekę języka R o nazwie „bestNormalize” (Ryan, 2021) , która pozwala na testowanie wielu przekształceń unormalniających rozkład. Logika tej funkcji polega na testowaniu 15 możliwych przekształceń, wraz z jednoczesnym ustaleniem optymalnych parametrów przekształceniowych np. hiperperametru Lambda w przekształceniu Boxa Coxa (Box & Cox, 1964).

Istnieje wiele przypadków, w których badacze mogą chcieć znormalizować zmienną. Oto jeden z najczęstszych:

Często problematyczne założenie o normalności zmiennej zależnej (uwarunkowanego współzmiennymi w modelu) w klasycznym problemie regresji liniowej. Przez lata stosowano wiele metod, aby złagodzić to założenie: uogólnione modele liniowe, regresja kwantylowa, modele przetrwania itp. Jedną z technik, która wciąż jest dość popularna w tym kontekście, jest transformacja danych, aby wyglądały normalnie. Może to być coś tak prostego jak transformacja logarytmiczna tzw. log() lub coś tak złożonego jak transformacja Yeo-Johnsona.

• W celu wyboru metody normalizującej zmienną Wiek wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika sqrt_x. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 11.67.

• W celu wyboru metody normalizującej zmienną Samoocena SES wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika center_scale. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 13.60.

• W celu wyboru metody normalizującej zmienną Poczucie skuteczności GSES wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika boxcox. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 12.06.

• W celu wyboru metody normalizującej zmienną Objawy depresyjne BDI wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika arcsinh_x. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 30.21.

• W celu wyboru metody normalizującej zmienną Lęk jako stan STAI wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika boxcox. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 13.41.

• W celu wyboru metody normalizującej zmienną Lęk jako cecha STAI wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika yeojohnson. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 8.87.

• W celu wyboru metody normalizującej zmienną Pozytywny afekt PANAS wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika center_scale. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 13.60.

• W celu wyboru metody normalizującej zmienną Negatywny afekt PANAS wykonano serię przekształceń. Analiza wykazała, że najlepsze właściwości normalizacyjne zwracała technika boxcox. W porównaniu do innych popularnych przekształceń, metoda ta zwróciła najniższą wartość statystyki dopasowania, P/df = 12.06.

Wyniki przekształceń zostały zapisane w bazie danych
baza_trans.xlsx

Bibliografia

Box, G. E., & Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical Society: Series B (Methodological), 26 (2), 211–243.

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/

Ryan, A. P. (2021). Finding optimal normalizing transformations via bestNormalize. The R Journal, 13 (1), 310. https://doi.org/10.32614/rj-2021-041.

Opis zastępowania braków danych techniką missforest

Wypełnianie braków danych metodą losowych lasów zostało wykonane za pośrednictwem pakietu „missForest” z repozytorium CRAN (Stekhoven & Bühlmann, 2012) w programie R. Jest to nieparametryczna metoda, która wykorzystuje technikę losowych lasów (ang. random forests) do maksymalizacji predykcji wartości w miejscach braków danych (Breiman, 2001). Technika lasów losowych polega na losowej selekcji (ze zwracaniem) obserwacji ze wskazanego zbioru danych w celu utworzenia licznych trzew decyzyjnych (zawierających różne zmienne i obserwacje ze zbioru danych), pozwalających po agregacji na predykcję (metodą przewidywania) lub klasyfikację (metodą głosowania) zmiennych zależnych (ilościowych lub jakościowych). Technika uzupełniania braków danych oparta o metodę losowych lasów polega z grubsza na iteracyjnej realizacji 3 kroków. W pierwszym kroku ustalana jest ilość i jakość (jakościowe vs ilościowe) braków danych. W drugim, braki danych są wypełniane wartością średnią lud dominantą. W trzecim kroku następuje predykcja regresyjna lub klasyfikacyjna tych braków danych metodą losowych lasów. W procedurze przwidywania wartrości w miejscach braków jest wykorzystywany cały zbiór danych w losowy sposób. Kroki te są powtarzane do momentu zminimalizowania błędu predykcji lub klasyfikacji.

Wyniki po usunięciu przypadków odstających i zastąpieniu wszystkich braków danych techniką missforest są zapisane w bazie danych
baza_wszystkie_NA_input_missforest_po_cięciu.xlsx

Bibliografia

Breiman, L. (2001). Random forests. Machine Learning, 45 , 5–32.

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/

Stekhoven, D. J., & Bühlmann, P. (2012). MissForest—non-parametric missing value imputation for mixed-type data. Bioinformatics, 28 (1), 112–118.

Eksploracja zbioru danych

mgr Konrad Hryniewicz - Metodolog.pl

26 luty, 2025

Stan wprowadzonej bazy danych

Stan braków danych w analizowanej bazie danych

Rozkład zmiennych jakościowych z uwzględnieniem braków danych

Statystyki opisowe i testy normalności analizowanych zmiennych

Bibliografia

Histogramy

Histogramy (Wykresy skumulowane)

Box-ploty

Box-ploty (Wykresy skumulowane)

Opis przypadków odstających

Opis przeprowadzonej normalizacji

Bibliografia

Opis zastępowania braków danych techniką missforest

Bibliografia