Stan wprowadzonej bazy danych

Niniejszą analizę eksploracyjną zbioru danych wykonano w Systemie Zautomatyzowanego Tworzenia Opisu Statystycznego - SZTOS (Hryniewicz, Milewska, 2023) w module eksploracja.

• W pierwszej części raportu została umieszczona informacja o liczbie obserwacji oraz liczbie zmiennych we wprowadzonej bazie danych.
• Aby usunąć z bazy danych a) obserwacje które nie zawierają żadnych danych, b) zmienne których liczba obserwacji jest mniejsza lub równa 1, zidentyfikowano takie przypadki. Jeśli takowe wystąpiły, zostały usunięte wraz z podaniem informacji o ich współrzędnych.
• Tej samej procedurze zostały poddane zmienne, które posiadały identyczne wartości.

Liczba obserwacji: 303
Liczba zmiennych: 10

W bazie danych nie wystąpują OBSERWACJE, które zawierają wyłącznie braki danych.
Obserwacje, które zawierały wyłącznie braki danych to: brak.

W bazie danych nie wystąpiły ZMIENNE, które zawierają wyłącznie braki danych lub 1 obserwację.
Zmienne, które zawierały wyłącznie braki danych lub 1 obserwację to: brak.

W bazie danych nie wystąpiły zmienne, które miały STAŁĄ WARIANCJĘ.
Zmienne, które posiadały identyczne wartości to: brak.

Wyniki po wstępnym oczyszczeniu są zapisane w bazie danych
baza_wstępnie_oczyszczona.xlsx

Stan braków danych w analizowanej bazie danych

• W tak przygotowanej bazie danych zidentyfikowano zmienne, które posiadają odsetek braków danych większy niż ten wyznaczony przez użytkownika, a informację podano do raportu.

W bazie danych nie wystąpiły ZMIENNE, które zawierają ponad lub równo: 5% braków danych.
Zmienne, które zawierają równo lub ponad 5% braków danych, to: brak.

Dokładne wyniki przedstawia Tabela nr 1.

Tabela nr 1
Liczebność oraz odsetek braków danych w poszczególnych zmiennych: Płeć, Wykształcenie, Wiek sqrt x, Samoocena SES center scale, Poczucie skuteczności GSES boxcox, Objawy depresyjne BDI arcsinh x, Lęk jako stan STAI boxcox, Lęk jako cecha STAI yeojohnson, Pozytywny afekt PANAS center scale, Negatywny afekt PANAS boxcox.
Zmienna % braków danych n/N braków danych
Płeć 0.00% 0/303
Wykształcenie 0.00% 0/303
Wiek sqrt x 0.00% 0/303
Samoocena SES center scale 0.00% 0/303
Poczucie skuteczności GSES boxcox 0.00% 0/303
Objawy depresyjne BDI arcsinh x 0.00% 0/303
Lęk jako stan STAI boxcox 0.00% 0/303
Lęk jako cecha STAI yeojohnson 0.00% 0/303
Pozytywny afekt PANAS center scale 0.00% 0/303
Negatywny afekt PANAS boxcox 0.00% 0/303


• Następnie zidentyfikowano obserwacje, które zawierają ponad połowę braków danych i podano ich współrzędne. Taki stan rzeczy może wynikać np. z porzucenia badania w trakcie jego trwania. Może to powodować ograniczoną przydatność takich obserwacji w analizach.

W bazie danych nie wystąpiły OBSERWACJE, które zawierają ponad połowę braków danych.
Numery wierszy, które zawierają ponad połowę braków danych: brak.

Wizualną prezentację braków danych stanowi Rysunek nr 1.

Rysunek nr 1
Graficzna prezentacja braków danych występujących w zakresie zmiennych; Płeć, Wykształcenie, Wiek sqrt x, Samoocena SES center scale, Poczucie skuteczności GSES boxcox, Objawy depresyjne BDI arcsinh x, Lęk jako stan STAI boxcox, Lęk jako cecha STAI yeojohnson, Pozytywny afekt PANAS center scale, Negatywny afekt PANAS boxcox .
Nota: Wykres przedstawia następujące zmienne: Zm1 - Płeć, Zm2 - Wykształcenie, Zm3 - Wiek sqrt x, Zm4 - Samoocena SES center scale, Zm5 - Poczucie skuteczności GSES boxcox, Zm6 - Objawy depresyjne BDI arcsinh x, Zm7 - Lęk jako stan STAI boxcox, Zm8 - Lęk jako cecha STAI yeojohnson, Zm9 - Pozytywny afekt PANAS center scale, Zm10 - Negatywny afekt PANAS boxcox.

Rozkład zmiennych jakościowych bez uwzględniania braków danych

• Analiza dla zmiennej Płeć wykazała, że liczebność jej poszczególnych poziomów Kobieta, Mężczyzna wynosiła odpowiednio 174, 129 (ich odsetek wynosił odpowiednio 57.43, 42.57), co stanowiło sumę 303 wystąpień (100%).

• Analiza dla zmiennej Wykształcenie wykazała, że liczebność jej poszczególnych poziomów Wyższe, Średnie, Podstawowe wynosiła odpowiednio 167, 134, 2 (ich odsetek wynosił odpowiednio 55.12, 44.22, 0.66), co stanowiło sumę 303 wystąpień (100%).

Otrzymane wyniki przedstawiają Rysunki 1-2.


Rysunek nr 1
Częstość występowania wartości zmiennej Płeć (bez uwzględniania braków danych)


Rysunek nr 2
Częstość występowania wartości zmiennej Wykształcenie (bez uwzględniania braków danych)

[1] “”

Statystyki opisowe i testy normalności analizowanych zmiennych

Analiza normalności rozkładu zmiennych: Wiek sqrt x, Samoocena SES center scale, Poczucie skuteczności GSES boxcox, Objawy depresyjne BDI arcsinh x, Lęk jako stan STAI boxcox, Lęk jako cecha STAI yeojohnson, Pozytywny afekt PANAS center scale, Negatywny afekt PANAS boxcox.

W celu weryfikacji założeń dotyczacych normalności rozkładów wyników analizowanych zmiennych przeprowadzono dwa testy statystyczne, był to test Shapiro - Wilka (stosowany dla małoliczebnych próbek badawczych N < 50 lub N < 100) (Royston, 1982) oraz test Kolmogorova Smirnova z poprawką Lilieforce’a (stosowany dla dużych prób N > 50 lub N > 100) (Dallal i Wilkinson, 1986). Zdecydowano się na taką analizę ze względu na brak jednoznacznych wytycznych dotyczących stosowania obu testów przy danej liczebności badanych obserwacji.

W celu weryfikacji normalności rozkładów zmiennych: Wiek sqrt x, Samoocena SES center scale, Poczucie skuteczności GSES boxcox, Objawy depresyjne BDI arcsinh x, Lęk jako stan STAI boxcox, Lęk jako cecha STAI yeojohnson, Pozytywny afekt PANAS center scale, Negatywny afekt PANAS boxcox, przeprowadzono serię analiz weryfikujących podobieństwo rozkładu z próby do teoretycznego rozkładu normalnego testem Shapiro-Wilka (Royston, 1982). Analiza wykazała, że:

• Rozkład wyników zmiennej Wiek sqrt x był istotnie różny od rozkładu normalnego SW = 0.99; p = 0.043

• Rozkład wyników zmiennej Samoocena SES center scale był podobny do teoretycznego rozkladu normalnego SW = 1.00; p = 0.771

• Rozkład wyników zmiennej Poczucie skuteczności GSES boxcox był istotnie różny od rozkładu normalnego SW = 0.99; p = 0.034

• Rozkład wyników zmiennej Objawy depresyjne BDI arcsinh x był podobny do teoretycznego rozkladu normalnego SW = 1.00; p = 0.980

• Rozkład wyników zmiennej Lęk jako stan STAI boxcox był podobny do teoretycznego rozkladu normalnego SW = 1.00; p = 0.692

• Rozkład wyników zmiennej Lęk jako cecha STAI yeojohnson był podobny do teoretycznego rozkladu normalnego SW = 1.00; p = 0.907

• Rozkład wyników zmiennej Pozytywny afekt PANAS center scale był podobny do teoretycznego rozkladu normalnego SW = 1.00; p = 0.794

• Rozkład wyników zmiennej Negatywny afekt PANAS boxcox był podobny do teoretycznego rozkladu normalnego SW = 0.99; p = 0.243

W celu dodatkowej weryfikacji normalności rozkładów zmiennych: Wiek sqrt x, Samoocena SES center scale, Poczucie skuteczności GSES boxcox, Objawy depresyjne BDI arcsinh x, Lęk jako stan STAI boxcox, Lęk jako cecha STAI yeojohnson, Pozytywny afekt PANAS center scale, Negatywny afekt PANAS boxcox, przeprowadzono serię analiz weryfikujących podobieństwo rozkładu z próby do teoretycznego rozkładu normalnego testem Kolmogorova-Smirnova z poprawką Lilieforce’a (Dallal i Wilkinson, 1986). Analiza wykazała, że:

• Rozkład wyników zmiennej Wiek sqrt x był istotnie różny od rozkładu normalnego KS = 0.07; p = 0.004

• Rozkład wyników zmiennej Samoocena SES center scale był podobny do teoretycznego rozkładu normalnego KS = 0.05; p = 0.118

• Rozkład wyników zmiennej Poczucie skuteczności GSES boxcox był istotnie różny od rozkładu normalnego KS = 0.07; p = 0.006

• Rozkład wyników zmiennej Objawy depresyjne BDI arcsinh x był podobny do teoretycznego rozkładu normalnego KS = 0.02; p = 0.967

• Rozkład wyników zmiennej Lęk jako stan STAI boxcox był podobny do teoretycznego rozkładu normalnego KS = 0.03; p = 0.531

• Rozkład wyników zmiennej Lęk jako cecha STAI yeojohnson był podobny do teoretycznego rozkładu normalnego KS = 0.03; p = 0.770

• Rozkład wyników zmiennej Pozytywny afekt PANAS center scale był podobny do teoretycznego rozkładu normalnego KS = 0.05; p = 0.110

• Rozkład wyników zmiennej Negatywny afekt PANAS boxcox był podobny do teoretycznego rozkładu normalnego KS = 0.05; p = 0.063

Wyniki analiz przedstawia Tabela nr 1.


Tabela nr 1
Wyniki analizy rozkładu normalności i statystyk opisowych dla zmiennych: Wiek sqrt x, Samoocena SES center scale, Poczucie skuteczności GSES boxcox, Objawy depresyjne BDI arcsinh x, Lęk jako stan STAI boxcox, Lęk jako cecha STAI yeojohnson, Pozytywny afekt PANAS center scale, Negatywny afekt PANAS boxcox.
Miary symetrii rozkładu
test KS
test SW
Zmienna N Min Max M SD SE Me Skośność Kurtoza KS p SW p
Wiek sqrt x 303 -2.72 2.94 0.00 0.99 0.06 0.09 0.05 -0.14 0.07 0.004 0.99 0.043
Samoocena SES center scale 303 -2.72 2.94 -0.00 1.00 0.06 0.09 -0.00 -0.09 0.05 0.118 1.00 0.771
Poczucie skuteczności GSES boxcox 303 -2.25 2.70 -0.00 1.00 0.06 0.01 -0.05 -0.35 0.07 0.006 0.99 0.034
Objawy depresyjne BDI arcsinh x 303 -2.72 2.72 0.00 1.00 0.06 -0.00 0.00 -0.11 0.02 0.967 1.00 0.980
Lęk jako stan STAI boxcox 303 -2.48 2.72 0.00 0.99 0.06 0.04 0.02 -0.14 0.03 0.531 1.00 0.692
Lęk jako cecha STAI yeojohnson 303 -2.72 2.72 0.00 1.00 0.06 0.02 0.00 -0.11 0.03 0.770 1.00 0.907
Pozytywny afekt PANAS center scale 303 -2.72 2.94 -0.00 1.00 0.06 0.09 -0.00 -0.13 0.05 0.110 1.00 0.794
Negatywny afekt PANAS boxcox 303 -2.72 2.48 -0.00 0.99 0.06 -0.03 -0.01 -0.13 0.05 0.063 0.99 0.243

Nota: N = Liczebność; Min = Wartość minimalna; Max = Wartość maksymalna; M = Średnia arytmetyczna; SD = Odchylenie standardowe; SE = Błąd standardowy średniej; Me = Mediana; p = Istotność statystyczna. Wyniki testu KS (Kołmogorov - Smirnov) i SW (Shapiro - Wilk), których p < 0.05 dla danej zmiennej, wskazują na istotną różnicę między rozkładem wyników w próbie a teoretycznym rozkładem normalnym.

Bibliografia

Dallal, G.E. and Wilkinson, L. (1986) An analytic approximation to the distribution of Lilliefors’ test for normality. The American Statistician, 40, 294–296.

Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/

Royston, J. P. (1982). An Extension of Shapiro and Wilk’s W Test for Normality to Large Samples. Journal of the Royal Statistical Society. Series C (Applied Statistics), 31(2), 115–124. https://doi.org/10.2307/2347973

Histogramy

Aby dokonać wizualnej oceny rozkładu zmiennych wykonano histogramy przedstawione na Rysunkach 1-8.

Rysunek nr 1
Rozkład wartości zmiennej Wiek sqrt x
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.


Rysunek nr 2
Rozkład wartości zmiennej Samoocena SES center scale
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.


Rysunek nr 3
Rozkład wartości zmiennej Poczucie skuteczności GSES boxcox
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.


Rysunek nr 4
Rozkład wartości zmiennej Objawy depresyjne BDI arcsinh x
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.


Rysunek nr 5
Rozkład wartości zmiennej Lęk jako stan STAI boxcox
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.


Rysunek nr 6
Rozkład wartości zmiennej Lęk jako cecha STAI yeojohnson
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.


Rysunek nr 7
Rozkład wartości zmiennej Pozytywny afekt PANAS center scale
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.


Rysunek nr 8
Rozkład wartości zmiennej Negatywny afekt PANAS boxcox
Nota: Kolor czerwony przedstawia Średnią; Kolor zielony przedstawia Medianę.

Histogramy (Wykresy skumulowane)

Aby skoncentrować wizualizację rozkładów zmiennych histogramy ujęto na matrycach typu 2x2. Grafiki te zostały przedstawione na Rysunkach 1-2.

Rysunek nr 1
Rozkład wartości zmiennych: Wiek sqrt x, Samoocena SES center scale, Poczucie skuteczności GSES boxcox, Objawy depresyjne BDI arcsinh x



Rysunek nr 2
Rozkład wartości zmiennych: Lęk jako stan STAI boxcox, Lęk jako cecha STAI yeojohnson, Pozytywny afekt PANAS center scale, Negatywny afekt PANAS boxcox


Box-ploty

Aby dokonać wizualnej oceny rozkładu zmiennych wykonano box-ploty przedstawione na Rysunkach 1-8.

Rysunek nr 1
Rozkład wartości zmiennej Wiek sqrt x

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.


Rysunek nr 2
Rozkład wartości zmiennej Samoocena SES center scale

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.


Rysunek nr 3
Rozkład wartości zmiennej Poczucie skuteczności GSES boxcox

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.


Rysunek nr 4
Rozkład wartości zmiennej Objawy depresyjne BDI arcsinh x

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.


Rysunek nr 5
Rozkład wartości zmiennej Lęk jako stan STAI boxcox

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.


Rysunek nr 6
Rozkład wartości zmiennej Lęk jako cecha STAI yeojohnson

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.


Rysunek nr 7
Rozkład wartości zmiennej Pozytywny afekt PANAS center scale

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.


Rysunek nr 8
Rozkład wartości zmiennej Negatywny afekt PANAS boxcox

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.

Box-ploty (Wykresy skumulowane)

Aby skoncentrować wizualizację rozkładów zmiennych box-ploty ujęto na matrycach typu 2x2. Grafiki te zostały przedstawione na Rysunkach 1-2.

Rysunek nr 1
Rozkład wartości zmiennych: Wiek sqrt x, Samoocena SES center scale, Poczucie skuteczności GSES boxcox, Objawy depresyjne BDI arcsinh x

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.


Rysunek nr 2
Rozkład wartości zmiennych: Lęk jako stan STAI boxcox, Lęk jako cecha STAI yeojohnson, Pozytywny afekt PANAS center scale, Negatywny afekt PANAS boxcox

Nota: Pozioma linia przedstawia Medianę. Pudełko prezentuje Rozstęp międzykwartylowy IQR. Wąsy sięgają do wartości powyżej/poniżej 1.5*IQR. Kropki poza wąsami oznaczają wartości powyżej/poniżej 1.5*IQR.