Analiza tabel krzyżowych

Poniższe analizy wykonano w programie R (R Core Team, 2023). Wizualizację wyników przeprowadzono z wykorzystaniem pakietu graficznego “ggplot2” (Wickham, 2016). W załączniku A jest przedstawiona tabela podsumowująca wyniki.

Analiza relacji między współwystępowaniem wartości zmiennych Edukacja i Czy jeździł autem

W niniejszej analizie wzięło udział N = 303 obserwacji. Analiza częstości wystąpień wartości w zmiennej wierszowej Edukacja wykazała, że liczebność jej poszczególnych poziomów (Podstawowe, Średnie, Wyższe) wynosiła odpowienio 2, 130, 171 (odsetek wynosił odpowiednio 0.66, 42.90, 56.44), co stanowiło sumę 303 wystąpień (100%). Różnice w liczebnościach poziomów tej zmiennej były istotne statystycznie χ²(3) = 153.88; p < 0.001 (najczęściej występowała wartość Wyższe n = 171, a najrzadziej wartość Podstawowe n = 2). Natomiast, analiza częstości wystąpień wartości w zmiennej kolumnowej Czy jeździł autem wykazała, że liczebność jej poszczególnych poziomów (Nie, Tak) wynosiła odpowienio 14, 289 (odsetek wynosił odpowiednio 0.05, 0.95), co stanowiło sumę również 303 wystąpień (100%). Różnice w liczebnościach poziomów tej zmiennej były istotne statystycznie χ²(1) = 249.59; p < 0.001 (najczęściej występowała wartość Tak n = 289, a najrzadziej wartość Nie n = 14).

Analiza istotności i siły relacji pomiędzy zmienną Edukacja a zmienną Czy jeździł autem

W celu weryfikacji zależności między zmienną Edukacja a zmienną Czy jeździł autem przeprowadzono analizę testem Chi kwadrat (Pearson, 1900). Ze względu na występowanie wartości oczekiwanych mniejszych niż 5, zastosowano korektę istotności statystycznej metodą dokładnego testu Fishera (Agresti, 1990; Bower i Keith, 2003). Analiza testem Chi Kwadrat wykazała istotną zależność między zmienną Edukacja a zmienną Czy jeździł autem, χ²(2) = 7.92; p = 0.014. Wystąpienia wartości zmiennej Edukacja były różne w poszczególnych poziomach zmiennej Czy jeździł autem. Wartość współczynnika siły zależności V Cramera (Cramer i Harald, 1946) była równa 0.16 co wskazuje, że siła relacji pomiędzy zestawianymi zmiennymi była statystycznie słaba.

Test proporcji występowania wartości kolumnowych zmiennej Czy jeździł autem

W celu analizy dokładnych różnic wartości zmiennej Edukacja występujących w wierszach tabeli (Podstawowe, Średnie, Wyższe) między wartościami zmiennej Czy jeździł autem w kolumnach tabeli (Nie, Tak) przeprowadzono serię testów proporcji wartości kolumnowych (w ilości porównań N = 1). Analiza ta testuje różnice pod względem obserwowanej proporcji wartości wierszowych między dwiemia kolumnami.

Porównanie 1

Porównanie kolumn Nie Vs Tak zmiennej Czy jeździł autem pod względem wartości wierszowych Podstawowe, Średnie, Wyższe zmiennej Edukacja , wykazała następujące wyniki:

• Częstość występowania wartości ‘Podstawowe’ była podobna w przypadku wartości ‘Nie’ 0.00% i ‘Tak’ 0.69%, χ²(1) = 0.00; p = 1.000. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

• Częstość występowania wartości ‘Średnie’ była znacznie mniejsza w przypadku wartości ‘Nie’ 7.14% niż w przypadku wartości ‘Tak’ 44.64%, χ²(1) = 6.21; p = 0.013. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

• Częstość występowania wartości ‘Wyższe’ była znacznie większa w przypadku wartości ‘Nie’ 92.86% niż w przypadku wartości ‘Tak’ 54.67%, χ²(1) = 6.44; p = 0.011. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

Test proporcji występowania wartości wierszowych zmiennej Edukacja

W celu analizy dokładnych różnic wartości zmiennej Czy jeździł autem występujących w kolumnach tabeli (Nie, Tak) między wartościami zmiennej Edukacja w wierszach tabeli (Podstawowe, Średnie, Wyższe) przeprowadzono serię testów proporcji wartości wierszowych (w ilości porównań N = 3). Analiza ta testuje różnice pod względem obserwowanej proporcji wartości kolumnowych między dwoma wierszami.

Porównanie 1

Porównanie wierszy Podstawowe Vs Średnie zmiennej Edukacja pod względem wartości kolumnowych Nie, Tak zmiennej Czy jeździł autem wykazała następujące wyniki:

• Częstość występowania wartości ‘Nie’ była podobna w przypadku wartości ‘Podstawowe’ 0.00% i ‘Średnie’ 0.77%, χ²(1) = 0.00; p = 1.000. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

• Częstość występowania wartości ‘Tak’ była podobna w przypadku wartości ‘Podstawowe’ 100.00% i ‘Średnie’ 99.23%, χ²(1) = 0.00; p = 1.000. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

Porównanie 2

Porównanie wierszy Podstawowe Vs Wyższe zmiennej Edukacja pod względem wartości kolumnowych Nie, Tak zmiennej Czy jeździł autem wykazała następujące wyniki:

• Częstość występowania wartości ‘Nie’ była podobna w przypadku wartości ‘Podstawowe’ 0.00% i ‘Wyższe’ 7.60%, χ²(1) = 0.00; p = 1.000. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

• Częstość występowania wartości ‘Tak’ była podobna w przypadku wartości ‘Podstawowe’ 100.00% i ‘Wyższe’ 92.40%, χ²(1) = 0.00; p = 1.000. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

Porównanie 3

Porównanie wierszy Średnie Vs Wyższe zmiennej Edukacja pod względem wartości kolumnowych Nie, Tak zmiennej Czy jeździł autem wykazała następujące wyniki:

• Częstość występowania wartości ‘Nie’ była znacznie mniejsza w przypadku wartości ‘Średnie’ 0.77% niż w przypadku wartości ‘Wyższe’ 7.60%, χ²(1) = 6.31; p = 0.012. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

• Częstość występowania wartości ‘Tak’ była znacznie większa w przypadku wartości ‘Średnie’ 99.23% niż w przypadku wartości ‘Wyższe’ 92.40%, χ²(1) = 6.31; p = 0.012. W wyliczeniu istotności statystycznej zastosowano poprawkę na ciągłość (Yates, 1934).

Tabelę krzyżową z wynikami liczebności przedstawia tabela nr 1, 2 oraz 3. Wyniki statystyk częstości i odsetki oszacowań przedstawia rysunek nr 1 oraz 2.

Tabela nr 1

Oszacowania kolumnowe dla relacji między zmienną Edukacja a Czy jeździł autem

Czy_jeździł_autem
Nie Tak Total
Edukacja
Podstawowe 0 (0.00%) 2 (0.69%) 2 (0.66%)
Średnie 1 (7.14%) 129 (44.64%) 130 (42.90%)
Wyższe 13 (92.86%) 158 (54.67%) 171 (56.44%)
Total 14 (100.00%) 289 (100.00%) 303 (100.00%)

Nota: Wynik testu dla badanej zależności między zmiennymi = χ²(2) = 7.92; p = 0.014.

Tabela nr 2

Oszacowania wierszowe dla relacji między zmienną Edukacja a Czy jeździł autem

Czy_jeździł_autem
Nie Tak Total
Edukacja
Podstawowe 0 (0.00%) 2 (100.00%) 2 (100.00%)
Średnie 1 (0.77%) 129 (99.23%) 130 (100.00%)
Wyższe 13 (7.60%) 158 (92.40%) 171 (100.00%)
Total 14 (4.62%) 289 (95.38%) 303 (100.00%)

Nota: Wynik testu dla badanej zależności między zmiennymi = χ²(2) = 7.92; p = 0.014.

Tabela nr 3

Oszacowania całkowite dla relacji między zmienną Edukacja a Czy jeździł autem

Czy_jeździł_autem
Nie Tak Total
Edukacja
Podstawowe 0 (0.00%) 2 (0.66%) 2 (0.66%)
Średnie 1 (0.33%) 129 (42.57%) 130 (42.90%)
Wyższe 13 (4.29%) 158 (52.15%) 171 (56.44%)
Total 14 (4.62%) 289 (95.38%) 303 (100.00%)

Nota: Wynik testu dla badanej zależności między zmiennymi = χ²(2) = 7.92; p = 0.014.

Rysunek nr 1

Występowanie wartości zmiennej Czy jeździł autem w podgrupach zmiennej Edukacja

Nota: Wynik testu dla badanej zależności między zmiennymi = χ²(2) = 7.92; p = 0.014.

Rysunek nr 2

Występowanie wartości zmiennej Edukacja w podgrupach zmiennej Czy jeździł autem

Nota: Wynik testu dla badanej zależności między zmiennymi = χ²(2) = 7.92; p = 0.014.

Załącznik A

Podsumowanie analiz
Analizowana zmienna Wynik
Relacja między zmienną Edukacja a zmienną Czy jeździł autem Istotna wspólzależność zmiennych

Bibliografia

Agresti, A. (1990). Categorical data analysis. New York: Wiley. Pages 59–66.

Bower, Keith M. 2003. “When to Use Fisher’s Exact Test.” In American Society for Quality, Six Sigma Forum Magazine, 2:35–37. 4.

Cramer, Harald. 1946. Mathematical Methods of Statistics. Princeton: Princeton University Press, page 282 (Chapter 21. The two-dimensional case)

Karl Pearson F.R.S. (1900) X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling, The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50:302, 157-175, https://doi.org/10.1080/14786440009463897

R Core Team. (2023). R: A Language and Environment for Statistical Computing. Vienna, Austria. Retrieved from https://www.R-project.org/

Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. ISBN 978-3-319-24277-4

Yates, F. (1934). Contingency Tables Involving Small Numbers and the χ2 Test. Supplement to the Journal of the Royal Statistical Society, 1(2), 217–235. https://doi.org/10.2307/2983604