Kontakt:
@ k.hryniewicz@wznj.umg.edu.pl
tel: 798 30 95 31
konsultacje: pokój 430 (wtorek godzina 13 - 15)
Zaliczenie będzie polegało na teście rozwiązaniu testu wielkrotnego wyboru (z jedną prawodłową odpowiedzią)
Średnia arytmetyczna - jeden z podstawowych oszacowań w statystyce. Definicja średniej to: Suma elementów składowych podzielona przez ich ilość
\[\bar{X} = \frac{\sum_{i=1}^{n} x_{i}}{n}\] \[\bar{X}\] Średnie nasilenie wartości w grupie obserwacji
\[x_{i}\] Wartość danej obserwacji
\[{n}\] Liczba obserwacji w zbiorze
\[sum_{i=1}^{n}\] Suma wartości
Root Mean Square (RMS), czyli pierwiastek średniokwadratowy, jest miarą wartości średniej dla zbioru liczb, uwzględniającą ich kwadraty. W teorii estymacji, pierwiastek średniokwadratowy odchylenia estymatora mierzy, jak daleko estymator odbiega od danych. Jego ogólny wzór jest następujący:
\[ RMS = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_i^2} \]
Gdzie:
Dygresja o wibracji silników w osiach x, y i z
Są też inne średnie:
https://en.wikipedia.org/wiki/Harmonic_mean
https://en.wikipedia.org/wiki/Geometric_mean
https://en.wikipedia.org/wiki/Weighted_arithmetic_mean
Np. Ile wynosi średnia ocen Bartka?
(1 + 2 + 3 + 4 + 5 + 6)/6
## [1] 3.5
# Średnia ocen Bartka wynosi 3.5
Np. Ile wynosi średnia ocen Małgorzaty?
(4 + 3 + 4 + 4 + 3 + 3)/6
## [1] 3.5
# Średnia ocen Małgorzaty też wynosi 3.5
Odchylenie standardowe jest podstawową miarą zmienności zjawisk. Mówi o średnim odchuleniu wyników od średniej i jest wyrażone wzorem
\[s = \sqrt{\frac{\sum (x_{i} -
\bar{x})^{2}}{N - 1}}\] \[s\]
Odchylenie standardowe \[\bar{x}\]
Średnia arytmetyczna z próby \[x_{i}\]
Wartość obserwacji \[\sqrt{}\]
Pierwiastek
\[N - 1\] Liczebność próby minus jedna
obserwacja \[(x_{i} - \bar{x})^{2}\]
Tzw. kwadrat odchyleń (bardzo ważne!)
Ile wynosi odchylenie standardowe ocen Bartka?
(1 + 2 + 3 + 4 + 5 + 6)/6 # Średnia wynosi 3.5
## [1] 3.5
#^2 = oznacza podniesienie do drógiej potęgi (kwadrat)
(1-3.5)^2 #odchylenie wynosi = 6.25
## [1] 6.25
(2-3.5)^2 #odchylenie wynosi = 2.25
## [1] 2.25
(3-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(4-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(5-3.5)^2 #odchylenie wynosi = 2.25
## [1] 2.25
(6-3.5)^2 #odchylenie wynosi = 6.25
## [1] 6.25
6.25 + 2.25 + 0.25 + 0.25 + 2.25 + 6.25 # Suma kwadratów odchyleń wynosi 17.5
## [1] 17.5
#sqrt to skrót od "square root". Oznacza pierwiastek!
sqrt(17.5/(6-1)) # Odchylenie standardowe oceń Bartka wynosi 1.870829 oceny
## [1] 1.870829
sd(c(1, 2, 3, 4, 5, 6)) #Sprawdźmy czy komputer podał taki sam wynik
## [1] 1.870829
Ile wynosi odchylenie standardowe ocen Małgorzaty?
(4 + 3 + 4 + 4 + 3 + 3)/6 # Średnia wynosi 3.5
## [1] 3.5
#^2 = oznacza podniesienie do drógiej potęgi (kwadrat)
(4-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(3-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(4-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(4-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(3-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(3-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
0.25 + 0.25 + 0.25 + 0.25 + 0.25 + 0.25 # Suma kwadratów odchyleń wynosi 1.5
## [1] 1.5
#sqrt to skrót od "square root". Oznacza pierwiastek!
sqrt(1.5/(6-1)) # Odchylenie standardowe ocen Małgorzaty wynosi 0.5477226 oceny
## [1] 0.5477226
sd(c(4,3, 4,4,3, 3)) #Sprawdźmy czy komputer podał taki sam wynik
## [1] 0.5477226
Co możemy powiedzieć o ocenach Bartka i Małgorzaty?
Błąd standardowy jest oszacowaniem wskazującym na to jak wartość
statystyki testowej różni się w zależności od wielkości próbki. Jest to
miara błędu oszacowania danego parametru w danej próbce.
Im większa próba i im mniejsze odchylenie standardowe tym mniejszy błąd
standardowy.
Wzór na błąd standardowy średniej
\[\sigma_{\bar{X}} = \frac{s}{\sqrt{N}}\] \[\sigma_{\bar{X}}\] Błąd standardowy średniej
\[{s}\]
Odchylenie standardowe
\[\sqrt{N}\] Pierwiastek z wielkości próby
Ile wynosi błąd standardowy dla ocen Bartka?
1.870829/sqrt(6)
## [1] 0.7637627
Ile wynosi błąd standardowy dla ocen Małgorzaty?
0.5477226/sqrt(6)
## [1] 0.2236068
Przyjmijmy, że mamy populację 100000000 w której średnia inteligencja wynosi 100 punktów +/- 15 punktów.
O to jak prezentuje się rozkład tej cechy w tej właśnie populacji:
set.seed(1234)
populacja = rnorm(100000000, 100,15)
hist(populacja, main = "N = 100 000, M = 100, SD = 15", xlab = "Inteligencja")
Wylosujmy z tej populacji 100 obserwacji;
set.seed(11)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.577583
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Wylosujmy z tej populacji 100 obserwacji;
set.seed(12)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.491343
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Wylosujmy z tej populacji 100 obserwacji;
set.seed(13)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.534434
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Wylosujmy z tej populacji 100 obserwacji;
set.seed(14)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.407876
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Wylosujmy z tej populacji 50 obserwacji;
set.seed(12)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 2.052815
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Wylosujmy z tej populacji 50 obserwacji;
set.seed(13)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 2.324929
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Wylosujmy z tej populacji 50 obserwacji;
set.seed(14)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.883499
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Wylosujmy z tej populacji 50 obserwacji;
set.seed(15)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 2.114335
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Wylosujmy z tej populacji 20 obserwacji;
set.seed(15)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 20)
sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 3.768488
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")
Przedziały ufności wskazują w jakich przedziałach wartości może znajdować się wynik oszacowania prawdziwego. Możemy wykorzystać do tego różne stopnie prawdopodobieństwa.
Ogólnie przedział ufności jest wyliczany wzorem:
\[\mathrm{CI} = \bar{X} \pm (z_{\frac{1 - p}{2}} \times \sigma_{\bar{X}})\] \[\bar{X}\]
Średnia arytmetyczna
\[z_{1 - p}\] Wskazuje z jakim prawdopodobieństwem chcemy określić przedziały ufności.
\[\sigma_{\bar{X}}\] Błąd standardowy średniej
Przyjmiemy pewne stałe które będą wskazywać na 95% i 90% przedziały ufności
\[\mathrm{CI} = \bar{X} \pm ({1.96} \times \sigma_{\bar{X}})\]
Z = 1.96 wartość ta wskazuje na 95% przedział ufności
\[\mathrm{CI} = \bar{X} \pm ({1.65} \times \sigma_{\bar{X}})\]
Z = 1.65 wartość ta wskazuje na 90% przedział ufności
Dolny i górny przedział ufności dla średniej ocen Bartka
3.5 - (1.96*0.7637627)
## [1] 2.003025
3.5 + (1.96*0.7637627)
## [1] 4.996975
Dolny i górny przedział ufności dla średniej ocen Małgorzaty
3.5 - (1.96*0.2236068)
## [1] 3.061731
3.5 + (1.96*0.2236068)
## [1] 3.938269
Ważne 1
Jeśli przedziały ufności nie nachodzą na wartość 0 to znaczy, że
wynik nasilenia średniej jest istotnie statystycznie większy lub
mniejszy od wartości 0. To znaczy, że wynik nasilenia zmiennej jest
istotny statystycznie.
Jeśli przedziały zachodzą na na wartość 0, to znaczy, że średnia jest
bliska wartości 0.
Ważne 2a
Jeśli przedziały ufności dla dwóch oszacowań średnich na siebie zachodzą, to znaczy, że nie ma statystycznie istotnych różnic między obiektami porównań. To znaczy, że wynik prawdziwy pierwszej średniej znajduje się w przedziałach prawdopodobieństwa wyników drugiej średniej.
Przykład takiego nachodzenia się przedziałów przedstawia rysunek poniżej.
Rysunek nr 2 Różnice między osobami pod względem średnich ocen
library("ggplot2")
dane = data.frame(osoba = c("Bartek","Małgorzata"),
Średnia_ocen = c(3.5,3.5),
Dolny_przedział = c(2.00, 3.06),
Górny_przedział = c(4.99,3.93))
ggplot(dane, aes(osoba, Średnia_ocen)) + # ggplot2 plot with confidence intervals
geom_point() +
geom_errorbar(aes(ymin = Dolny_przedział, ymax = Górny_przedział)) +theme_bw() +
theme(panel.border = element_blank()) + xlab("Osoba badana") + ylab("Średnia ocen")
Nota: Wąsy błędów przedstawiają 95% przedziały ufności dla średniej
Ważne 2b
Jeśli przedziały ufności dla dwóch oszacowań średnich na siebie nie zachodzą, to znaczy, że są statystycznie istotne różnice między obiektami porównań. To znaczy, że wynik prawdziwy pierwszej średniej nie znajduje się w przedziałach prawdopodobieństwa wyników drugiej średniej.
Przykład takiego nienachodzenia się przedziałów przedstawia rysunek poniżej.
Rysunek nr 2 Różnice między osobami pod względem średnich ocen
dane2 = data.frame(osoba = c("Zbyszek","Łucja"),
Średnia_ocen = c(3.1,5.5),
Dolny_przedział = c(2.9, 5.00),
Górny_przedział = c(3.3,6.00))
ggplot(dane2, aes(osoba, Średnia_ocen)) +
geom_point() +
geom_errorbar(aes(ymin = Dolny_przedział, ymax = Górny_przedział)) +theme_bw() +
theme(panel.border = element_blank()) + xlab("Osoba badana")+ylab("Średnia ocen")
Nota: Wąsy błędów przedstawiają 95% przedziały ufności dla średniej
Policzymy średnią, odchylnie standardowe, błąd standardowy i przedziały ufności dla naszego wzrostu.
Wzrost_M = c(183, 170,185,178,189,172)
Wzrost_K = c(172, 163,159,171,172,170)
mean(Wzrost_M)
## [1] 179.5
sd(Wzrost_M)
## [1] 7.503333
length(Wzrost_M)
## [1] 6
sd(Wzrost_M)/sqrt(length(Wzrost_M))
## [1] 3.063223
mean(Wzrost_M) -
(1.96*sd(Wzrost_M)/sqrt(length(Wzrost_M)))
## [1] 173.4961
mean(Wzrost_M) +
(1.96*sd(Wzrost_M)/sqrt(length(Wzrost_M)))
## [1] 185.5039
mean(Wzrost_K)
## [1] 167.8333
sd(Wzrost_K)
## [1] 5.492419
length(Wzrost_K)
## [1] 6
sd(Wzrost_K)/sqrt(length(Wzrost_K))
## [1] 2.242271
mean(Wzrost_K) -
(1.96*sd(Wzrost_K)/sqrt(length(Wzrost_K)))
## [1] 163.4385
mean(Wzrost_K) +
(1.96*sd(Wzrost_K)/sqrt(length(Wzrost_K)))
## [1] 172.2282
Siła efektu d Cohena (Cohen’s d) jest jednym z najczęściej używanych miar do oceny wielkości różnic między dwiema średnimi. W statystyce, siła efektu d Cohena pozwala na kwantyfikację różnicy pomiędzy dwiema grupami, uwzględniając zmienność wewnątrz grup. Dzięki tej miarze możemy ocenić, jak duża jest różnica między grupami badawczymi w sposób bardziej spójny niż tylko porównując ich średnie.
Współczynnik d Cohena jest miarą siły efektu, która informuje nas, jak duża jest różnica między dwiema grupami w odniesieniu do ich średnich wyników, uwzględniając przy tym zmienność w danych. W przeciwieństwie do wartości p, która mówi, czy różnica jest istotna statystycznie, współczynnik d Cohena pokazuje, jak duża jest ta różnica.
Współczynnik d Cohena używamy, gdy chcemy ocenić wielkość różnicy między dwiema niezależnymi grupami lub próbami. Stosuje się go przede wszystkim w kontekście:
Współczynnik d Cohena znajduje zastosowanie w wielu dziedzinach, takich jak:
Współczynnik d Cohena interpretujemy zgodnie z następującymi wartościami:
Im wyższa wartość d, tym większa jest różnica między grupami, co oznacza, że efekt (np. interwencji) jest bardziej wyraźny.
\[ d = \frac{\overline{X_1} - \overline{X_2}}{s} \]
W powyższym wzorze:
Odchylenie standardowe s obliczamy jako:
\[ s = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}} \]
Gdzie:
Załóżmy, że przeprowadziliśmy badanie, w którym zmierzyliśmy wagę 10 owoców i 10 warzyw:
Podstawmy te wartości do wzoru na średnie odchylenie standardowe:
\[ s = \sqrt{\frac{(10 - 1) \cdot 20^2 + (10 - 1) \cdot 30^2}{10 + 10 - 2}} \]
Obliczenia:
\[ s = \sqrt{\frac{9 \cdot 400 + 9 \cdot 900}{18}} = \sqrt{\frac{3600 + 8100}{18}} = \sqrt{650} \approx 25.5 \]
Znamy już odchylenie standardowe. Teraz możemy obliczyć siłę efektu d Cohena:
\[ d = \frac{150 - 120}{25.5} \approx 1.18 \]
Wynik siły efektu d Cohena wynosi około 1.18, co oznacza, że różnica pomiędzy średnią wagą owoców i warzyw jest duża.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale,NJ: Lawrence Erlbaum.
Korelacja Pearsona jest miarą siły związku między zmiennymi
ilościowymi (np. wiek) mającymi rozkład normalny.
https://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_Pearsona
Korelacja metodą Spearmana jest miarą siły związku między zmiennymi ilościowymi (bez rozkładu normalnego) lub porządkowymi (np. wykształcenie). Do wyliczenia współwystępowania wykorzystuje się rangowanie zmiennych. Najmniejszemu wynikowi przypisuje się wartość 1, wyższemu 2 itd. https://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_rang_Spearmana
Rodzaje korelacji
Współczynnik r Pearsona i rHO spearmana przyjmują wartości od - 1
(idealna korelacja negatywna) do 1 (Idealana korelacja pozytywna).
Korelacja bliska zeru (r ~ 0) oznacza brak współwystępowania wartości dwóch zmiennych
Korelacja pozytywna r > 0 (np. r = 0.30) oznacza pozytywne współwystępowanie zjawisk (wraz ze wzrostem jednej zmiennej wzrastają wyniki drugiej zmiennej)
Korelacja negatywna r < 0 (np. r = -0.30) oznacza negatywne współwystępowanie zjawisk (wraz ze wzrostem jednej zmiennej maleją wyniki drugiej zmiennej)
Geometryczna interpretacja wartości tych współczynników odnosi się kąta nachylenia linii trendu (linii łączącej wartości danych obserwacji) do osi x. Im większy kąt, tym silniejszy związek.
Istotność statystyczna korelacji
Tak jak w przypadku większości testów statystycznych wylicza się wartość p, czyli wartość wskazującą na prawdziwość statystyczną hipotezy zerowej. W przypadku testu korelacji (Zarówno Pearsona jak Spearmana):
Hipoteza zerowa dla testu brzmi:
H0: Brak związku między zmiennymi - Współwystępowanie zjawisk jest
przypadkowe
Hipoteza alternatywna brzmi:
H1: Istotny związek między zmiennymi - Współwystępowanie zjawisk nie
jest dziełem przypadku
Wartość p mniejsza niż 0.05, czyli p < 0.05 pozwala w większości odrzucić hipotezę zerową i przyjąć alternatywną.
Jeśli p > 0.05 (np. 0.055), to oznacza, że korelacja nie jest istotna statystycznie.
Jeśli p < 0.05 (np. 0.00003), to oznacza, że korelacja jest istotna statystycznie.
Korelacja pozytywna i negatywna może być istotna lub nieistotna statystycznie!
Dany wzorem
\[{rho} = 1-(\frac{6\sum_{i=1}^{n} d_{i}^{2}}{({n^{3}-n})})\] \[{rho}\] współczynnik korelacji Spearmana \[{6}\] wartość stała \[\frac{6\sum_{i=1}^{n} d_{i}^{2}}{}\] suma kwadratów d dla każdego i
\[d_{i}\] di = ranga dla x - ranga dla y
dane = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
"wzrost" = c(150, 175,170,175,155, 180, 190, 190, 190, 180),
"waga" = c(61, 72, 68, 69, 69, 66, 72, 78, 79, 67))
n = length(dane$id)
n
## [1] 10
dane
## id wzrost waga
## 1 1 150 61
## 2 2 175 72
## 3 3 170 68
## 4 4 175 69
## 5 5 155 69
## 6 6 180 66
## 7 7 190 72
## 8 8 190 78
## 9 9 190 79
## 10 10 180 67
Rysunek nr 1a
Relacja między wzrostem a wagą - dane surowe
ggplot(dane, aes(x = wzrost ,y = waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() + theme(panel.border = element_blank())
Rangowanie danych do wyliczeń
dane$ranga_waga = rank(dane$waga)
dane
## id wzrost waga ranga_waga
## 1 1 150 61 1.0
## 2 2 175 72 7.5
## 3 3 170 68 4.0
## 4 4 175 69 5.5
## 5 5 155 69 5.5
## 6 6 180 66 2.0
## 7 7 190 72 7.5
## 8 8 190 78 9.0
## 9 9 190 79 10.0
## 10 10 180 67 3.0
dane$ranga_wzrost = rank(dane$wzrost)
dane
## id wzrost waga ranga_waga ranga_wzrost
## 1 1 150 61 1.0 1.0
## 2 2 175 72 7.5 4.5
## 3 3 170 68 4.0 3.0
## 4 4 175 69 5.5 4.5
## 5 5 155 69 5.5 2.0
## 6 6 180 66 2.0 6.5
## 7 7 190 72 7.5 9.0
## 8 8 190 78 9.0 9.0
## 9 9 190 79 10.0 9.0
## 10 10 180 67 3.0 6.5
Rysunek nr 1b
Relacja między wzrostem a wagą - dane rangowane
ggplot(dane, aes(x = ranga_wzrost ,y = ranga_waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() + theme(panel.border = element_blank())
Przeliczenie kwadratów z różnic między rangami
dane$d = dane$ranga_waga - dane$ranga_wzrost
dane
## id wzrost waga ranga_waga ranga_wzrost d
## 1 1 150 61 1.0 1.0 0.0
## 2 2 175 72 7.5 4.5 3.0
## 3 3 170 68 4.0 3.0 1.0
## 4 4 175 69 5.5 4.5 1.0
## 5 5 155 69 5.5 2.0 3.5
## 6 6 180 66 2.0 6.5 -4.5
## 7 7 190 72 7.5 9.0 -1.5
## 8 8 190 78 9.0 9.0 0.0
## 9 9 190 79 10.0 9.0 1.0
## 10 10 180 67 3.0 6.5 -3.5
dane$d2 = dane$d^2
dane
## id wzrost waga ranga_waga ranga_wzrost d d2
## 1 1 150 61 1.0 1.0 0.0 0.00
## 2 2 175 72 7.5 4.5 3.0 9.00
## 3 3 170 68 4.0 3.0 1.0 1.00
## 4 4 175 69 5.5 4.5 1.0 1.00
## 5 5 155 69 5.5 2.0 3.5 12.25
## 6 6 180 66 2.0 6.5 -4.5 20.25
## 7 7 190 72 7.5 9.0 -1.5 2.25
## 8 8 190 78 9.0 9.0 0.0 0.00
## 9 9 190 79 10.0 9.0 1.0 1.00
## 10 10 180 67 3.0 6.5 -3.5 12.25
sumakwadratów = sum(dane$d2)
sumakwadratów
## [1] 59
Sprawdzenie ile mamy obserwacji
n #liczba badanych
## [1] 10
Podstawienie do wzoru
\[{rho} = 1-(\frac{6\sum_{i=1}^{n}
d_{i}^{2}}{({n^{3}-n})})\]
rho = 1-((6*59)/((10^3)-10))
round(rho, digits = 2)
## [1] 0.64
Wartość współczynnika spearmana wynosi
rHO = 0.64
Link do kalkulatora internetowego dla korelacji Spearmana https://www.socscistatistics.com/tests/spearman/default2.aspx
Ile wynosi korelacja między lubieniem nauczyciela a brakiem zaangażowania w naukę?
dane = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
"Lubienie" = c(1, 2,3,4,5, 6, 7,8,9,10),
"Brak_zaangażowania" = c(9, 10, 8, 7, 6, 5, 4, 3, 2, 1))
n = length(dane$id)
n
## [1] 10
dane
## id Lubienie Brak_zaangażowania
## 1 1 1 9
## 2 2 2 10
## 3 3 3 8
## 4 4 4 7
## 5 5 5 6
## 6 6 6 5
## 7 7 7 4
## 8 8 8 3
## 9 9 9 2
## 10 10 10 1
dane$ranga_Lubienie = rank(dane$Lubienie,ties.method = "min")
dane
## id Lubienie Brak_zaangażowania ranga_Lubienie
## 1 1 1 9 1
## 2 2 2 10 2
## 3 3 3 8 3
## 4 4 4 7 4
## 5 5 5 6 5
## 6 6 6 5 6
## 7 7 7 4 7
## 8 8 8 3 8
## 9 9 9 2 9
## 10 10 10 1 10
dane$ranga_Brak_zaangażowania = rank(dane$Brak_zaangażowania)
dane
## id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania
## 1 1 1 9 1 9
## 2 2 2 10 2 10
## 3 3 3 8 3 8
## 4 4 4 7 4 7
## 5 5 5 6 5 6
## 6 6 6 5 6 5
## 7 7 7 4 7 4
## 8 8 8 3 8 3
## 9 9 9 2 9 2
## 10 10 10 1 10 1
dane$d = dane$ranga_Lubienie - dane$ranga_Brak_zaangażowania
dane
## id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania d
## 1 1 1 9 1 9 -8
## 2 2 2 10 2 10 -8
## 3 3 3 8 3 8 -5
## 4 4 4 7 4 7 -3
## 5 5 5 6 5 6 -1
## 6 6 6 5 6 5 1
## 7 7 7 4 7 4 3
## 8 8 8 3 8 3 5
## 9 9 9 2 9 2 7
## 10 10 10 1 10 1 9
dane$d2 = dane$d^2
dane
## id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania d d2
## 1 1 1 9 1 9 -8 64
## 2 2 2 10 2 10 -8 64
## 3 3 3 8 3 8 -5 25
## 4 4 4 7 4 7 -3 9
## 5 5 5 6 5 6 -1 1
## 6 6 6 5 6 5 1 1
## 7 7 7 4 7 4 3 9
## 8 8 8 3 8 3 5 25
## 9 9 9 2 9 2 7 49
## 10 10 10 1 10 1 9 81
sumakwadratów = sum(dane$d2)
sumakwadratów
## [1] 328
rho = 1-((6*328)/((10^3)-10))
round(rho, digits = 2)
## [1] -0.99
Spearman, C. (1904). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15(1), 72–101. https://doi.org/10.2307/1412159
Dany wzorem
\[{r} = \frac{n(\sum{xy}) - {(\sum{x})}{(\sum{y})}} {\sqrt{[n\sum{(x^{2}) -(\sum{x})}^2]{[n\sum{(y^{2})} - (\sum{y})}^2]}}\]
dane2 = data.frame("id" = c(1,2,3,4,5,6),
"wzrost" = c(43, 21,25,42,57, 59),
"waga" = c(99, 65, 79, 75, 87, 81))
n = length(dane2$id)
n
## [1] 6
dane2
## id wzrost waga
## 1 1 43 99
## 2 2 21 65
## 3 3 25 79
## 4 4 42 75
## 5 5 57 87
## 6 6 59 81
Rysunek nr 1a
Relacja między wzrostem a wagą - dane surowe
ggplot(dane2, aes(x = wzrost ,y = waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() + theme(panel.border = element_blank())
dane2$xy = dane2$wzrost*dane2$waga
dane2
## id wzrost waga xy
## 1 1 43 99 4257
## 2 2 21 65 1365
## 3 3 25 79 1975
## 4 4 42 75 3150
## 5 5 57 87 4959
## 6 6 59 81 4779
dane2$x2 = dane2$wzrost^2
dane2$y2 = dane2$waga^2
dane2
## id wzrost waga xy x2 y2
## 1 1 43 99 4257 1849 9801
## 2 2 21 65 1365 441 4225
## 3 3 25 79 1975 625 6241
## 4 4 42 75 3150 1764 5625
## 5 5 57 87 4959 3249 7569
## 6 6 59 81 4779 3481 6561
Suma_x = sum(dane2$wzrost)
Suma_y = sum(dane2$waga)
Suma_mnożenia_xy = sum(dane2$xy)
Suma_kwadratów_x = sum(dane2$x2)
Suma_kwadratóW_y = sum(dane2$y2)
Liczba_obserwacji_n = length(dane2)
Suma_x
## [1] 247
Suma_y
## [1] 486
Suma_mnożenia_xy
## [1] 20485
Suma_kwadratów_x
## [1] 11409
Suma_kwadratóW_y
## [1] 40022
Liczba_obserwacji_n
## [1] 6
Przypomnienie wzroru
\[{r} = \frac{n(\sum{xy}) - {(\sum{x})}{(\sum{y})}} {\sqrt{[n\sum{(x^{2}) -(\sum{x})}^2]{[n\sum{(y^{2}}) - (\sum{y})}^2]}}\]
1. Podstawienie do wzoru \[{r} = \frac{6(\sum{yx=20485)} - {(\sum{x=247)}}*{(\sum{y =486)}}} {\sqrt{[6*(\sum{x^{2} = 11409) - (\sum x = {247)}}^2]*{[6*(\sum{y^{2} = 40022)} - (\sum y ={486)}}^2]}}\] 2. Pomnożenie n przez sumę z iloczynu xy
Krok2 = 6*20485
Krok2
## [1] 122910
Krok3 = 247*486
Krok3
## [1] 120042
Różnica_krok_2_krok_3 = 122910 - 120042
Różnica_krok_2_krok_3
## [1] 2868
n_razy_kwadrat_x = 6*11409
n_razy_kwadrat_x
## [1] 68454
kwadrat_z_sumy_x = 247*247
kwadrat_z_sumy_x
## [1] 61009
Różnica_krok_6_krok_5 = 68454-61009
Różnica_krok_6_krok_5
## [1] 7445
n_razy_kwadrat_y = 6*40022
n_razy_kwadrat_y
## [1] 240132
kwadrat_z_sumy_y = 486*486
kwadrat_z_sumy_y
## [1] 236196
Różnica_krok_9_krok_8 = 240132 - 236196
Różnica_krok_9_krok_8
## [1] 3936
Pomnożenie_kroku_7_przez_krok_10 = 7445*3936
Pomnożenie_kroku_7_przez_krok_10
## [1] 29303520
11a. Pierwiastek z kroku 11
pierwiastek_z_kroku_11 = sqrt(29303520)
pierwiastek_z_kroku_11
## [1] 5413.273
r_pearsona = 2868/5413.273
round(r_pearsona, digits = 2)
## [1] 0.53
r = 0.53
Internetowy kalkulator korelacji Pearsona https://www.socscistatistics.com/tests/pearson/
Wzór na współczynnik korelacji Pearsona można zapisać jako:
\[ r = \frac{ \sum (X_i - \bar{X})(Y_i - \bar{Y}) }{ \sqrt{ \sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2 } } \]
Gdzie: - \(r\) - współczynnik korelacji Pearsona - \(X_i\) - i-ta obserwacja zmiennej \(X\) - \(Y_i\) - i-ta obserwacja zmiennej \(Y\) - \(\bar{X}\) - średnia arytmetyczna zmiennej \(X\) - \(\bar{Y}\) - średnia arytmetyczna zmiennej \(Y\)
wzrost = c(43, 21,25,42,57, 59)
waga = c(99, 65, 79, 75, 87, 81)
(43-mean(wzrost))*(99-mean(waga))+
(21-mean(wzrost))*(65-mean(waga))+
(25-mean(wzrost))*(79-mean(waga))+
(42-mean(wzrost))*(75-mean(waga))+
(57-mean(wzrost))*(87-mean(waga))+
(59-mean(wzrost))*(81-mean(waga))
## [1] 478
(43-mean(wzrost))
## [1] 1.833333
(21-mean(wzrost))
## [1] -20.16667
(25-mean(wzrost))
## [1] -16.16667
(42-mean(wzrost))
## [1] 0.8333333
(57-mean(wzrost))
## [1] 15.83333
(59-mean(wzrost))
## [1] 17.83333
(1.833333*1.833333) + (-20.16667*-20.16667) + (-16.16667*-16.16667)+ (0.8333333*0.8333333)+(15.83333*15.83333)+(17.83333*17.83333)
## [1] 1240.833
(99-mean(waga))
## [1] 18
(65-mean(waga))
## [1] -16
(79-mean(waga))
## [1] -2
(75-mean(waga))
## [1] -6
(87-mean(waga))
## [1] 6
(81-mean(waga))
## [1] 0
(18*18)+(-16*-16) +(-2*-2) +(-6*-6)+(6*6)+( 0*0)
## [1] 656
Pearson, K. (1895) Notes on Regression and Inheritance in the Case of Two Parents Proceedings of the Royal Society of London, 58, 240-242. https://doi.org/10.1098/rspl.1895.0041
Ile wynosi korelacja między lubieniem nauczyciela a brakiem zaangażowania w naukę?
dane2 = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
"Lubienie" = c(1, 2,3,4,5, 6, 7,8,9,10),
"Brak_zaangażowania" = c(9, 10, 7, 5, 5, 4, 3, 2, 2, 1))
n = length(dane2$id)
n
## [1] 10
dane2
## id Lubienie Brak_zaangażowania
## 1 1 1 9
## 2 2 2 10
## 3 3 3 7
## 4 4 4 5
## 5 5 5 5
## 6 6 6 4
## 7 7 7 3
## 8 8 8 2
## 9 9 9 2
## 10 10 10 1
dane2$xy = dane2$Lubienie*dane2$Brak_zaangażowania
dane2
## id Lubienie Brak_zaangażowania xy
## 1 1 1 9 9
## 2 2 2 10 20
## 3 3 3 7 21
## 4 4 4 5 20
## 5 5 5 5 25
## 6 6 6 4 24
## 7 7 7 3 21
## 8 8 8 2 16
## 9 9 9 2 18
## 10 10 10 1 10
dane2$x2 = dane2$Lubienie^2
dane2$y2 = dane2$Brak_zaangażowania^2
dane2
## id Lubienie Brak_zaangażowania xy x2 y2
## 1 1 1 9 9 1 81
## 2 2 2 10 20 4 100
## 3 3 3 7 21 9 49
## 4 4 4 5 20 16 25
## 5 5 5 5 25 25 25
## 6 6 6 4 24 36 16
## 7 7 7 3 21 49 9
## 8 8 8 2 16 64 4
## 9 9 9 2 18 81 4
## 10 10 10 1 10 100 1
Suma_x = sum(dane2$Lubienie)
Suma_y = sum(dane2$Brak_zaangażowania)
Suma_mnożenia_xy = sum(dane2$xy)
Suma_kwadratów_x = sum(dane2$x2)
Suma_kwadratóW_y = sum(dane2$y2)
Liczba_obserwacji_n = length(dane2)
Suma_x
## [1] 55
Suma_y
## [1] 48
Suma_mnożenia_xy
## [1] 184
Suma_kwadratów_x
## [1] 385
Suma_kwadratóW_y
## [1] 314
Liczba_obserwacji_n
## [1] 6
1. Podstawienie do wzoru \[{r} = \frac{10(\sum{yx=184)} - {(\sum{x=55)}}*{(\sum{y =48)}}} {\sqrt{[10*(\sum{x^{2} = 385) - (\sum x = {55)}}^2]*{[10*(\sum{y^{2} = 314)} - (\sum y ={48)}}^2]}}\] 2. Pomnożenie n przez sumę z iloczynu xy
Krok2 = 10*184
Krok2
## [1] 1840
Krok3 = 55*48
Krok3
## [1] 2640
Różnica_krok_2_krok_3 = 1840 - 2640
Różnica_krok_2_krok_3
## [1] -800
n_razy_kwadrat_x = 10*385
n_razy_kwadrat_x
## [1] 3850
kwadrat_z_sumy_x = 55*55
kwadrat_z_sumy_x
## [1] 3025
Różnica_krok_6_krok_5 = 3850-3025
Różnica_krok_6_krok_5
## [1] 825
n_razy_kwadrat_y = 10*314
n_razy_kwadrat_y
## [1] 3140
kwadrat_z_sumy_y = 48*48
kwadrat_z_sumy_y
## [1] 2304
Różnica_krok_9_krok_8 = 3140 - 2304
Różnica_krok_9_krok_8
## [1] 836
Pomnożenie_kroku_7_przez_krok_10 = 825*(836)
Pomnożenie_kroku_7_przez_krok_10
## [1] 689700
11a. Pierwiastek z kroku 11
pierwiastek_z_kroku_11 = sqrt(689700)
pierwiastek_z_kroku_11
## [1] 830.4818
r_pearsona = -800/830.4818
round(r_pearsona, digits = 2)
## [1] -0.96
Histogram 1a
Rozkład wzrostu w grupach sportowców
Histogram 1b
Rozkład wzrostu w grupach sportowców
Analiza regresji to technika statystyczna, która pozwala na zbadanie zależności pomiędzy zmiennymi. Najczęściej stosuje się ją do przewidywania wartości jednej zmiennej (zmiennej zależnej) na podstawie wartości innej zmiennej (zmiennej niezależnej).
Analiza regresji jest używana w różnych sytuacjach, takich jak:
Analiza regresji jest szeroko stosowana w badaniach naukowych, w tym:
Technika ta jest wykorzystywana w wielu dziedzinach nauki, takich jak:
Podsumowując, analiza regresji to potężne narzędzie, które pomaga zrozumieć i przewidywać zachowania oraz zależności w różnych dziedzinach badań. Dzięki jej zastosowaniu można lepiej analizować dane i podejmować bardziej świadome decyzje.
W przypadku regresji liniowej, wzór matematyczny na analizę regresji jest następujący:
\[ y = a + bx \]
Gdzie: - y – zmienna zależna (to, co chcemy przewidzieć), - x – zmienna niezależna (na podstawie której przewidujemy), - a – wyraz wolny (intercept), - b – współczynnik nachylenia prostej regresji (slope).
Wzór ten opisuje liniową zależność między zmiennymi x a y. Innymi słowy, dla każdej jednostki wzrostu zmiennej x, zmienna y zmienia się o wartość współczynnika b. Wyraz wolny a określa wartość zmiennej y, gdy zmienna x wynosi zero.
Załóżmy, że mamy dane dotyczące sprzedaży owoców i warzyw w zależności od dni tygodnia:
| Dzień | Sprzedaż Owoców (kg) | Sprzedaż Warzyw (kg) |
|---|---|---|
| Poniedziałek | 20 | 10 |
| Wtorek | 18 | 12 |
| Środa | 25 | 15 |
| Czwartek | 22 | 13 |
| Piątek | 24 | 14 |
Dla uproszczenia obliczeń przyjmijmy, że zmienna niezależna to sprzedaż owoców (x), a zmienna zależna to sprzedaż warzyw (y).
Do wyliczenia wzoru analizy regresji użyjemy metody najmniejszych kwadratów. Potrzebujemy najpierw obliczyć a (wyraz wolny) oraz b (współczynnik nachylenia).
Wzory na a i b wyglądają następująco:
\[ b = \frac{N\sum_{i=1}^N{(x_i \cdot y_i)} - \sum_{i=1}^N{x_i} \sum_{i=1}^N{y_i}}{N\sum_{i=1}^N{x_i^2} - \left( \sum_{i=1}^N{x_i} \right)^2} \]
\[ a = \frac{\sum_{i=1}^N{y_i} - b \sum_{i=1}^N{x_i}}{N} \]
Podstawiając dane do wzorów, obliczamy wartości:
\[ \sum{x_i} = 20 + 18 + 25 + 22 + 24 = 109 \]
\[ \sum{y_i} = 10 + 12 + 15 + 13 + 14 = 64 \]
\[ \sum{x_i y_i} = (20 \cdot 10) + (18 \cdot 12) + (25 \cdot 15) + (22 \cdot 13) + (24 \cdot 14) = 1413 \]
\[ \sum{x_i^2} = 20^2 + 18^2 + 25^2 + 22^2 + 24^2 = 2409 \]
Teraz wyliczamy b:
\[ b = \frac{5 \cdot 1413 - 109 \cdot 64}{5 \cdot 2409 - 109^2} = \frac{89}{164} \approx 0.5426829 \]
Następnie wyliczamy a:
\[ a = \frac{64 - 0.5426829 \cdot 109}{5} = \frac{4.847564}{5} \approx 0.9695128 \]
Ostateczny wzór regresji wygląda następująco:
\[ y = 0.9695128 + 0.5426829x \]
Oznacza to, że dla każdej dodatniej sprzedaży owoców o 1 kg, sprzedaż warzyw rośnie o około 0.5426829 kg, z wyjściowym poziomem sprzedaży warzyw 0.9695128 kg, gdy sprzedaż owoców wynosi 0 kg.
Fox, J. and Weisberg, S. (2011) An R Companion to Applied Regression. Sage Publishing, Thousand Oaks.
Jeśli chodzi o statystyczny opis zjawisk, to czasami badacze i praktycy chcą sprawdzić, czy różnice między jakimiś grupami pod względem nasilenia jakiegoś parametru (np. grup sportowców pod względem wzrostu) są:
Istotne statystycznie czy Nieistotne statystycznie
Dążą oni do tego by sprawdzić czy różnice między grupami są przypadkowe, czy jednak jakieś znaczące.
Do celów weryfikacji różnic między grupami wykorzystuje się test
statystyczny o nazwie “test t studenta”.
Twórcą testu t studenta był sir. Wiliam Sealy Gosset
Publikował pod pseudonimem Student (stąd nazwa wprowadzonego przez
niego w roku 1908 rozkładu prawdopodobieństwa: rozkład Studenta). Przez
większość życia pracował w browarach Guinnessa w Dublinie i w Londynie.
Zajmował się tam m.in. kontrolą jakości piwa i surowców do jego
produkcji, co doprowadziło go do rozważań nad statystyką i szacowaniem
nieznanych parametrów.
https://pl.wikipedia.org/wiki/William_Sealy_Gosset
sir. Willam wyprowadził taki wzór
\[t = \frac{m_A - m_B}{\sqrt{(S^2/n_A)+(S^2/n_B)}}\] gdzie \[S^2\] ozacza:
\[S^2 = \frac{\sum (x_{i} - m_A)^{2} + \sum (x_{i} - m_B)^{2}}{n_A + n_B - 2}\]
O co chodzi z tym wzorem?
To co jest w liczebniku (na górze) to zróżnicowanie
międzygrupowe (różnica między średnimi w grupach), a to w
mianowniku (na dole) to suma zróżnicowania wewnątrzgupowego
(suma zróżnicowania wynikóW w obu grupach). Im wyższe zróżnicowanie
międzygrupowe i im niższe zróżnicowanie wewnątrzgrupowe to różnica
między grupami jest bardziej istotna statystycznie.
Przyjęło się, że ta proporcja wyrażona statystyką t >= 1.96
(lub ~2) oznacza nieprzypadkowe różnice między grupami pod względem
nasilenia jakiejś zmiennej (np. wzrostu, goryczki w piwie, bólu, chęci
zapłaty itp.)
Jak to policzyć na piechotę?
Zapytano 10 ludzi (N = 10) o to jak bardzo lubią biedronki (n = 5) i stonki (n = 5) na skali Likerta (od 1: Nienawidzę, do 10: Kocham)
Średnie lubienie Biedronek
Biedronki_średnia = (5+6+7+5+6)/5
Biedronki_średnia # Średnie lubienie biedronek wynosi 5.8
## [1] 5.8
Średnie lubienie Stonek
Stonki_średnia = (1+2+3+4+2)/5
Stonki_średnia # Średnie lubienie stonek wynosi 2.4
## [1] 2.4
Zróżnicowanie miedzygrupowe wynosi
Zróżnicowanie_międzygrupowe = 5.8 - 2.4
Zróżnicowanie_międzygrupowe # Różnica miedzy średnimi wynosi 3.4
## [1] 3.4
Kwadrat_odchyleń dla grupy Biedronek
(5 - 5.8)^2
## [1] 0.64
(6 - 5.8)^2
## [1] 0.04
(7 - 5.8)^2
## [1] 1.44
(5 - 5.8)^2
## [1] 0.64
(6 - 5.8)^2
## [1] 0.04
Suma_kwadratóW_Biedronki = (0.64 + 0.04 + 1.44 + 0.64 + 0.04) # Suma kwadratów odchyleń wynosi 2.8
#sqrt to skrót od "square root". Oznacza pierwiastek!
Kwadrat_odchyleń dla grupy Stonek
(1 - 2.4)^2
## [1] 1.96
(2 - 2.4)^2
## [1] 0.16
(3 - 2.4)^2
## [1] 0.36
(4 - 2.4)^2
## [1] 2.56
(2 - 2.4)^2
## [1] 0.16
Suma_kwadratóW_Stonki = (1.96 + 0.16 + 0.36 + 2.56 + 0.16) # Suma kwadratów odchyleń wynosi 5.2
Suma_kwadratóW_Stonki
## [1] 5.2
wyliczamy wspólne zróżnicowanie wyników \[S^2 = \frac{\sum (x_{i} - m_A)^{2} + \sum (x_{i} - m_B)^{2}}{n_A + n_B - 2}\] \[S^2 = \frac{2.8 + 5.2}{5 + 5 - 2}\] \[S^2\] Wynosi
Wspólna_wariancja = (2.8+5.2)/8
Wspólna_wariancja
## [1] 1
Mamy wszystko i podstawiamy pod wzór na statystykę t \[t = \frac{m_A - m_B}{\sqrt{(S^2/n_A)+(S^2/n_B)}}\]
\[t = \frac{5.8 - 2.4}{\sqrt{(1/5)+(1/5)}}\]
t = (5.8-2.4)/sqrt((1/5)+(1/5))
t = 3.4/0.6324555
t
## [1] 5.375872
Wniosek jaki można wyciągnąć z tych wyliczeń
Statystyka t wyraża stosunek zróżnicowania międzygrupowego do sumy zróżnicowania wewnątrzgrupowego, jej wartość wynosząca 5.375872 mówi o tym, że zróżnicowanie międzygrupowe (różnica średnich ocen lubienia biedonek i stonek) jest około 5 razy większe niż zróżnicowanie wewnątrz grup (suma odchyleń standardowych lubienia biedronek i stonek). Statystyka t przekroczyła próg wartości 2 więc można uznać wstępnie, że nie jest to przypadek.
Ludzie lubią istotnie bardziej Biedronki M = 5.8 niż Stonki M = 2.4.
W badaniu dotyczącym testowania jakości herbat poproszono 20 osób o wyrażenie zdania na temat smaku herbaty. 10 osób próbowało herbaty chińskiej i 10 herbaty japońskiej.
Osoby oceniały smak na skali od 1 (okropna) do 5 (bardzo smaczna)
Problem badawczy jaki postawili badacze brzmiał:
Która herbata jest smaczniejsza?
Wyniki dla herbaty chińskiej:
chińska = c(1,2,1,2,3,5,1,4,3,4)
Wyniki dla herbaty japońskiej:
japońska = c(1,3,2,3,4,5,3,4,4,5)
Średnie dla obu herbat
mean(chińska)
## [1] 2.6
mean(japońska)
## [1] 3.4
2.6-3.4
## [1] -0.8
Kwadrat odchyleń dla obu herbat
sum(as.data.frame(chińska - 2.6)^2)
## [1] 18.4
sum(as.data.frame(japońska - 3.4)^2)
## [1] 14.4
Wartość S2 =
(18.4 + 14.4)/18
## [1] 1.822222
Wartość t
t = -0.8/sqrt((1.822222/10)+(1.822222/10))
t = -0.8/0.6036923
t
## [1] -1.325178
Wniosek?
Test t dla prób zależnych, znany również jako test t dla prób związanych, jest statystycznym narzędziem służącym do porównywania średnich dwóch powiązanych grup. Jest to technika, która pozwala na ocenę, czy różnice między dwiema próbami są statystycznie istotne, gdy obie grupy są ze sobą powiązane, na przykład w badaniach przed i po interwencji.
Test t dla prób zależnych stosuje się, gdy chcemy porównać wyniki dwóch powiązanych grup. Typowe przypadki użycia obejmują:
Test ten znajduje zastosowanie w różnych dziedzinach naukowych, takich jak:
Wzór na obliczenie statystyki t dla prób zależnych jest następujący:
\[ t = \frac{\overline{d}}{(s_d / \sqrt{n})} \]
Gdzie: - \(\overline{d}\) - średnia różnica między parami obserwacji, - \(s_d\) - odchylenie standardowe różnic, - \(n\) - liczba par.
Analiza t Studenta dla prób zależnych porównuje średnią różnicę między dwiema powiązanymi próbami do odchylenia standardowego tych różnic. Wzór składa się z kilku kluczowych elementów:
Rozważmy przykład badań nad wpływem diety na poziom witamin w organizmach osób spożywających owoce i warzywa. Zmierzono poziom witaminy C w organizmach grupy osób przed i po miesiącu diety owocowo-warzywnej.
Oto wyniki pomiarów (w jednostkach witaminy C):
| Przed dietą | Po diecie |
|---|---|
| 54 | 60 |
| 55 | 63 |
| 58 | 64 |
| 52 | 65 |
| 53 | 62 |
Kroki obliczenia analizy t Studenta dla prób zależnych:
Oblicz różnice dla każdej pary obserwacji:
Oblicz średnią różnic: \(\overline{d} = \frac{6 + 8 + 6 + 13 + 9}{5} = \frac{42}{5} = 8.4\)
Oblicz odchylenie standardowe różnic:
\[ s_d = \sqrt{\frac{\sum{(d_i - \overline{d})^2}}{n-1}} \]
\[ = \sqrt{\frac{(6-8.4)^2 + (8-8.4)^2 + (6-8.4)^2 + (13-8.4)^2 + (9-8.4)^2}{4}} \]
\[ = \sqrt{\frac{33.2}{4}} = \sqrt{8.3} \approx 2.88 \]
\[ t = \frac{8.4}{(2.88 / \sqrt{5})} = \frac{8.4}{1.29} \approx 6.51 \]
Na podstawie wyniku \(t \approx 6.51\), możemy stwierdzić, że różnica w średnich przed i po diecie owocowo-warzywnej jest statystycznie istotna.
Statystyka chi kwadrat jest jedną z metod stosowanych w statystyce do badania, czy istnieje istotna różnica między oczekiwanymi i obserwowanymi częstościami w jednej lub więcej kategoriach. Jest szeroko stosowana w analizie danych, a jej głównym celem jest testowanie hipotez dotyczących niezależności zmiennych jakościowych.
Statystyka chi kwadrat (χ²) jest narzędziem statystycznym, które służy do oceny różnic pomiędzy oczekiwanymi a obserwowanymi częstościami w danych. Umożliwia analizę, czy istnieje istotna zależność pomiędzy dwiema zmiennymi jakościowymi lub czy rozkład danych różni się od oczekiwanego rozkładu.
Test chi kwadrat stosuje się w sytuacjach, gdy chcemy zbadać zależności pomiędzy zmiennymi nominalnymi. Przykłady zastosowania obejmują:
Test chi kwadrat znajduje zastosowanie w wielu dziedzinach, takich jak:
Wzór na statystykę chi kwadrat jest następujący:
\[ \chi^2 = \sum_{i=1}^n \frac{(O_i - E_i)^2}{E_i} \]
Gdzie:
Wzór na statystykę chi kwadrat porównuje różnice między obserwowanymi a oczekiwanymi wartościami w każdej kategorii, skalując je przez oczekiwane wartości. Im większa różnica między obserwowanymi a oczekiwanymi wartościami, tym większa wartość statystyki chi kwadrat, co może wskazywać na niezgodność z hipotezą zerową.
Załóżmy, że chcemy sprawdzić, czy rodzaj produktu (owoc lub warzywo) wpływa na jego popularność w sklepie. Obserwowane częstości sprzedaży są następujące:
Oczekiwane częstości, zakładając, że wszystkie produkty powinny być równie popularne, to:
Zastosujmy wzór na statystykę chi kwadrat:
\[ \chi^2 = \frac{(50 - 35)^2}{35} + \frac{(30 - 35)^2}{35} + \frac{(40 - 35)^2}{35} + \frac{(20 - 35)^2}{35} \]
Obliczmy wartości poszczególnych elementów:
\[ \chi^2 = \frac{225}{35} + \frac{25}{35} + \frac{25}{35} + \frac{225}{35} \]
\[ \chi^2 = 6.43 + 0.71 + 0.71 + 6.43 \]
\[ \chi^2 = 14.28 \]
Po obliczeniu statystyki chi kwadrat, możemy porównać ją z odpowiednią wartością krytyczną w tabeli chi kwadrat, aby ocenić, czy różnica jest istotna statystycznie.
Pearson, K. (1900). X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling . The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(302), 157–175. https://doi.org/10.1080/14786440009463897
df=k−1
k = płeć biologiczna; 2x(kobieta/mężczyzna)
df = 2-1
df = 1
Dla płci na 2 poziomach df dla testu Chi wynosi 1.
df = (r-1)+(c-1)
r = płeć biologiczna; 2x(kobieta/mężczyzna)
r = kolor włosów; 3x(blond/rude/czarne)
df = (2-1)+(3-1)
df = 1+2
df = 3
Przykład. Zakładamy, że nasz wynik testu Chi Kwadrat (df=3) = 8.01
Wynik jest istotny na poziomie p < 0.05 (Chi Kwadrat przy df = 3 musi wynosić minimum 7.814727903, żeby uzyskać istotność na poziomie p < 0.05 )
Tablica statystyzna dla statystyki Chi kwadrat dla 20 stopni swobody
| df/p | 0.05 | 0.1 |
|---|---|---|
| 1 | 3.841459 | 2.705544 |
| 2 | 5.991465 | 4.605170 |
| 3 | 7.814728 | 6.251389 |
| 4 | 9.487729 | 7.779440 |
| 5 | 11.070498 | 9.236357 |
| 6 | 12.591587 | 10.644641 |
| 7 | 14.067140 | 12.017037 |
| 8 | 15.507313 | 13.361566 |
| 9 | 16.918978 | 14.683657 |
| 10 | 18.307038 | 15.987179 |
| 11 | 19.675138 | 17.275008 |
| 12 | 21.026070 | 18.549348 |
| 13 | 22.362033 | 19.811929 |
| 14 | 23.684791 | 21.064144 |
| 15 | 24.995790 | 22.307130 |
| 16 | 26.296228 | 23.541829 |
| 17 | 27.587112 | 24.769035 |
| 18 | 28.869299 | 25.989423 |
| 19 | 30.143527 | 27.203571 |
| 20 | 31.410433 | 28.411981 |
Na dzisiejszych zajęciach przedstawie Wam podstawowe schematy badawcze, dzięki którym badacze starają się dociec przyczyn.
Podstawowe pojęcia
Kanon jednej różnicy: Projektowanie warunków eksperymentalnych w taki sposób, by różniły się od siebie tylko jednym elementem (np. testowanie loga firmy z białą i czarną czcionką pozwala przypisać przyczynę różnic w postrzeganiu względem koloru czcionki z jakiego składa się logo). Kiedy różnią się więcej niż jednym elementem, to trudno przypisać zmiany jednej przyczynie, bo mamy równie możliwe alternatywne wyjaśnienie jakim jest fakt, że mogła zadziałać inna przyczyna.
Manipulacja eksperymentalna: Wywołanie przyczyny zjawiska (np. podanie leku przeciwbólowego.
Warunek kontrolny: Warunek w którym obserwacje nie są poddane manipulacji eksperymentalnej.
Operacjonalizacja pomiaru: zamiana teoretycznej wielkości np. agresywności na obserwowalne w rzeczywistości zdarzenie np. podanie do kanapki: 1 - sosu łagodnego; 2 - sosu delikatnie pikantnego; 3 - sosu pikantnego: 4 - sosu mocno pikantnego.
Pomiar: Sposób pomiaru interesującej nas wielkości po zadziałaniu przyczyny lub jej braku. Np. dystans psychologiczny między ludźmi możemy mierzyć metrówką w cm, czas działania programu komputerowego możemy mierzyć zegarem systemowym.
W grupach 3-4 osobowych zaprojektujcie prosty eksperyment z grupą kontrolną. Stwórzcie badanie i Wywołajcie w nim w jakiś sposób przyczynę i mierzcie jej skutki. Zaprojektujcie również warunek kontrolny. Postarajcie się stworzyć te warunki eksperymentalne w taki sposób, aby nikt nie zarzucił Wam, że na wyniki pomiaru po manipulacji exp. mógł systematycznie oddziaływać jeszcze jakiś czynnik zakłocający. Musicie obronić ten eksperyment z poziomu konstrukcji metody badawczej.
Postarajcie się:
Postawcie jakiś problem badawczy np. Dlaczego kot prowadzjącego strasznie miałczy o 4 nad ranem?
Podajcie kilka potencjalnych przyczyn
Odpowiedzieć logicznie na pytanie “Dlaczego wybrana przez Was przyczyna ma wpływać na Wasz pomiar?”
Zadbajcie o kanon jednej różnicy w planowaniu grupy eksperymentalnej i kontrolnej.
Jeśli trzeba, to wykonajcie odpowiednią operacjonalizację/określcie pomiar skutku.
Bardzo ciekawym podejściem do analizy przyczynowości są badania o charakterze powtarzanego pomiaru, czyli badania w których te same obserwacje są badane wielokrotnie.
Zwróćmy uwagę na poniższy rysunek. Mamy dwie cechy mierzone w przeszłosci i te same cechy mierzone ponownie. Możemy zaobserwować, że jedna cecha z przeszłości (\(YYt_1\)) wpływa na zupełnie inną cechę w przyszłości (\(XXt_1\)).
Rysunek nr 1
Efekt wpływu cechy XX na YY oraz YY na XX
Nota: Linie poziome to efekty autoregresyjne (ta sama cecha z przeszłości wpływa na tę samą cechę w przyszłości); Linie krzyżujące się to krzyżowe efekty wpływu (może pojawić się wpływ); Linie pionowe to korelacje pomiędzy cechami w danym punkcie czasowym.
Tabela nr 1
Efekt wpływu cechy XX na YY oraz YY na XX
Dzięki analizie komponentów autoregresyjnych (np. agresja dzieci \(t_1\) → agresja dzieci \(t_2\)) i relacji cross-laggowych (np. agresja rodziców \(t_1\) → agresja dzieci \(t_2\) vs gresja dzieci \(t_1\) → agresja rodziców \(t_2\) ) możemy obserwować okoliczności w których przyczyna z przeszłości działa na skutek w przyszłości.
O przyczynowości możemy mówić wtedy kiedy tylko jedna cecha np. a wpływa na inną cechę np. b, przy jednoczesnej obserwacji okoliczności w których b nie wpływa na a. Możemy wtedy powiedzieć, że np. agresja rodziców (z przeszłości) wpływa na agresję dzieci (w przyszłości), bo nie obserwujemy, aby agresja dzieci (z przeszłości) wpływała na agresję rodziców (w przyszłości).
Wniosek z powyższego przykładu jest taki, że to agresja rodziców wpływa na agresję dzieci, a nie odwrotnie.
Dlatego możemy odpowiedzieć na kilka pytań:
Czy nasilenie cech z przeszłości wiąże się z nasileniem cech w przyszłości?
Czy możemy rozstrzygnąć o przyczynie?
Jaki układ wyników obserwujemy?
Badania tego typu pozwalają również na analizy mechanizmów mediacyjnych (analiza mechanizmów które odpowiadają za dany efekt przyczynowo-skutkowy [\(xt_1\) -> \(mt_2\) -> \(yt_3\)]).
Ponad to, jest szereg uwarunkowań metodologicznych które trzeba spełnić (lub dążyć do ich spełnienia), by takie badanie się nie rozjechało ⛕ pod względem kontroli efektu przyczynowego.
O to te warunki:
Pomiar zmiennych w danym punkcie czasowym musi być wykonany w tym samym momencie u wszystkich obserwacji (nie możemy zbadać Zosi w poniedziałek, a Krzysia w piątek)
Odstęp czasowy pomiędzy pomiarem cech w \(t_1\) i \(t_2\) musi być taki sam dla wszystkich obserwacji taki sam (nie może być tak, że różnica w czasie między pomirami cech u Zosi wynosi 4 dni, a u Krzysia 10 dni).
Czujny umysł zwróci uwagę, że jeśli warunek 1 jest spełniony to w zasadzie 2 też. Aczkolwiek warunki te są w praktyce badawczej trudno spełnialne jeśli nie mamy wystarczającej kontroli nad badanymi obserwacjami (np. ludźmi, zwierzętami, czy zjawiskami ekonomicznymi). Dlatego warunki te musimy raczej traktować jako warunki do spełnienia których spełnienia dążymy, niż faktycznie spełniamy.
W grupach 3-4 osobowych zaprojektujcie proste badanie o charakterze powtarzanego pomiaru w którym rozstrzygniecie o przyczynie jakiegoś zjawiska.
Tematy do wyboru
Na pozytywny nastrój wpływa sen.
Na wynik sportowy piłkarza wpływa charakter trenera, a nie jego staż treningowy.
Na motywację do pracy pracownika ma wpływ publiczna pochwała szefa.
Na odczuwanie bólu ma wpływ nastrój.
Postarajcie się:
Postawcie jakiś problem badawczy np. Dlaczego kot prowadzjącego strasznie miałczy o 4 nad ranem?
Podajcie kilka potencjalnych przyczyn
Odpowiedzieć logicznie na pytanie “Dlaczego wybrana przez Was przyczyna ma wpływać na Wasz pomiar?”
Odnosząc się do rozstrzygnięć o przyczynowości w planach z powtarzanym pomiarem, rozpiszcie:
Jak i czym zostanie wykonany pierwszy pomiar cech?
Po jakim czasie i dlaczego po takim czasie zostanie wykonany drugi pomiar?
Jak zadbacie o jednoczesny pomiar cech w \(t_1\) i \(t_2\) u Waszych obiektów badawczych?
Jak zadbacie o to by róznice między pomiarami \(t_1\) i \(t_2\) były zbliżone u każdego biektu badanego?
Popper, Karl. The Logic of Scientific Discovery. 2nd ed. Routledge Classics. London, England: Routledge, 2002.
Rosseel, Y. (2012). lavaan: An R package for structural equation modeling. Journal of Statistical Software, 48(2), 1–36. https://doi.org/10.18637/jss.v048.i02
Zyphur, M. J., Allison, P. D., Tay, L., Voelkle, M. C., Preacher, K. J., Zhang, Z., Hamaker, E. L., Shamsollahi, A., Pierides, D. C., Koval, P., & Diener, E. (2019). From data to causes I: Building a general cross-lagged panel model (GCLM). Organizational Research Methods, 23(4), 651–687. https://doi.org/10.1177/1094428119847278