Kontakt:

@
tel: 798 30 95 31
konsultacje: pokój 430 (wtorek godzina 13 - 15)

Zaliczenie

Zaliczenie będzie polegało na teście rozwiązaniu testu wielkrotnego wyboru (z jedną prawodłową odpowiedzią)

Statystyki opisowe

Średnia arytmetyczna

Średnia arytmetyczna - jeden z podstawowych oszacowań w statystyce. Definicja średniej to: Suma elementów składowych podzielona przez ich ilość

\[\bar{X} = \frac{\sum_{i=1}^{n} x_{i}}{n}\] \[\bar{X}\] Średnie nasilenie wartości w grupie obserwacji

\[x_{i}\] Wartość danej obserwacji

\[{n}\] Liczba obserwacji w zbiorze

\[sum_{i=1}^{n}\] Suma wartości

Średnia kwadratowa Root Mean Square (RMS)

Root Mean Square (RMS), czyli pierwiastek średniokwadratowy, jest miarą wartości średniej dla zbioru liczb, uwzględniającą ich kwadraty. W teorii estymacji, pierwiastek średniokwadratowy odchylenia estymatora mierzy, jak daleko estymator odbiega od danych. Jego ogólny wzór jest następujący:

\[ RMS = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_i^2} \]

Gdzie:

  • \(n\) – liczba obserwacji,
  • \(x_i\) – poszczególne wartości w zbiorze danych.

Dygresja o wibracji silników w osiach x, y i z

Są też inne średnie:

https://en.wikipedia.org/wiki/Harmonic_mean

https://en.wikipedia.org/wiki/Geometric_mean

https://en.wikipedia.org/wiki/Weighted_arithmetic_mean

Np. Ile wynosi średnia ocen Bartka?

(1 + 2 + 3 + 4 + 5 + 6)/6
## [1] 3.5
# Średnia ocen Bartka wynosi 3.5

Np. Ile wynosi średnia ocen Małgorzaty?

(4 + 3 + 4 + 4 + 3 + 3)/6
## [1] 3.5
# Średnia ocen Małgorzaty też wynosi 3.5

Odchylenie standardowe

Odchylenie standardowe jest podstawową miarą zmienności zjawisk. Mówi o średnim odchuleniu wyników od średniej i jest wyrażone wzorem

\[s = \sqrt{\frac{\sum (x_{i} - \bar{x})^{2}}{N - 1}}\] \[s\] Odchylenie standardowe \[\bar{x}\] Średnia arytmetyczna z próby \[x_{i}\] Wartość obserwacji \[\sqrt{}\] Pierwiastek
\[N - 1\] Liczebność próby minus jedna obserwacja \[(x_{i} - \bar{x})^{2}\] Tzw. kwadrat odchyleń (bardzo ważne!)

Ile wynosi odchylenie standardowe ocen Bartka?

(1 + 2 + 3 + 4 + 5 + 6)/6 # Średnia wynosi 3.5
## [1] 3.5
#^2 = oznacza podniesienie do drógiej potęgi (kwadrat)

(1-3.5)^2 #odchylenie wynosi = 6.25
## [1] 6.25
(2-3.5)^2 #odchylenie wynosi = 2.25
## [1] 2.25
(3-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(4-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(5-3.5)^2 #odchylenie wynosi = 2.25
## [1] 2.25
(6-3.5)^2 #odchylenie wynosi = 6.25
## [1] 6.25
6.25 + 2.25 + 0.25 + 0.25 + 2.25 + 6.25 # Suma kwadratów odchyleń wynosi 17.5
## [1] 17.5
#sqrt to skrót od "square root". Oznacza pierwiastek!

sqrt(17.5/(6-1)) # Odchylenie standardowe oceń Bartka wynosi 1.870829 oceny 
## [1] 1.870829
sd(c(1, 2, 3, 4, 5, 6)) #Sprawdźmy czy komputer podał taki sam wynik
## [1] 1.870829

Ile wynosi odchylenie standardowe ocen Małgorzaty?

(4 + 3 + 4 + 4 + 3 + 3)/6 # Średnia wynosi 3.5
## [1] 3.5
#^2 = oznacza podniesienie do drógiej potęgi (kwadrat)

(4-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(3-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(4-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(4-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(3-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
(3-3.5)^2 #odchylenie wynosi = 0.25
## [1] 0.25
0.25 + 0.25 + 0.25 + 0.25 + 0.25 + 0.25 # Suma kwadratów odchyleń wynosi 1.5
## [1] 1.5
#sqrt to skrót od "square root". Oznacza pierwiastek!

sqrt(1.5/(6-1)) # Odchylenie standardowe ocen Małgorzaty wynosi 0.5477226 oceny
## [1] 0.5477226
sd(c(4,3, 4,4,3, 3)) #Sprawdźmy czy komputer podał taki sam wynik
## [1] 0.5477226

Jakie są wnioski?

Co możemy powiedzieć o ocenach Bartka i Małgorzaty?

Błąd standardowy średniej

Błąd standardowy jest oszacowaniem wskazującym na to jak wartość statystyki testowej różni się w zależności od wielkości próbki. Jest to miara błędu oszacowania danego parametru w danej próbce.
Im większa próba i im mniejsze odchylenie standardowe tym mniejszy błąd standardowy.

Wzór na błąd standardowy średniej

\[\sigma_{\bar{X}} = \frac{s}{\sqrt{N}}\] \[\sigma_{\bar{X}}\] Błąd standardowy średniej

\[{s}\]

Odchylenie standardowe

\[\sqrt{N}\] Pierwiastek z wielkości próby

Ile wynosi błąd standardowy dla ocen Bartka?

1.870829/sqrt(6)
## [1] 0.7637627

Ile wynosi błąd standardowy dla ocen Małgorzaty?

0.5477226/sqrt(6)
## [1] 0.2236068

Populacja i próbkowanie

Populacja

Przyjmijmy, że mamy populację 100000000 w której średnia inteligencja wynosi 100 punktów +/- 15 punktów.

O to jak prezentuje się rozkład tej cechy w tej właśnie populacji:

set.seed(1234)
populacja = rnorm(100000000, 100,15)
hist(populacja, main = "N = 100 000, M = 100, SD = 15", xlab = "Inteligencja")

Pórbka 1 (100 losowych obserwacji)

Wylosujmy z tej populacji 100 obserwacji;

set.seed(11)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.577583
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 2 (100 losowych obserwacji)

Wylosujmy z tej populacji 100 obserwacji;

set.seed(12)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.491343
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 3 (100 losowych obserwacji)

Wylosujmy z tej populacji 100 obserwacji;

set.seed(13)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.534434
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 4 (100 losowych obserwacji)

Wylosujmy z tej populacji 100 obserwacji;

set.seed(14)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.407876
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 1 (50 losowych obserwacji)

Wylosujmy z tej populacji 50 obserwacji;

set.seed(12)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 2.052815
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 2 (50 losowych obserwacji)

Wylosujmy z tej populacji 50 obserwacji;

set.seed(13)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 2.324929
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 3 (50 losowych obserwacji)

Wylosujmy z tej populacji 50 obserwacji;

set.seed(14)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 1.883499
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 4 (50 losowych obserwacji)

Wylosujmy z tej populacji 50 obserwacji;

set.seed(15)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 2.114335
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 1 (20 losowych obserwacji)

Wylosujmy z tej populacji 20 obserwacji;

set.seed(15)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 20)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))
## [1] 3.768488
hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Przedziały ufności

Przedziały ufności wskazują w jakich przedziałach wartości może znajdować się wynik oszacowania prawdziwego. Możemy wykorzystać do tego różne stopnie prawdopodobieństwa.

Ogólnie przedział ufności jest wyliczany wzorem:

\[\mathrm{CI} = \bar{X} \pm (z_{\frac{1 - p}{2}} \times \sigma_{\bar{X}})\] \[\bar{X}\]

Średnia arytmetyczna

\[z_{1 - p}\] Wskazuje z jakim prawdopodobieństwem chcemy określić przedziały ufności.

\[\sigma_{\bar{X}}\] Błąd standardowy średniej

Ułatwienie oblicznia przedziałów ufności

Przyjmiemy pewne stałe które będą wskazywać na 95% i 90% przedziały ufności

\[\mathrm{CI} = \bar{X} \pm ({1.96} \times \sigma_{\bar{X}})\]

Z = 1.96 wartość ta wskazuje na 95% przedział ufności

\[\mathrm{CI} = \bar{X} \pm ({1.65} \times \sigma_{\bar{X}})\]

Z = 1.65 wartość ta wskazuje na 90% przedział ufności

Dolny i górny przedział ufności dla średniej ocen Bartka

3.5 - (1.96*0.7637627)
## [1] 2.003025
3.5 + (1.96*0.7637627)
## [1] 4.996975

Dolny i górny przedział ufności dla średniej ocen Małgorzaty

3.5 - (1.96*0.2236068)
## [1] 3.061731
3.5 + (1.96*0.2236068)
## [1] 3.938269

Ważne 1

Jeśli przedziały ufności nie nachodzą na wartość 0 to znaczy, że wynik nasilenia średniej jest istotnie statystycznie większy lub mniejszy od wartości 0. To znaczy, że wynik nasilenia zmiennej jest istotny statystycznie.
Jeśli przedziały zachodzą na na wartość 0, to znaczy, że średnia jest bliska wartości 0.

Ważne 2a

Jeśli przedziały ufności dla dwóch oszacowań średnich na siebie zachodzą, to znaczy, że nie ma statystycznie istotnych różnic między obiektami porównań. To znaczy, że wynik prawdziwy pierwszej średniej znajduje się w przedziałach prawdopodobieństwa wyników drugiej średniej.

Przykład takiego nachodzenia się przedziałów przedstawia rysunek poniżej.

Rysunek nr 2 Różnice między osobami pod względem średnich ocen

library("ggplot2")
dane = data.frame(osoba = c("Bartek","Małgorzata"),
           Średnia_ocen = c(3.5,3.5), 
           Dolny_przedział = c(2.00, 3.06), 
           Górny_przedział = c(4.99,3.93))

ggplot(dane, aes(osoba, Średnia_ocen)) +        # ggplot2 plot with confidence intervals
  geom_point() +
  geom_errorbar(aes(ymin = Dolny_przedział, ymax = Górny_przedział))  +theme_bw() + 
  theme(panel.border = element_blank()) + xlab("Osoba badana") + ylab("Średnia ocen")

Nota: Wąsy błędów przedstawiają 95% przedziały ufności dla średniej

Ważne 2b

Jeśli przedziały ufności dla dwóch oszacowań średnich na siebie nie zachodzą, to znaczy, że są statystycznie istotne różnice między obiektami porównań. To znaczy, że wynik prawdziwy pierwszej średniej nie znajduje się w przedziałach prawdopodobieństwa wyników drugiej średniej.

Przykład takiego nienachodzenia się przedziałów przedstawia rysunek poniżej.

Rysunek nr 2 Różnice między osobami pod względem średnich ocen

dane2 = data.frame(osoba = c("Zbyszek","Łucja"),
           Średnia_ocen = c(3.1,5.5), 
           Dolny_przedział = c(2.9, 5.00), 
           Górny_przedział = c(3.3,6.00))

ggplot(dane2, aes(osoba, Średnia_ocen)) +
  geom_point() +
  geom_errorbar(aes(ymin = Dolny_przedział, ymax = Górny_przedział))  +theme_bw() + 
  theme(panel.border = element_blank()) + xlab("Osoba badana")+ylab("Średnia ocen")

Nota: Wąsy błędów przedstawiają 95% przedziały ufności dla średniej

Praca w grupach

Policzymy średnią, odchylnie standardowe, błąd standardowy i przedziały ufności dla naszego wzrostu.

Wzrost_M = c(183, 170,185,178,189,172)
Wzrost_K = c(172, 163,159,171,172,170)
mean(Wzrost_M)
## [1] 179.5
sd(Wzrost_M)
## [1] 7.503333
length(Wzrost_M)
## [1] 6
sd(Wzrost_M)/sqrt(length(Wzrost_M))
## [1] 3.063223
mean(Wzrost_M) - 
  (1.96*sd(Wzrost_M)/sqrt(length(Wzrost_M)))
## [1] 173.4961
mean(Wzrost_M) + 
  (1.96*sd(Wzrost_M)/sqrt(length(Wzrost_M)))
## [1] 185.5039
mean(Wzrost_K)
## [1] 167.8333
sd(Wzrost_K)
## [1] 5.492419
length(Wzrost_K)
## [1] 6
sd(Wzrost_K)/sqrt(length(Wzrost_K))
## [1] 2.242271
mean(Wzrost_K) - 
  (1.96*sd(Wzrost_K)/sqrt(length(Wzrost_K)))
## [1] 163.4385
mean(Wzrost_K) + 
  (1.96*sd(Wzrost_K)/sqrt(length(Wzrost_K)))
## [1] 172.2282

Siła Efektu d Cohena

Siła efektu d Cohena (Cohen’s d) jest jednym z najczęściej używanych miar do oceny wielkości różnic między dwiema średnimi. W statystyce, siła efektu d Cohena pozwala na kwantyfikację różnicy pomiędzy dwiema grupami, uwzględniając zmienność wewnątrz grup. Dzięki tej miarze możemy ocenić, jak duża jest różnica między grupami badawczymi w sposób bardziej spójny niż tylko porównując ich średnie.

Czym jest współczynnik d Cohena?

Współczynnik d Cohena jest miarą siły efektu, która informuje nas, jak duża jest różnica między dwiema grupami w odniesieniu do ich średnich wyników, uwzględniając przy tym zmienność w danych. W przeciwieństwie do wartości p, która mówi, czy różnica jest istotna statystycznie, współczynnik d Cohena pokazuje, jak duża jest ta różnica.

Kiedy stosujemy współczynnik d Cohena?

Współczynnik d Cohena używamy, gdy chcemy ocenić wielkość różnicy między dwiema niezależnymi grupami lub próbami. Stosuje się go przede wszystkim w kontekście:

  • porównywania wyników dwóch grup w badaniach eksperymentalnych,
  • analizy różnic między grupą kontrolną a grupą eksperymentalną,
  • oceny skuteczności interwencji (np. terapia vs brak terapii).

Jakie działania badawcze wykorzystują współczynnik d Cohena?

Współczynnik d Cohena znajduje zastosowanie w wielu dziedzinach, takich jak:

  • psychologia - w badaniach nad efektywnością terapii lub interwencji,
  • edukacja - do analizy skuteczności różnych metod nauczania,
  • medycyna - do oceny skuteczności leków lub zabiegów w porównaniu do grupy kontrolnej.

Interpretacja wyników

Współczynnik d Cohena interpretujemy zgodnie z następującymi wartościami:

  • d ≈ 0.2 - mały efekt (niewielka różnica między grupami),
  • d ≈ 0.5 - średni efekt (umiarkowana różnica między grupami),
  • d ≈ 0.8 - duży efekt (istotna różnica między grupami).

Im wyższa wartość d, tym większa jest różnica między grupami, co oznacza, że efekt (np. interwencji) jest bardziej wyraźny.

Wzór na Siłę Efektu d Cohena

\[ d = \frac{\overline{X_1} - \overline{X_2}}{s} \]

W powyższym wzorze:

  • \(\overline{X_1}\) - średnia grupa 1,
  • \(\overline{X_2}\) - średnia grupa 2,
  • s - średnia odchylenie standardowe (pooled standard deviation).

Odchylenie standardowe s obliczamy jako:

\[ s = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}} \]

Gdzie:

  • n1 - liczba obserwacji w grupie 1,
  • n2 - liczba obserwacji w grupie 2,
  • s1 - odchylenie standardowe w grupie 1,
  • s2 - odchylenie standardowe w grupie 2.

Przykład Obliczeń: Porównanie Średniej Wagi Owoców i Warzyw

Załóżmy, że przeprowadziliśmy badanie, w którym zmierzyliśmy wagę 10 owoców i 10 warzyw:

  • Średnia waga owoców (\(\overline{X_1}\)): 150 gramów,
  • Średnia waga warzyw (\(\overline{X_2}\)): 120 gramów,
  • Odchylenie standardowe wagi owoców (s1): 20 gramów,
  • Odchylenie standardowe wagi warzyw (s2): 30 gramów.

Podstawmy te wartości do wzoru na średnie odchylenie standardowe:

\[ s = \sqrt{\frac{(10 - 1) \cdot 20^2 + (10 - 1) \cdot 30^2}{10 + 10 - 2}} \]

Obliczenia:

\[ s = \sqrt{\frac{9 \cdot 400 + 9 \cdot 900}{18}} = \sqrt{\frac{3600 + 8100}{18}} = \sqrt{650} \approx 25.5 \]

Znamy już odchylenie standardowe. Teraz możemy obliczyć siłę efektu d Cohena:

\[ d = \frac{150 - 120}{25.5} \approx 1.18 \]

Wynik siły efektu d Cohena wynosi około 1.18, co oznacza, że różnica pomiędzy średnią wagą owoców i warzyw jest duża.

Bibliografia

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale,NJ: Lawrence Erlbaum.

Analiza korelacji - Test Pearsona i Spearmana

Korelacja Pearsona jest miarą siły związku między zmiennymi ilościowymi (np. wiek) mającymi rozkład normalny.
https://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_Pearsona

Korelacja metodą Spearmana jest miarą siły związku między zmiennymi ilościowymi (bez rozkładu normalnego) lub porządkowymi (np. wykształcenie). Do wyliczenia współwystępowania wykorzystuje się rangowanie zmiennych. Najmniejszemu wynikowi przypisuje się wartość 1, wyższemu 2 itd. https://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_rang_Spearmana

Rodzaje korelacji
Współczynnik r Pearsona i rHO spearmana przyjmują wartości od - 1 (idealna korelacja negatywna) do 1 (Idealana korelacja pozytywna).

  • Korelacja bliska zeru (r ~ 0) oznacza brak współwystępowania wartości dwóch zmiennych

  • Korelacja pozytywna r > 0 (np. r = 0.30) oznacza pozytywne współwystępowanie zjawisk (wraz ze wzrostem jednej zmiennej wzrastają wyniki drugiej zmiennej)

  • Korelacja negatywna r < 0 (np. r = -0.30) oznacza negatywne współwystępowanie zjawisk (wraz ze wzrostem jednej zmiennej maleją wyniki drugiej zmiennej)

Geometryczna interpretacja wartości tych współczynników odnosi się kąta nachylenia linii trendu (linii łączącej wartości danych obserwacji) do osi x. Im większy kąt, tym silniejszy związek.

Istotność statystyczna korelacji

Tak jak w przypadku większości testów statystycznych wylicza się wartość p, czyli wartość wskazującą na prawdziwość statystyczną hipotezy zerowej. W przypadku testu korelacji (Zarówno Pearsona jak Spearmana):

Hipoteza zerowa dla testu brzmi:
H0: Brak związku między zmiennymi - Współwystępowanie zjawisk jest przypadkowe

Hipoteza alternatywna brzmi:
H1: Istotny związek między zmiennymi - Współwystępowanie zjawisk nie jest dziełem przypadku

Wartość p mniejsza niż 0.05, czyli p < 0.05 pozwala w większości odrzucić hipotezę zerową i przyjąć alternatywną.

Jeśli p > 0.05 (np. 0.055), to oznacza, że korelacja nie jest istotna statystycznie.

Jeśli p < 0.05 (np. 0.00003), to oznacza, że korelacja jest istotna statystycznie.

Korelacja pozytywna i negatywna może być istotna lub nieistotna statystycznie!

Współczynnik korelacji Spearmana

Dany wzorem

\[{rho} = 1-(\frac{6\sum_{i=1}^{n} d_{i}^{2}}{({n^{3}-n})})\] \[{rho}\] współczynnik korelacji Spearmana \[{6}\] wartość stała \[\frac{6\sum_{i=1}^{n} d_{i}^{2}}{}\] suma kwadratów d dla każdego i

\[d_{i}\] di = ranga dla x - ranga dla y

Przykład korelacji Spearmana

dane = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
           "wzrost" = c(150, 175,170,175,155, 180, 190, 190, 190, 180),
           "waga" = c(61, 72, 68, 69, 69, 66, 72, 78, 79, 67))
n = length(dane$id)
n
## [1] 10
dane
##    id wzrost waga
## 1   1    150   61
## 2   2    175   72
## 3   3    170   68
## 4   4    175   69
## 5   5    155   69
## 6   6    180   66
## 7   7    190   72
## 8   8    190   78
## 9   9    190   79
## 10 10    180   67

Rysunek nr 1a
Relacja między wzrostem a wagą - dane surowe

ggplot(dane, aes(x = wzrost ,y = waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() +  theme(panel.border = element_blank()) 

Rangowanie danych do wyliczeń

dane$ranga_waga = rank(dane$waga)
dane
##    id wzrost waga ranga_waga
## 1   1    150   61        1.0
## 2   2    175   72        7.5
## 3   3    170   68        4.0
## 4   4    175   69        5.5
## 5   5    155   69        5.5
## 6   6    180   66        2.0
## 7   7    190   72        7.5
## 8   8    190   78        9.0
## 9   9    190   79       10.0
## 10 10    180   67        3.0
dane$ranga_wzrost = rank(dane$wzrost)
dane
##    id wzrost waga ranga_waga ranga_wzrost
## 1   1    150   61        1.0          1.0
## 2   2    175   72        7.5          4.5
## 3   3    170   68        4.0          3.0
## 4   4    175   69        5.5          4.5
## 5   5    155   69        5.5          2.0
## 6   6    180   66        2.0          6.5
## 7   7    190   72        7.5          9.0
## 8   8    190   78        9.0          9.0
## 9   9    190   79       10.0          9.0
## 10 10    180   67        3.0          6.5

Rysunek nr 1b
Relacja między wzrostem a wagą - dane rangowane

ggplot(dane, aes(x = ranga_wzrost ,y = ranga_waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() +  theme(panel.border = element_blank()) 

Przeliczenie kwadratów z różnic między rangami

dane$d = dane$ranga_waga - dane$ranga_wzrost
dane
##    id wzrost waga ranga_waga ranga_wzrost    d
## 1   1    150   61        1.0          1.0  0.0
## 2   2    175   72        7.5          4.5  3.0
## 3   3    170   68        4.0          3.0  1.0
## 4   4    175   69        5.5          4.5  1.0
## 5   5    155   69        5.5          2.0  3.5
## 6   6    180   66        2.0          6.5 -4.5
## 7   7    190   72        7.5          9.0 -1.5
## 8   8    190   78        9.0          9.0  0.0
## 9   9    190   79       10.0          9.0  1.0
## 10 10    180   67        3.0          6.5 -3.5
dane$d2 = dane$d^2
dane
##    id wzrost waga ranga_waga ranga_wzrost    d    d2
## 1   1    150   61        1.0          1.0  0.0  0.00
## 2   2    175   72        7.5          4.5  3.0  9.00
## 3   3    170   68        4.0          3.0  1.0  1.00
## 4   4    175   69        5.5          4.5  1.0  1.00
## 5   5    155   69        5.5          2.0  3.5 12.25
## 6   6    180   66        2.0          6.5 -4.5 20.25
## 7   7    190   72        7.5          9.0 -1.5  2.25
## 8   8    190   78        9.0          9.0  0.0  0.00
## 9   9    190   79       10.0          9.0  1.0  1.00
## 10 10    180   67        3.0          6.5 -3.5 12.25
sumakwadratów = sum(dane$d2)
sumakwadratów
## [1] 59

Sprawdzenie ile mamy obserwacji

n #liczba badanych 
## [1] 10

Podstawienie do wzoru
\[{rho} = 1-(\frac{6\sum_{i=1}^{n} d_{i}^{2}}{({n^{3}-n})})\]

rho = 1-((6*59)/((10^3)-10))
round(rho, digits = 2)
## [1] 0.64

Wartość współczynnika spearmana wynosi

rHO = 0.64

Link do kalkulatora internetowego dla korelacji Spearmana https://www.socscistatistics.com/tests/spearman/default2.aspx

Praca w grupach

Ile wynosi korelacja między lubieniem nauczyciela a brakiem zaangażowania w naukę?

dane = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
           "Lubienie" = c(1, 2,3,4,5, 6, 7,8,9,10),
           "Brak_zaangażowania" = c(9, 10, 8, 7, 6, 5, 4, 3, 2, 1))
n = length(dane$id)
n
## [1] 10
dane
##    id Lubienie Brak_zaangażowania
## 1   1        1                  9
## 2   2        2                 10
## 3   3        3                  8
## 4   4        4                  7
## 5   5        5                  6
## 6   6        6                  5
## 7   7        7                  4
## 8   8        8                  3
## 9   9        9                  2
## 10 10       10                  1
dane$ranga_Lubienie = rank(dane$Lubienie,ties.method = "min")
dane
##    id Lubienie Brak_zaangażowania ranga_Lubienie
## 1   1        1                  9              1
## 2   2        2                 10              2
## 3   3        3                  8              3
## 4   4        4                  7              4
## 5   5        5                  6              5
## 6   6        6                  5              6
## 7   7        7                  4              7
## 8   8        8                  3              8
## 9   9        9                  2              9
## 10 10       10                  1             10
dane$ranga_Brak_zaangażowania = rank(dane$Brak_zaangażowania)
dane
##    id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania
## 1   1        1                  9              1                        9
## 2   2        2                 10              2                       10
## 3   3        3                  8              3                        8
## 4   4        4                  7              4                        7
## 5   5        5                  6              5                        6
## 6   6        6                  5              6                        5
## 7   7        7                  4              7                        4
## 8   8        8                  3              8                        3
## 9   9        9                  2              9                        2
## 10 10       10                  1             10                        1
dane$d = dane$ranga_Lubienie - dane$ranga_Brak_zaangażowania
dane
##    id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania  d
## 1   1        1                  9              1                        9 -8
## 2   2        2                 10              2                       10 -8
## 3   3        3                  8              3                        8 -5
## 4   4        4                  7              4                        7 -3
## 5   5        5                  6              5                        6 -1
## 6   6        6                  5              6                        5  1
## 7   7        7                  4              7                        4  3
## 8   8        8                  3              8                        3  5
## 9   9        9                  2              9                        2  7
## 10 10       10                  1             10                        1  9
dane$d2 = dane$d^2
dane
##    id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania  d d2
## 1   1        1                  9              1                        9 -8 64
## 2   2        2                 10              2                       10 -8 64
## 3   3        3                  8              3                        8 -5 25
## 4   4        4                  7              4                        7 -3  9
## 5   5        5                  6              5                        6 -1  1
## 6   6        6                  5              6                        5  1  1
## 7   7        7                  4              7                        4  3  9
## 8   8        8                  3              8                        3  5 25
## 9   9        9                  2              9                        2  7 49
## 10 10       10                  1             10                        1  9 81
sumakwadratów = sum(dane$d2)
sumakwadratów
## [1] 328
rho = 1-((6*328)/((10^3)-10))
round(rho, digits = 2)
## [1] -0.99

Bibliografia

Spearman, C. (1904). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15(1), 72–101. https://doi.org/10.2307/1412159

Współczynnik korelacji Pearsona 1

Dany wzorem

\[{r} = \frac{n(\sum{xy}) - {(\sum{x})}{(\sum{y})}} {\sqrt{[n\sum{(x^{2}) -(\sum{x})}^2]{[n\sum{(y^{2})} - (\sum{y})}^2]}}\]

dane2 = data.frame("id" = c(1,2,3,4,5,6),
           "wzrost" = c(43, 21,25,42,57, 59),
           "waga" = c(99, 65, 79, 75, 87, 81))
n = length(dane2$id)
n
## [1] 6
dane2
##   id wzrost waga
## 1  1     43   99
## 2  2     21   65
## 3  3     25   79
## 4  4     42   75
## 5  5     57   87
## 6  6     59   81

Rysunek nr 1a
Relacja między wzrostem a wagą - dane surowe

ggplot(dane2, aes(x = wzrost ,y = waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() +  theme(panel.border = element_blank()) 

dane2$xy = dane2$wzrost*dane2$waga
dane2
##   id wzrost waga   xy
## 1  1     43   99 4257
## 2  2     21   65 1365
## 3  3     25   79 1975
## 4  4     42   75 3150
## 5  5     57   87 4959
## 6  6     59   81 4779
dane2$x2 = dane2$wzrost^2
dane2$y2 = dane2$waga^2
dane2
##   id wzrost waga   xy   x2   y2
## 1  1     43   99 4257 1849 9801
## 2  2     21   65 1365  441 4225
## 3  3     25   79 1975  625 6241
## 4  4     42   75 3150 1764 5625
## 5  5     57   87 4959 3249 7569
## 6  6     59   81 4779 3481 6561
Suma_x = sum(dane2$wzrost)
Suma_y = sum(dane2$waga)
Suma_mnożenia_xy = sum(dane2$xy)
Suma_kwadratów_x = sum(dane2$x2)
Suma_kwadratóW_y =   sum(dane2$y2)
Liczba_obserwacji_n = length(dane2)


Suma_x
## [1] 247
Suma_y
## [1] 486
Suma_mnożenia_xy
## [1] 20485
Suma_kwadratów_x
## [1] 11409
Suma_kwadratóW_y
## [1] 40022
Liczba_obserwacji_n
## [1] 6

Przypomnienie wzroru

\[{r} = \frac{n(\sum{xy}) - {(\sum{x})}{(\sum{y})}} {\sqrt{[n\sum{(x^{2}) -(\sum{x})}^2]{[n\sum{(y^{2}}) - (\sum{y})}^2]}}\]

1. Podstawienie do wzoru \[{r} = \frac{6(\sum{yx=20485)} - {(\sum{x=247)}}*{(\sum{y =486)}}} {\sqrt{[6*(\sum{x^{2} = 11409) - (\sum x = {247)}}^2]*{[6*(\sum{y^{2} = 40022)} - (\sum y ={486)}}^2]}}\] 2. Pomnożenie n przez sumę z iloczynu xy

Krok2 = 6*20485
Krok2
## [1] 122910
  1. Pomnożenie x i y
Krok3 = 247*486
Krok3
## [1] 120042
  1. Różnica wyników między krokiem 2 i 3
Różnica_krok_2_krok_3 = 122910 - 120042
Różnica_krok_2_krok_3
## [1] 2868
  1. Liczba obserwacji razy suma kwadratów z x
n_razy_kwadrat_x = 6*11409
n_razy_kwadrat_x
## [1] 68454
  1. Kwadrat z sumy x
kwadrat_z_sumy_x = 247*247
kwadrat_z_sumy_x
## [1] 61009
  1. Różnica wyników między krokiem 6 i 5
Różnica_krok_6_krok_5 =  68454-61009
Różnica_krok_6_krok_5
## [1] 7445
  1. Liczba obserwacji razy suma kwadratów z y
n_razy_kwadrat_y = 6*40022
n_razy_kwadrat_y
## [1] 240132
  1. Kwadrat z sumy y
kwadrat_z_sumy_y = 486*486
kwadrat_z_sumy_y
## [1] 236196
  1. Różnica wyników między krokiem 9 i 8
Różnica_krok_9_krok_8 =  240132 - 236196
Różnica_krok_9_krok_8
## [1] 3936
  1. Pomnożenie kroku 7 przez 10
Pomnożenie_kroku_7_przez_krok_10 = 7445*3936
Pomnożenie_kroku_7_przez_krok_10
## [1] 29303520

11a. Pierwiastek z kroku 11

pierwiastek_z_kroku_11 = sqrt(29303520)
pierwiastek_z_kroku_11
## [1] 5413.273
  1. Podzielenie kroku 4 przez krok 11
r_pearsona = 2868/5413.273
round(r_pearsona, digits = 2)
## [1] 0.53
  1. Wartość współczynnika Pearsona wynosi

r = 0.53

Internetowy kalkulator korelacji Pearsona https://www.socscistatistics.com/tests/pearson/

Współczynnik korelacji Pearsona 2

Wzór na współczynnik korelacji Pearsona można zapisać jako:

\[ r = \frac{ \sum (X_i - \bar{X})(Y_i - \bar{Y}) }{ \sqrt{ \sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2 } } \]

Gdzie: - \(r\) - współczynnik korelacji Pearsona - \(X_i\) - i-ta obserwacja zmiennej \(X\) - \(Y_i\) - i-ta obserwacja zmiennej \(Y\) - \(\bar{X}\) - średnia arytmetyczna zmiennej \(X\) - \(\bar{Y}\) - średnia arytmetyczna zmiennej \(Y\)

Przykład Obliczenia Analizy Korelacji Pearsona

wzrost = c(43, 21,25,42,57, 59)
waga = c(99, 65, 79, 75, 87, 81)

(43-mean(wzrost))*(99-mean(waga))+
(21-mean(wzrost))*(65-mean(waga))+
(25-mean(wzrost))*(79-mean(waga))+
(42-mean(wzrost))*(75-mean(waga))+
(57-mean(wzrost))*(87-mean(waga))+
(59-mean(wzrost))*(81-mean(waga))
## [1] 478
(43-mean(wzrost)) 
## [1] 1.833333
(21-mean(wzrost)) 
## [1] -20.16667
(25-mean(wzrost)) 
## [1] -16.16667
(42-mean(wzrost)) 
## [1] 0.8333333
(57-mean(wzrost)) 
## [1] 15.83333
(59-mean(wzrost)) 
## [1] 17.83333
(1.833333*1.833333) + (-20.16667*-20.16667) + (-16.16667*-16.16667)+ (0.8333333*0.8333333)+(15.83333*15.83333)+(17.83333*17.83333)
## [1] 1240.833
(99-mean(waga))
## [1] 18
(65-mean(waga))
## [1] -16
(79-mean(waga))
## [1] -2
(75-mean(waga))
## [1] -6
(87-mean(waga))
## [1] 6
(81-mean(waga))
## [1] 0
(18*18)+(-16*-16) +(-2*-2) +(-6*-6)+(6*6)+( 0*0)
## [1] 656

Bibliografia

Pearson, K. (1895) Notes on Regression and Inheritance in the Case of Two Parents Proceedings of the Royal Society of London, 58, 240-242. https://doi.org/10.1098/rspl.1895.0041

Praca w grupach

Ile wynosi korelacja między lubieniem nauczyciela a brakiem zaangażowania w naukę?

dane2 = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
           "Lubienie" = c(1, 2,3,4,5, 6, 7,8,9,10),
           "Brak_zaangażowania" = c(9, 10, 7, 5, 5, 4, 3, 2, 2, 1))
n = length(dane2$id)
n
## [1] 10
dane2
##    id Lubienie Brak_zaangażowania
## 1   1        1                  9
## 2   2        2                 10
## 3   3        3                  7
## 4   4        4                  5
## 5   5        5                  5
## 6   6        6                  4
## 7   7        7                  3
## 8   8        8                  2
## 9   9        9                  2
## 10 10       10                  1
dane2$xy = dane2$Lubienie*dane2$Brak_zaangażowania
dane2
##    id Lubienie Brak_zaangażowania xy
## 1   1        1                  9  9
## 2   2        2                 10 20
## 3   3        3                  7 21
## 4   4        4                  5 20
## 5   5        5                  5 25
## 6   6        6                  4 24
## 7   7        7                  3 21
## 8   8        8                  2 16
## 9   9        9                  2 18
## 10 10       10                  1 10
dane2$x2 = dane2$Lubienie^2
dane2$y2 = dane2$Brak_zaangażowania^2
dane2
##    id Lubienie Brak_zaangażowania xy  x2  y2
## 1   1        1                  9  9   1  81
## 2   2        2                 10 20   4 100
## 3   3        3                  7 21   9  49
## 4   4        4                  5 20  16  25
## 5   5        5                  5 25  25  25
## 6   6        6                  4 24  36  16
## 7   7        7                  3 21  49   9
## 8   8        8                  2 16  64   4
## 9   9        9                  2 18  81   4
## 10 10       10                  1 10 100   1
Suma_x = sum(dane2$Lubienie)
Suma_y = sum(dane2$Brak_zaangażowania)
Suma_mnożenia_xy = sum(dane2$xy)
Suma_kwadratów_x = sum(dane2$x2)
Suma_kwadratóW_y =   sum(dane2$y2)
Liczba_obserwacji_n = length(dane2)

Suma_x
## [1] 55
Suma_y
## [1] 48
Suma_mnożenia_xy
## [1] 184
Suma_kwadratów_x
## [1] 385
Suma_kwadratóW_y
## [1] 314
Liczba_obserwacji_n
## [1] 6

1. Podstawienie do wzoru \[{r} = \frac{10(\sum{yx=184)} - {(\sum{x=55)}}*{(\sum{y =48)}}} {\sqrt{[10*(\sum{x^{2} = 385) - (\sum x = {55)}}^2]*{[10*(\sum{y^{2} = 314)} - (\sum y ={48)}}^2]}}\] 2. Pomnożenie n przez sumę z iloczynu xy

Krok2 = 10*184
Krok2
## [1] 1840
  1. Pomnożenie x i y
Krok3 = 55*48
Krok3
## [1] 2640
  1. Różnica wyników między krokiem 2 i 3
Różnica_krok_2_krok_3 = 1840 - 2640
Różnica_krok_2_krok_3
## [1] -800
  1. Liczba obserwacji razy suma kwadratów z x
n_razy_kwadrat_x = 10*385
n_razy_kwadrat_x
## [1] 3850
  1. Kwadrat z sumy x
kwadrat_z_sumy_x = 55*55
kwadrat_z_sumy_x
## [1] 3025
  1. Różnica wyników między krokiem 6 i 5
Różnica_krok_6_krok_5 =  3850-3025
Różnica_krok_6_krok_5
## [1] 825
  1. Liczba obserwacji razy suma kwadratów z y
n_razy_kwadrat_y = 10*314
n_razy_kwadrat_y
## [1] 3140
  1. Kwadrat z sumy y
kwadrat_z_sumy_y = 48*48
kwadrat_z_sumy_y
## [1] 2304
  1. Różnica wyników między krokiem 9 i 8
Różnica_krok_9_krok_8 =  3140 - 2304
Różnica_krok_9_krok_8
## [1] 836
  1. Pomnożenie kroku 7 przez 10
Pomnożenie_kroku_7_przez_krok_10 = 825*(836)
Pomnożenie_kroku_7_przez_krok_10
## [1] 689700

11a. Pierwiastek z kroku 11

pierwiastek_z_kroku_11 = sqrt(689700)
pierwiastek_z_kroku_11
## [1] 830.4818
  1. Podzielenie kroku 4 przez krok 11
r_pearsona = -800/830.4818
round(r_pearsona, digits = 2)
## [1] -0.96

Zagadka

Histogram 1a

Rozkład wzrostu w grupach sportowców

Histogram 1b

Rozkład wzrostu w grupach sportowców

Analiza Regresji

Analiza regresji to technika statystyczna, która pozwala na zbadanie zależności pomiędzy zmiennymi. Najczęściej stosuje się ją do przewidywania wartości jednej zmiennej (zmiennej zależnej) na podstawie wartości innej zmiennej (zmiennej niezależnej).

Kiedy się jej używa?

Analiza regresji jest używana w różnych sytuacjach, takich jak:

  • Przewidywanie wartości (np. prognozowanie sprzedaży w oparciu o wydatki na reklamę).
  • Badanie wpływu zmiennych na siebie (np. jak poziom wykształcenia wpływa na zarobki).
  • Analiza trendów w danych (np. zmiany temperatury w różnych porach roku).

W jakich działaniach badawczych?

Analiza regresji jest szeroko stosowana w badaniach naukowych, w tym:

  • Ekonomia – do przewidywania wskaźników gospodarczych.
  • Psychologia – do badania związku między zmiennymi psychologicznymi (np. stres a wydajność).
  • Medycyna – do oceny wpływu czynników ryzyka na zdrowie pacjentów.

W jakich naukach?

Technika ta jest wykorzystywana w wielu dziedzinach nauki, takich jak:

  • Statystyka
  • Informatyka
  • Biologia
  • Socjologia
  • Marketing

Podsumowując, analiza regresji to potężne narzędzie, które pomaga zrozumieć i przewidywać zachowania oraz zależności w różnych dziedzinach badań. Dzięki jej zastosowaniu można lepiej analizować dane i podejmować bardziej świadome decyzje.

Wzór na Analizę Regresji

W przypadku regresji liniowej, wzór matematyczny na analizę regresji jest następujący:

\[ y = a + bx \]

Gdzie: - y – zmienna zależna (to, co chcemy przewidzieć), - x – zmienna niezależna (na podstawie której przewidujemy), - a – wyraz wolny (intercept), - b – współczynnik nachylenia prostej regresji (slope).

Sens Wzoru Analizy Regresji

Wzór ten opisuje liniową zależność między zmiennymi x a y. Innymi słowy, dla każdej jednostki wzrostu zmiennej x, zmienna y zmienia się o wartość współczynnika b. Wyraz wolny a określa wartość zmiennej y, gdy zmienna x wynosi zero.

Przykład Obliczenia Analizy Regresji

Załóżmy, że mamy dane dotyczące sprzedaży owoców i warzyw w zależności od dni tygodnia:

Dzień Sprzedaż Owoców (kg) Sprzedaż Warzyw (kg)
Poniedziałek 20 10
Wtorek 18 12
Środa 25 15
Czwartek 22 13
Piątek 24 14

Dla uproszczenia obliczeń przyjmijmy, że zmienna niezależna to sprzedaż owoców (x), a zmienna zależna to sprzedaż warzyw (y).

Do wyliczenia wzoru analizy regresji użyjemy metody najmniejszych kwadratów. Potrzebujemy najpierw obliczyć a (wyraz wolny) oraz b (współczynnik nachylenia).

Wzory na a i b wyglądają następująco:

\[ b = \frac{N\sum_{i=1}^N{(x_i \cdot y_i)} - \sum_{i=1}^N{x_i} \sum_{i=1}^N{y_i}}{N\sum_{i=1}^N{x_i^2} - \left( \sum_{i=1}^N{x_i} \right)^2} \]

\[ a = \frac{\sum_{i=1}^N{y_i} - b \sum_{i=1}^N{x_i}}{N} \]

Podstawiając dane do wzorów, obliczamy wartości:

\[ \sum{x_i} = 20 + 18 + 25 + 22 + 24 = 109 \]

\[ \sum{y_i} = 10 + 12 + 15 + 13 + 14 = 64 \]

\[ \sum{x_i y_i} = (20 \cdot 10) + (18 \cdot 12) + (25 \cdot 15) + (22 \cdot 13) + (24 \cdot 14) = 1413 \]

\[ \sum{x_i^2} = 20^2 + 18^2 + 25^2 + 22^2 + 24^2 = 2409 \]

Teraz wyliczamy b:

\[ b = \frac{5 \cdot 1413 - 109 \cdot 64}{5 \cdot 2409 - 109^2} = \frac{89}{164} \approx 0.5426829 \]

Następnie wyliczamy a:

\[ a = \frac{64 - 0.5426829 \cdot 109}{5} = \frac{4.847564}{5} \approx 0.9695128 \]

Ostateczny wzór regresji wygląda następująco:

\[ y = 0.9695128 + 0.5426829x \]

Oznacza to, że dla każdej dodatniej sprzedaży owoców o 1 kg, sprzedaż warzyw rośnie o około 0.5426829 kg, z wyjściowym poziomem sprzedaży warzyw 0.9695128 kg, gdy sprzedaż owoców wynosi 0 kg.

Bibliografia

Fox, J. and Weisberg, S. (2011) An R Companion to Applied Regression. Sage Publishing, Thousand Oaks.

Rodzina testów t studenta

Różnice między grupami pod względem nasilenia badango parametru

Jeśli chodzi o statystyczny opis zjawisk, to czasami badacze i praktycy chcą sprawdzić, czy różnice między jakimiś grupami pod względem nasilenia jakiegoś parametru (np. grup sportowców pod względem wzrostu) są:

Istotne statystycznie czy Nieistotne statystycznie

Dążą oni do tego by sprawdzić czy różnice między grupami są przypadkowe, czy jednak jakieś znaczące.

Do celów weryfikacji różnic między grupami wykorzystuje się test statystyczny o nazwie “test t studenta”.
Twórcą testu t studenta był sir. Wiliam Sealy Gosset

Publikował pod pseudonimem Student (stąd nazwa wprowadzonego przez niego w roku 1908 rozkładu prawdopodobieństwa: rozkład Studenta). Przez większość życia pracował w browarach Guinnessa w Dublinie i w Londynie. Zajmował się tam m.in. kontrolą jakości piwa i surowców do jego produkcji, co doprowadziło go do rozważań nad statystyką i szacowaniem nieznanych parametrów.
https://pl.wikipedia.org/wiki/William_Sealy_Gosset

sir. Willam wyprowadził taki wzór

\[t = \frac{m_A - m_B}{\sqrt{(S^2/n_A)+(S^2/n_B)}}\] gdzie \[S^2\] ozacza:

\[S^2 = \frac{\sum (x_{i} - m_A)^{2} + \sum (x_{i} - m_B)^{2}}{n_A + n_B - 2}\]

O co chodzi z tym wzorem?

To co jest w liczebniku (na górze) to zróżnicowanie międzygrupowe (różnica między średnimi w grupach), a to w mianowniku (na dole) to suma zróżnicowania wewnątrzgupowego (suma zróżnicowania wynikóW w obu grupach). Im wyższe zróżnicowanie międzygrupowe i im niższe zróżnicowanie wewnątrzgrupowe to różnica między grupami jest bardziej istotna statystycznie.
Przyjęło się, że ta proporcja wyrażona statystyką t >= 1.96 (lub ~2) oznacza nieprzypadkowe różnice między grupami pod względem nasilenia jakiejś zmiennej (np. wzrostu, goryczki w piwie, bólu, chęci zapłaty itp.)

Jak to policzyć na piechotę?

Zapytano 10 ludzi (N = 10) o to jak bardzo lubią biedronki (n = 5) i stonki (n = 5) na skali Likerta (od 1: Nienawidzę, do 10: Kocham)

Średnie lubienie Biedronek

Biedronki_średnia = (5+6+7+5+6)/5
Biedronki_średnia # Średnie lubienie biedronek wynosi 5.8
## [1] 5.8

Średnie lubienie Stonek

Stonki_średnia = (1+2+3+4+2)/5
Stonki_średnia # Średnie lubienie stonek wynosi 2.4
## [1] 2.4

Zróżnicowanie miedzygrupowe wynosi

Zróżnicowanie_międzygrupowe = 5.8 - 2.4
Zróżnicowanie_międzygrupowe # Różnica miedzy średnimi wynosi 3.4
## [1] 3.4

Kwadrat_odchyleń dla grupy Biedronek

(5 - 5.8)^2
## [1] 0.64
(6 - 5.8)^2
## [1] 0.04
(7 - 5.8)^2
## [1] 1.44
(5 - 5.8)^2
## [1] 0.64
(6 - 5.8)^2
## [1] 0.04
Suma_kwadratóW_Biedronki = (0.64 + 0.04 + 1.44 + 0.64 + 0.04) # Suma kwadratów odchyleń wynosi 2.8

#sqrt to skrót od "square root". Oznacza pierwiastek!

Kwadrat_odchyleń dla grupy Stonek

(1 - 2.4)^2
## [1] 1.96
(2 - 2.4)^2
## [1] 0.16
(3 - 2.4)^2
## [1] 0.36
(4 - 2.4)^2
## [1] 2.56
(2 - 2.4)^2
## [1] 0.16
Suma_kwadratóW_Stonki = (1.96 + 0.16 + 0.36 + 2.56 + 0.16) # Suma kwadratów odchyleń wynosi 5.2
Suma_kwadratóW_Stonki
## [1] 5.2

wyliczamy wspólne zróżnicowanie wyników \[S^2 = \frac{\sum (x_{i} - m_A)^{2} + \sum (x_{i} - m_B)^{2}}{n_A + n_B - 2}\] \[S^2 = \frac{2.8 + 5.2}{5 + 5 - 2}\] \[S^2\] Wynosi

Wspólna_wariancja = (2.8+5.2)/8
Wspólna_wariancja
## [1] 1

Mamy wszystko i podstawiamy pod wzór na statystykę t \[t = \frac{m_A - m_B}{\sqrt{(S^2/n_A)+(S^2/n_B)}}\]

\[t = \frac{5.8 - 2.4}{\sqrt{(1/5)+(1/5)}}\]

t = (5.8-2.4)/sqrt((1/5)+(1/5))
t = 3.4/0.6324555
t
## [1] 5.375872

Wniosek jaki można wyciągnąć z tych wyliczeń

Statystyka t wyraża stosunek zróżnicowania międzygrupowego do sumy zróżnicowania wewnątrzgrupowego, jej wartość wynosząca 5.375872 mówi o tym, że zróżnicowanie międzygrupowe (różnica średnich ocen lubienia biedonek i stonek) jest około 5 razy większe niż zróżnicowanie wewnątrz grup (suma odchyleń standardowych lubienia biedronek i stonek). Statystyka t przekroczyła próg wartości 2 więc można uznać wstępnie, że nie jest to przypadek.

Ludzie lubią istotnie bardziej Biedronki M = 5.8 niż Stonki M = 2.4.

Ćwiczenie

W badaniu dotyczącym testowania jakości herbat poproszono 20 osób o wyrażenie zdania na temat smaku herbaty. 10 osób próbowało herbaty chińskiej i 10 herbaty japońskiej.

Osoby oceniały smak na skali od 1 (okropna) do 5 (bardzo smaczna)

Problem badawczy jaki postawili badacze brzmiał:
Która herbata jest smaczniejsza?

Wyniki dla herbaty chińskiej:

chińska = c(1,2,1,2,3,5,1,4,3,4)

Wyniki dla herbaty japońskiej:

japońska = c(1,3,2,3,4,5,3,4,4,5)

Średnie dla obu herbat

mean(chińska)
## [1] 2.6
mean(japońska)
## [1] 3.4
2.6-3.4
## [1] -0.8

Kwadrat odchyleń dla obu herbat

sum(as.data.frame(chińska - 2.6)^2)
## [1] 18.4
sum(as.data.frame(japońska - 3.4)^2)
## [1] 14.4

Wartość S2 =

(18.4 + 14.4)/18
## [1] 1.822222

Wartość t

t  = -0.8/sqrt((1.822222/10)+(1.822222/10))
t = -0.8/0.6036923
t
## [1] -1.325178

Wniosek?

Różnice między pomiarami pod względem nasilenia badango parametru

Test t dla prób zależnych, znany również jako test t dla prób związanych, jest statystycznym narzędziem służącym do porównywania średnich dwóch powiązanych grup. Jest to technika, która pozwala na ocenę, czy różnice między dwiema próbami są statystycznie istotne, gdy obie grupy są ze sobą powiązane, na przykład w badaniach przed i po interwencji.

Kiedy stosujemy test t dla prób zależnych?

Test t dla prób zależnych stosuje się, gdy chcemy porównać wyniki dwóch powiązanych grup. Typowe przypadki użycia obejmują:

  • badania, w których te same osoby są testowane przed i po interwencji,
  • badania, w których pary osób są dobierane na podstawie podobnych cech (np. wiek, płeć).

Gdzie wykorzystuje się test t dla prób zależnych?

Test ten znajduje zastosowanie w różnych dziedzinach naukowych, takich jak:

  • psychologia - do analizy efektywności terapii przed i po leczeniu,
  • medycyna - do oceny skuteczności nowych leków lub procedur chirurgicznych,
  • nauki społeczne - do badania zmian w zachowaniu lub postawach grupy w czasie.

Wzór

Wzór na obliczenie statystyki t dla prób zależnych jest następujący:

\[ t = \frac{\overline{d}}{(s_d / \sqrt{n})} \]

Gdzie: - \(\overline{d}\) - średnia różnica między parami obserwacji, - \(s_d\) - odchylenie standardowe różnic, - \(n\) - liczba par.

Opis wzoru

Analiza t Studenta dla prób zależnych porównuje średnią różnicę między dwiema powiązanymi próbami do odchylenia standardowego tych różnic. Wzór składa się z kilku kluczowych elementów:

  • \(\overline{d}\) to średnia różnica między parami obserwacji. Oblicza się ją, sumując różnice dla wszystkich par, a następnie dzieląc przez liczbę par \(n\).
  • \(s_d\) to odchylenie standardowe różnic. Jest to miara rozproszenia różnic wokół ich średniej.
  • \(n\) to liczba par w próbie.

Przykład obliczenia analizy t Studenta dla prób zależnych

Rozważmy przykład badań nad wpływem diety na poziom witamin w organizmach osób spożywających owoce i warzywa. Zmierzono poziom witaminy C w organizmach grupy osób przed i po miesiącu diety owocowo-warzywnej.

Oto wyniki pomiarów (w jednostkach witaminy C):

Przed dietą Po diecie
54 60
55 63
58 64
52 65
53 62

Kroki obliczenia analizy t Studenta dla prób zależnych:

  1. Oblicz różnice dla każdej pary obserwacji:

    • 60 - 54 = 6
    • 63 - 55 = 8
    • 64 - 58 = 6
    • 65 - 52 = 13
    • 62 - 53 = 9
  2. Oblicz średnią różnic: \(\overline{d} = \frac{6 + 8 + 6 + 13 + 9}{5} = \frac{42}{5} = 8.4\)

  3. Oblicz odchylenie standardowe różnic:

\[ s_d = \sqrt{\frac{\sum{(d_i - \overline{d})^2}}{n-1}} \]

\[ = \sqrt{\frac{(6-8.4)^2 + (8-8.4)^2 + (6-8.4)^2 + (13-8.4)^2 + (9-8.4)^2}{4}} \]

\[ = \sqrt{\frac{33.2}{4}} = \sqrt{8.3} \approx 2.88 \]

  1. Ostatecznie obliczamy statystykę t:

\[ t = \frac{8.4}{(2.88 / \sqrt{5})} = \frac{8.4}{1.29} \approx 6.51 \]

Na podstawie wyniku \(t \approx 6.51\), możemy stwierdzić, że różnica w średnich przed i po diecie owocowo-warzywnej jest statystycznie istotna.

Statystyka Chi Kwadrat

Statystyka chi kwadrat jest jedną z metod stosowanych w statystyce do badania, czy istnieje istotna różnica między oczekiwanymi i obserwowanymi częstościami w jednej lub więcej kategoriach. Jest szeroko stosowana w analizie danych, a jej głównym celem jest testowanie hipotez dotyczących niezależności zmiennych jakościowych.

Czym jest statystyka chi kwadrat?

Statystyka chi kwadrat (χ²) jest narzędziem statystycznym, które służy do oceny różnic pomiędzy oczekiwanymi a obserwowanymi częstościami w danych. Umożliwia analizę, czy istnieje istotna zależność pomiędzy dwiema zmiennymi jakościowymi lub czy rozkład danych różni się od oczekiwanego rozkładu.

Kiedy stosujemy statystykę chi kwadrat?

Test chi kwadrat stosuje się w sytuacjach, gdy chcemy zbadać zależności pomiędzy zmiennymi nominalnymi. Przykłady zastosowania obejmują:

  • analiza zależności pomiędzy płcią a preferencjami zakupowymi,
  • badanie, czy występują różnice w zachowaniach ludzi w różnych grupach wiekowych.

Jakie działania badawcze wykorzystują statystykę chi kwadrat?

Test chi kwadrat znajduje zastosowanie w wielu dziedzinach, takich jak:

  • socjologia - do badania zależności między różnymi cechami demograficznymi,
  • medycyna - do analizy danych epidemiologicznych (np. zależności między chorobami a czynnikami ryzyka),
  • marketing - do badania preferencji konsumentów w różnych segmentach rynku.

Interpretacja wyników

Wzór na Statystykę Chi Kwadrat

Wzór na statystykę chi kwadrat jest następujący:

\[ \chi^2 = \sum_{i=1}^n \frac{(O_i - E_i)^2}{E_i} \]

Gdzie:

  • \(\chi^2\) - statystyka chi kwadrat
  • \(O_i\) - obserwowana częstość w \(i\)-tej kategorii
  • \(E_i\) - oczekiwana częstość w \(i\)-tej kategorii
  • \(n\) - liczba kategorii

Sens Wzoru

Wzór na statystykę chi kwadrat porównuje różnice między obserwowanymi a oczekiwanymi wartościami w każdej kategorii, skalując je przez oczekiwane wartości. Im większa różnica między obserwowanymi a oczekiwanymi wartościami, tym większa wartość statystyki chi kwadrat, co może wskazywać na niezgodność z hipotezą zerową.

Kroki Obliczania Statystyki Chi Kwadrat

  1. Ustal hipotezę zerową i alternatywną.
  2. Zbierz dane i oblicz obserwowane częstości (\(O_i\)).
  3. Oblicz oczekiwane częstości (\(E_i\)) na podstawie hipotezy zerowej.
  4. Podstaw obserwowane i oczekiwane wartości do wzoru na statystykę chi kwadrat.
  5. Wyciągnij wnioski na podstawie wartości statystyki chi kwadrat i tablic wartości krytycznych.

Przykład Obliczenia Statystyki Chi Kwadrat

Załóżmy, że chcemy sprawdzić, czy rodzaj produktu (owoc lub warzywo) wpływa na jego popularność w sklepie. Obserwowane częstości sprzedaży są następujące:

  • Jabłka: 50
  • Banany: 30
  • Marchewki: 40
  • Pomidor: 20

Oczekiwane częstości, zakładając, że wszystkie produkty powinny być równie popularne, to:

  • Jabłka: 35
  • Banany: 35
  • Marchewki: 35
  • Pomidor: 35

Zastosujmy wzór na statystykę chi kwadrat:

\[ \chi^2 = \frac{(50 - 35)^2}{35} + \frac{(30 - 35)^2}{35} + \frac{(40 - 35)^2}{35} + \frac{(20 - 35)^2}{35} \]

Obliczmy wartości poszczególnych elementów:

\[ \chi^2 = \frac{225}{35} + \frac{25}{35} + \frac{25}{35} + \frac{225}{35} \]

\[ \chi^2 = 6.43 + 0.71 + 0.71 + 6.43 \]

\[ \chi^2 = 14.28 \]

Po obliczeniu statystyki chi kwadrat, możemy porównać ją z odpowiednią wartością krytyczną w tabeli chi kwadrat, aby ocenić, czy różnica jest istotna statystycznie.

Bibliografia

Pearson, K. (1900). X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling . The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(302), 157–175. https://doi.org/10.1080/14786440009463897

Tablica statystyczna dla testu Chi Kwadrat

Jak wyliczyć stopnie swobody dla testu Chi Kwadadrat?

Chi kwadrat dla jednej zmiennej

df=k−1

k = płeć biologiczna; 2x(kobieta/mężczyzna)

df = 2-1

df = 1

Dla płci na 2 poziomach df dla testu Chi wynosi 1.

Chi kwadrat dla dwóch zmiennych

df = (r-1)+(c-1)

r = płeć biologiczna; 2x(kobieta/mężczyzna)

r = kolor włosów; 3x(blond/rude/czarne)

df = (2-1)+(3-1)

df = 1+2

df = 3

Przykład. Zakładamy, że nasz wynik testu Chi Kwadrat (df=3) = 8.01

Wynik jest istotny na poziomie p < 0.05 (Chi Kwadrat przy df = 3 musi wynosić minimum 7.814727903, żeby uzyskać istotność na poziomie p < 0.05 )

Tablica statystyzna dla statystyki Chi kwadrat dla 20 stopni swobody

df/p 0.05 0.1
1 3.841459 2.705544
2 5.991465 4.605170
3 7.814728 6.251389
4 9.487729 7.779440
5 11.070498 9.236357
6 12.591587 10.644641
7 14.067140 12.017037
8 15.507313 13.361566
9 16.918978 14.683657
10 18.307038 15.987179
11 19.675138 17.275008
12 21.026070 18.549348
13 22.362033 19.811929
14 23.684791 21.064144
15 24.995790 22.307130
16 26.296228 23.541829
17 27.587112 24.769035
18 28.869299 25.989423
19 30.143527 27.203571
20 31.410433 28.411981

Podstawowe modele badawcze i sposoby ich weryfikacji

Prosty model eksperymentalny

Na dzisiejszych zajęciach przedstawie Wam podstawowe schematy badawcze, dzięki którym badacze starają się dociec przyczyn.

Podstawowe pojęcia

  • Kanon jednej różnicy: Projektowanie warunków eksperymentalnych w taki sposób, by różniły się od siebie tylko jednym elementem (np. testowanie loga firmy z białą i czarną czcionką pozwala przypisać przyczynę różnic w postrzeganiu względem koloru czcionki z jakiego składa się logo). Kiedy różnią się więcej niż jednym elementem, to trudno przypisać zmiany jednej przyczynie, bo mamy równie możliwe alternatywne wyjaśnienie jakim jest fakt, że mogła zadziałać inna przyczyna.

  • Manipulacja eksperymentalna: Wywołanie przyczyny zjawiska (np. podanie leku przeciwbólowego.

  • Warunek kontrolny: Warunek w którym obserwacje nie są poddane manipulacji eksperymentalnej.

  • Operacjonalizacja pomiaru: zamiana teoretycznej wielkości np. agresywności na obserwowalne w rzeczywistości zdarzenie np. podanie do kanapki: 1 - sosu łagodnego; 2 - sosu delikatnie pikantnego; 3 - sosu pikantnego: 4 - sosu mocno pikantnego.

  • Pomiar: Sposób pomiaru interesującej nas wielkości po zadziałaniu przyczyny lub jej braku. Np. dystans psychologiczny między ludźmi możemy mierzyć metrówką w cm, czas działania programu komputerowego możemy mierzyć zegarem systemowym.

Praca w grupach 1

W grupach 3-4 osobowych zaprojektujcie prosty eksperyment z grupą kontrolną. Stwórzcie badanie i Wywołajcie w nim w jakiś sposób przyczynę i mierzcie jej skutki. Zaprojektujcie również warunek kontrolny. Postarajcie się stworzyć te warunki eksperymentalne w taki sposób, aby nikt nie zarzucił Wam, że na wyniki pomiaru po manipulacji exp. mógł systematycznie oddziaływać jeszcze jakiś czynnik zakłocający. Musicie obronić ten eksperyment z poziomu konstrukcji metody badawczej.

Postarajcie się:

  • Postawcie jakiś problem badawczy np. Dlaczego kot prowadzjącego strasznie miałczy o 4 nad ranem?

  • Podajcie kilka potencjalnych przyczyn

  • Odpowiedzieć logicznie na pytanie “Dlaczego wybrana przez Was przyczyna ma wpływać na Wasz pomiar?”

  • Zadbajcie o kanon jednej różnicy w planowaniu grupy eksperymentalnej i kontrolnej.

  • Jeśli trzeba, to wykonajcie odpowiednią operacjonalizację/określcie pomiar skutku.

Analiza przyczynowości w czasie

Bardzo ciekawym podejściem do analizy przyczynowości są badania o charakterze powtarzanego pomiaru, czyli badania w których te same obserwacje są badane wielokrotnie.

Zwróćmy uwagę na poniższy rysunek. Mamy dwie cechy mierzone w przeszłosci i te same cechy mierzone ponownie. Możemy zaobserwować, że jedna cecha z przeszłości (\(YYt_1\)) wpływa na zupełnie inną cechę w przyszłości (\(XXt_1\)).

Rysunek nr 1

Efekt wpływu cechy XX na YY oraz YY na XX

Nota: Linie poziome to efekty autoregresyjne (ta sama cecha z przeszłości wpływa na tę samą cechę w przyszłości); Linie krzyżujące się to krzyżowe efekty wpływu (może pojawić się wpływ); Linie pionowe to korelacje pomiędzy cechami w danym punkcie czasowym.

Tabela nr 1

Efekt wpływu cechy XX na YY oraz YY na XX

Dzięki analizie komponentów autoregresyjnych (np. agresja dzieci \(t_1\) → agresja dzieci \(t_2\)) i relacji cross-laggowych (np. agresja rodziców \(t_1\) → agresja dzieci \(t_2\) vs gresja dzieci \(t_1\) → agresja rodziców \(t_2\) ) możemy obserwować okoliczności w których przyczyna z przeszłości działa na skutek w przyszłości.

O przyczynowości możemy mówić wtedy kiedy tylko jedna cecha np. a wpływa na inną cechę np. b, przy jednoczesnej obserwacji okoliczności w których b nie wpływa na a. Możemy wtedy powiedzieć, że np. agresja rodziców (z przeszłości) wpływa na agresję dzieci (w przyszłości), bo nie obserwujemy, aby agresja dzieci (z przeszłości) wpływała na agresję rodziców (w przyszłości).

Wniosek z powyższego przykładu jest taki, że to agresja rodziców wpływa na agresję dzieci, a nie odwrotnie.

Dlatego możemy odpowiedzieć na kilka pytań:

  • Czy nasilenie cech z przeszłości wiąże się z nasileniem cech w przyszłości?

  • Czy możemy rozstrzygnąć o przyczynie?

  • Jaki układ wyników obserwujemy?

Badania tego typu pozwalają również na analizy mechanizmów mediacyjnych (analiza mechanizmów które odpowiadają za dany efekt przyczynowo-skutkowy [\(xt_1\) -> \(mt_2\) -> \(yt_3\)]).

Ponad to, jest szereg uwarunkowań metodologicznych które trzeba spełnić (lub dążyć do ich spełnienia), by takie badanie się nie rozjechało ⛕ pod względem kontroli efektu przyczynowego.

O to te warunki:

  1. Pomiar zmiennych w danym punkcie czasowym musi być wykonany w tym samym momencie u wszystkich obserwacji (nie możemy zbadać Zosi w poniedziałek, a Krzysia w piątek)

  2. Odstęp czasowy pomiędzy pomiarem cech w \(t_1\) i \(t_2\) musi być taki sam dla wszystkich obserwacji taki sam (nie może być tak, że różnica w czasie między pomirami cech u Zosi wynosi 4 dni, a u Krzysia 10 dni).

Czujny umysł zwróci uwagę, że jeśli warunek 1 jest spełniony to w zasadzie 2 też. Aczkolwiek warunki te są w praktyce badawczej trudno spełnialne jeśli nie mamy wystarczającej kontroli nad badanymi obserwacjami (np. ludźmi, zwierzętami, czy zjawiskami ekonomicznymi). Dlatego warunki te musimy raczej traktować jako warunki do spełnienia których spełnienia dążymy, niż faktycznie spełniamy.

Praca w grupach 2

W grupach 3-4 osobowych zaprojektujcie proste badanie o charakterze powtarzanego pomiaru w którym rozstrzygniecie o przyczynie jakiegoś zjawiska.

Tematy do wyboru

  • Na pozytywny nastrój wpływa sen.

  • Na wynik sportowy piłkarza wpływa charakter trenera, a nie jego staż treningowy.

  • Na motywację do pracy pracownika ma wpływ publiczna pochwała szefa.

  • Na odczuwanie bólu ma wpływ nastrój.

Postarajcie się:

  • Postawcie jakiś problem badawczy np. Dlaczego kot prowadzjącego strasznie miałczy o 4 nad ranem?

  • Podajcie kilka potencjalnych przyczyn

  • Odpowiedzieć logicznie na pytanie “Dlaczego wybrana przez Was przyczyna ma wpływać na Wasz pomiar?”

Odnosząc się do rozstrzygnięć o przyczynowości w planach z powtarzanym pomiarem, rozpiszcie:

  • Jak i czym zostanie wykonany pierwszy pomiar cech?

  • Po jakim czasie i dlaczego po takim czasie zostanie wykonany drugi pomiar?

  • Jak zadbacie o jednoczesny pomiar cech w \(t_1\) i \(t_2\) u Waszych obiektów badawczych?

  • Jak zadbacie o to by róznice między pomiarami \(t_1\) i \(t_2\) były zbliżone u każdego biektu badanego?

Bibliografia

Popper, Karl. The Logic of Scientific Discovery. 2nd ed. Routledge Classics. London, England: Routledge, 2002.

Rosseel, Y. (2012). lavaan: An R package for structural equation modeling. Journal of Statistical Software, 48(2), 1–36. https://doi.org/10.18637/jss.v048.i02

Zyphur, M. J., Allison, P. D., Tay, L., Voelkle, M. C., Preacher, K. J., Zhang, Z., Hamaker, E. L., Shamsollahi, A., Pierides, D. C., Koval, P., & Diener, E. (2019). From data to causes I: Building a general cross-lagged panel model (GCLM). Organizational Research Methods, 23(4), 651–687. https://doi.org/10.1177/1094428119847278