Zajęcia prowadzone przez Mgr Konrad Hryniewicz

Kontakt:

@ k.hryniewicz@wznj.umg.edu.pl
tel: 798 30 95 31
konsultacje: pokój 430 (wtorek godzina 13 - 15)

Zaliczenie

Zaliczenie będzie polegało na teście rozwiązaniu testu wielkrotnego wyboru (z jedną prawodłową odpowiedzią)

Statystyki opisowe

Średnia arytmetyczna

Średnia arytmetyczna - jeden z podstawowych oszacowań w statystyce. Definicja średniej to: Suma elementów składowych podzielona przez ich ilość

\[\bar{X} = \frac{\sum_{i=1}^{n} x_{i}}{n}\] \[\bar{X}\] Średnie nasilenie wartości w grupie obserwacji

\[x_{i}\] Wartość danej obserwacji

\[{n}\] Liczba obserwacji w zbiorze

\[sum_{i=1}^{n}\] Suma wartości

Średnia kwadratowa Root Mean Square (RMS)

Root Mean Square (RMS), czyli pierwiastek średniokwadratowy, jest miarą wartości średniej dla zbioru liczb, uwzględniającą ich kwadraty. W teorii estymacji, pierwiastek średniokwadratowy odchylenia estymatora mierzy, jak daleko estymator odbiega od danych. Jego ogólny wzór jest następujący:

\[ RMS = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_i^2} \]

Gdzie:

\(n\) – liczba obserwacji,
\(x_i\) – poszczególne wartości w zbiorze danych.

Dygresja o wibracji silników w osiach x, y i z

Są też inne średnie:

https://en.wikipedia.org/wiki/Harmonic_mean

https://en.wikipedia.org/wiki/Geometric_mean

https://en.wikipedia.org/wiki/Weighted_arithmetic_mean

Np. Ile wynosi średnia ocen Bartka?

(1 + 2 + 3 + 4 + 5 + 6)/6

## [1] 3.5

# Średnia ocen Bartka wynosi 3.5

Np. Ile wynosi średnia ocen Małgorzaty?

(4 + 3 + 4 + 4 + 3 + 3)/6

## [1] 3.5

# Średnia ocen Małgorzaty też wynosi 3.5

Odchylenie standardowe

Odchylenie standardowe jest podstawową miarą zmienności zjawisk. Mówi o średnim odchuleniu wyników od średniej i jest wyrażone wzorem

\[s = \sqrt{\frac{\sum (x_{i} - \bar{x})^{2}}{N - 1}}\] \[s\] Odchylenie standardowe \[\bar{x}\] Średnia arytmetyczna z próby \[x_{i}\] Wartość obserwacji \[\sqrt{}\] Pierwiastek
\[N - 1\] Liczebność próby minus jedna obserwacja \[(x_{i} - \bar{x})^{2}\] Tzw. kwadrat odchyleń (bardzo ważne!)

Ile wynosi odchylenie standardowe ocen Bartka?

(1 + 2 + 3 + 4 + 5 + 6)/6 # Średnia wynosi 3.5

## [1] 3.5

#^2 = oznacza podniesienie do drógiej potęgi (kwadrat)

(1-3.5)^2 #odchylenie wynosi = 6.25

## [1] 6.25

(2-3.5)^2 #odchylenie wynosi = 2.25

## [1] 2.25

(3-3.5)^2 #odchylenie wynosi = 0.25

## [1] 0.25

(4-3.5)^2 #odchylenie wynosi = 0.25

## [1] 0.25

(5-3.5)^2 #odchylenie wynosi = 2.25

## [1] 2.25

(6-3.5)^2 #odchylenie wynosi = 6.25

## [1] 6.25

6.25 + 2.25 + 0.25 + 0.25 + 2.25 + 6.25 # Suma kwadratów odchyleń wynosi 17.5

## [1] 17.5

#sqrt to skrót od "square root". Oznacza pierwiastek!

sqrt(17.5/(6-1)) # Odchylenie standardowe oceń Bartka wynosi 1.870829 oceny

## [1] 1.870829

sd(c(1, 2, 3, 4, 5, 6)) #Sprawdźmy czy komputer podał taki sam wynik

## [1] 1.870829

Ile wynosi odchylenie standardowe ocen Małgorzaty?

(4 + 3 + 4 + 4 + 3 + 3)/6 # Średnia wynosi 3.5

## [1] 3.5

#^2 = oznacza podniesienie do drógiej potęgi (kwadrat)

(4-3.5)^2 #odchylenie wynosi = 0.25

## [1] 0.25

(3-3.5)^2 #odchylenie wynosi = 0.25

## [1] 0.25

(4-3.5)^2 #odchylenie wynosi = 0.25

## [1] 0.25

(4-3.5)^2 #odchylenie wynosi = 0.25

## [1] 0.25

(3-3.5)^2 #odchylenie wynosi = 0.25

## [1] 0.25

(3-3.5)^2 #odchylenie wynosi = 0.25

## [1] 0.25

0.25 + 0.25 + 0.25 + 0.25 + 0.25 + 0.25 # Suma kwadratów odchyleń wynosi 1.5

## [1] 1.5

#sqrt to skrót od "square root". Oznacza pierwiastek!

sqrt(1.5/(6-1)) # Odchylenie standardowe ocen Małgorzaty wynosi 0.5477226 oceny

## [1] 0.5477226

sd(c(4,3, 4,4,3, 3)) #Sprawdźmy czy komputer podał taki sam wynik

## [1] 0.5477226

Jakie są wnioski?

Co możemy powiedzieć o ocenach Bartka i Małgorzaty?

Błąd standardowy średniej

Błąd standardowy jest oszacowaniem wskazującym na to jak wartość statystyki testowej różni się w zależności od wielkości próbki. Jest to miara błędu oszacowania danego parametru w danej próbce.
Im większa próba i im mniejsze odchylenie standardowe tym mniejszy błąd standardowy.

Wzór na błąd standardowy średniej

\[\sigma_{\bar{X}} = \frac{s}{\sqrt{N}}\] \[\sigma_{\bar{X}}\] Błąd standardowy średniej

\[{s}\]

Odchylenie standardowe

\[\sqrt{N}\] Pierwiastek z wielkości próby

Ile wynosi błąd standardowy dla ocen Bartka?

1.870829/sqrt(6)

## [1] 0.7637627

Ile wynosi błąd standardowy dla ocen Małgorzaty?

0.5477226/sqrt(6)

## [1] 0.2236068

Populacja i próbkowanie

Populacja

Przyjmijmy, że mamy populację 100000000 w której średnia inteligencja wynosi 100 punktów +/- 15 punktów.

O to jak prezentuje się rozkład tej cechy w tej właśnie populacji:

set.seed(1234)
populacja = rnorm(100000000, 100,15)
hist(populacja, main = "N = 100 000, M = 100, SD = 15", xlab = "Inteligencja")

Pórbka 1 (100 losowych obserwacji)

Wylosujmy z tej populacji 100 obserwacji;

set.seed(11)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 1.577583

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 2 (100 losowych obserwacji)

Wylosujmy z tej populacji 100 obserwacji;

set.seed(12)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 1.491343

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 3 (100 losowych obserwacji)

Wylosujmy z tej populacji 100 obserwacji;

set.seed(13)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 1.534434

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 4 (100 losowych obserwacji)

Wylosujmy z tej populacji 100 obserwacji;

set.seed(14)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 100)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 1.407876

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 1 (50 losowych obserwacji)

Wylosujmy z tej populacji 50 obserwacji;

set.seed(12)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 2.052815

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 2 (50 losowych obserwacji)

Wylosujmy z tej populacji 50 obserwacji;

set.seed(13)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 2.324929

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 3 (50 losowych obserwacji)

Wylosujmy z tej populacji 50 obserwacji;

set.seed(14)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 1.883499

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 4 (50 losowych obserwacji)

Wylosujmy z tej populacji 50 obserwacji;

set.seed(15)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 50)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 2.114335

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Pórbka 1 (20 losowych obserwacji)

Wylosujmy z tej populacji 20 obserwacji;

set.seed(15)
próbka_1 = dplyr::sample_n(as.data.frame(populacja), 20)

sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja))

## [1] 3.768488

hist(próbka_1$populacja, main = paste0("N = ", length(próbka_1$populacja), ", M = ", round(mean(próbka_1$populacja), digits = 2),", SD = ", round(sd(próbka_1$populacja), digits = 2), ", s.e. = ",round(sd(próbka_1$populacja)/sqrt(length(próbka_1$populacja)),digits = 2)), xlab = "Inteligencja")

Przedziały ufności

Przedziały ufności wskazują w jakich przedziałach wartości może znajdować się wynik oszacowania prawdziwego. Możemy wykorzystać do tego różne stopnie prawdopodobieństwa.

Ogólnie przedział ufności jest wyliczany wzorem:

\[\mathrm{CI} = \bar{X} \pm (z_{\frac{1 - p}{2}} \times \sigma_{\bar{X}})\] \[\bar{X}\]

Średnia arytmetyczna

\[z_{1 - p}\] Wskazuje z jakim prawdopodobieństwem chcemy określić przedziały ufności.

\[\sigma_{\bar{X}}\] Błąd standardowy średniej

Ułatwienie oblicznia przedziałów ufności

Przyjmiemy pewne stałe które będą wskazywać na 95% i 90% przedziały ufności

\[\mathrm{CI} = \bar{X} \pm ({1.96} \times \sigma_{\bar{X}})\]

Z = 1.96 wartość ta wskazuje na 95% przedział ufności

\[\mathrm{CI} = \bar{X} \pm ({1.65} \times \sigma_{\bar{X}})\]

Z = 1.65 wartość ta wskazuje na 90% przedział ufności

Dolny i górny przedział ufności dla średniej ocen Bartka

3.5 - (1.96*0.7637627)

## [1] 2.003025

3.5 + (1.96*0.7637627)

## [1] 4.996975

Dolny i górny przedział ufności dla średniej ocen Małgorzaty

3.5 - (1.96*0.2236068)

## [1] 3.061731

3.5 + (1.96*0.2236068)

## [1] 3.938269

Ważne 1

Jeśli przedziały ufności nie nachodzą na wartość 0 to znaczy, że wynik nasilenia średniej jest istotnie statystycznie większy lub mniejszy od wartości 0. To znaczy, że wynik nasilenia zmiennej jest istotny statystycznie.
Jeśli przedziały zachodzą na na wartość 0, to znaczy, że średnia jest bliska wartości 0.

Ważne 2a

Jeśli przedziały ufności dla dwóch oszacowań średnich na siebie zachodzą, to znaczy, że nie ma statystycznie istotnych różnic między obiektami porównań. To znaczy, że wynik prawdziwy pierwszej średniej znajduje się w przedziałach prawdopodobieństwa wyników drugiej średniej.

Przykład takiego nachodzenia się przedziałów przedstawia rysunek poniżej.

Rysunek nr 2 Różnice między osobami pod względem średnich ocen

library("ggplot2")
dane = data.frame(osoba = c("Bartek","Małgorzata"),
           Średnia_ocen = c(3.5,3.5), 
           Dolny_przedział = c(2.00, 3.06), 
           Górny_przedział = c(4.99,3.93))

ggplot(dane, aes(osoba, Średnia_ocen)) +        # ggplot2 plot with confidence intervals
  geom_point() +
  geom_errorbar(aes(ymin = Dolny_przedział, ymax = Górny_przedział))  +theme_bw() + 
  theme(panel.border = element_blank()) + xlab("Osoba badana") + ylab("Średnia ocen")

Nota: Wąsy błędów przedstawiają 95% przedziały ufności dla średniej

Ważne 2b

Jeśli przedziały ufności dla dwóch oszacowań średnich na siebie nie zachodzą, to znaczy, że są statystycznie istotne różnice między obiektami porównań. To znaczy, że wynik prawdziwy pierwszej średniej nie znajduje się w przedziałach prawdopodobieństwa wyników drugiej średniej.

Przykład takiego nienachodzenia się przedziałów przedstawia rysunek poniżej.

Rysunek nr 2 Różnice między osobami pod względem średnich ocen

dane2 = data.frame(osoba = c("Zbyszek","Łucja"),
           Średnia_ocen = c(3.1,5.5), 
           Dolny_przedział = c(2.9, 5.00), 
           Górny_przedział = c(3.3,6.00))

ggplot(dane2, aes(osoba, Średnia_ocen)) +
  geom_point() +
  geom_errorbar(aes(ymin = Dolny_przedział, ymax = Górny_przedział))  +theme_bw() + 
  theme(panel.border = element_blank()) + xlab("Osoba badana")+ylab("Średnia ocen")

Nota: Wąsy błędów przedstawiają 95% przedziały ufności dla średniej

Praca w grupach

Policzymy średnią, odchylnie standardowe, błąd standardowy i przedziały ufności dla naszego wzrostu.

Wzrost_M = c(183, 170,185,178,189,172)
Wzrost_K = c(172, 163,159,171,172,170)
mean(Wzrost_M)

## [1] 179.5

sd(Wzrost_M)

## [1] 7.503333

length(Wzrost_M)

## [1] 6

sd(Wzrost_M)/sqrt(length(Wzrost_M))

## [1] 3.063223

mean(Wzrost_M) - 
  (1.96*sd(Wzrost_M)/sqrt(length(Wzrost_M)))

## [1] 173.4961

mean(Wzrost_M) + 
  (1.96*sd(Wzrost_M)/sqrt(length(Wzrost_M)))

## [1] 185.5039

mean(Wzrost_K)

## [1] 167.8333

sd(Wzrost_K)

## [1] 5.492419

length(Wzrost_K)

## [1] 6

sd(Wzrost_K)/sqrt(length(Wzrost_K))

## [1] 2.242271

mean(Wzrost_K) - 
  (1.96*sd(Wzrost_K)/sqrt(length(Wzrost_K)))

## [1] 163.4385

mean(Wzrost_K) + 
  (1.96*sd(Wzrost_K)/sqrt(length(Wzrost_K)))

## [1] 172.2282

Siła Efektu d Cohena

Siła efektu d Cohena (Cohen’s d) jest jednym z najczęściej używanych miar do oceny wielkości różnic między dwiema średnimi. W statystyce, siła efektu d Cohena pozwala na kwantyfikację różnicy pomiędzy dwiema grupami, uwzględniając zmienność wewnątrz grup. Dzięki tej miarze możemy ocenić, jak duża jest różnica między grupami badawczymi w sposób bardziej spójny niż tylko porównując ich średnie.

Czym jest współczynnik d Cohena?

Współczynnik d Cohena jest miarą siły efektu, która informuje nas, jak duża jest różnica między dwiema grupami w odniesieniu do ich średnich wyników, uwzględniając przy tym zmienność w danych. W przeciwieństwie do wartości p, która mówi, czy różnica jest istotna statystycznie, współczynnik d Cohena pokazuje, jak duża jest ta różnica.

Kiedy stosujemy współczynnik d Cohena?

Współczynnik d Cohena używamy, gdy chcemy ocenić wielkość różnicy między dwiema niezależnymi grupami lub próbami. Stosuje się go przede wszystkim w kontekście:

porównywania wyników dwóch grup w badaniach eksperymentalnych,
analizy różnic między grupą kontrolną a grupą eksperymentalną,
oceny skuteczności interwencji (np. terapia vs brak terapii).

Jakie działania badawcze wykorzystują współczynnik d Cohena?

Współczynnik d Cohena znajduje zastosowanie w wielu dziedzinach, takich jak:

psychologia - w badaniach nad efektywnością terapii lub interwencji,
edukacja - do analizy skuteczności różnych metod nauczania,
medycyna - do oceny skuteczności leków lub zabiegów w porównaniu do grupy kontrolnej.

Interpretacja wyników

Współczynnik d Cohena interpretujemy zgodnie z następującymi wartościami:

d ≈ 0.2 - mały efekt (niewielka różnica między grupami),
d ≈ 0.5 - średni efekt (umiarkowana różnica między grupami),
d ≈ 0.8 - duży efekt (istotna różnica między grupami).

Im wyższa wartość d, tym większa jest różnica między grupami, co oznacza, że efekt (np. interwencji) jest bardziej wyraźny.

Wzór na Siłę Efektu d Cohena

\[ d = \frac{\overline{X_1} - \overline{X_2}}{s} \]

W powyższym wzorze:

\(\overline{X_1}\) - średnia grupa 1,
\(\overline{X_2}\) - średnia grupa 2,
s - średnia odchylenie standardowe (pooled standard deviation).

Odchylenie standardowe s obliczamy jako:

\[ s = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}} \]

Gdzie:

n₁ - liczba obserwacji w grupie 1,
n₂ - liczba obserwacji w grupie 2,
s₁ - odchylenie standardowe w grupie 1,
s₂ - odchylenie standardowe w grupie 2.

Przykład Obliczeń: Porównanie Średniej Wagi Owoców i Warzyw

Załóżmy, że przeprowadziliśmy badanie, w którym zmierzyliśmy wagę 10 owoców i 10 warzyw:

Średnia waga owoców (\(\overline{X_1}\)): 150 gramów,
Średnia waga warzyw (\(\overline{X_2}\)): 120 gramów,
Odchylenie standardowe wagi owoców (s₁): 20 gramów,
Odchylenie standardowe wagi warzyw (s₂): 30 gramów.

Podstawmy te wartości do wzoru na średnie odchylenie standardowe:

\[ s = \sqrt{\frac{(10 - 1) \cdot 20^2 + (10 - 1) \cdot 30^2}{10 + 10 - 2}} \]

Obliczenia:

\[ s = \sqrt{\frac{9 \cdot 400 + 9 \cdot 900}{18}} = \sqrt{\frac{3600 + 8100}{18}} = \sqrt{650} \approx 25.5 \]

Znamy już odchylenie standardowe. Teraz możemy obliczyć siłę efektu d Cohena:

\[ d = \frac{150 - 120}{25.5} \approx 1.18 \]

Wynik siły efektu d Cohena wynosi około 1.18, co oznacza, że różnica pomiędzy średnią wagą owoców i warzyw jest duża.

Bibliografia

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale,NJ: Lawrence Erlbaum.

Analiza korelacji - Test Pearsona i Spearmana

Korelacja Pearsona jest miarą siły związku między zmiennymi ilościowymi (np. wiek) mającymi rozkład normalny.
https://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_Pearsona

Korelacja metodą Spearmana jest miarą siły związku między zmiennymi ilościowymi (bez rozkładu normalnego) lub porządkowymi (np. wykształcenie). Do wyliczenia współwystępowania wykorzystuje się rangowanie zmiennych. Najmniejszemu wynikowi przypisuje się wartość 1, wyższemu 2 itd. https://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_rang_Spearmana

Rodzaje korelacji
Współczynnik r Pearsona i rHO spearmana przyjmują wartości od - 1 (idealna korelacja negatywna) do 1 (Idealana korelacja pozytywna).

Korelacja bliska zeru (r ~ 0) oznacza brak współwystępowania wartości dwóch zmiennych
Korelacja pozytywna r > 0 (np. r = 0.30) oznacza pozytywne współwystępowanie zjawisk (wraz ze wzrostem jednej zmiennej wzrastają wyniki drugiej zmiennej)
Korelacja negatywna r < 0 (np. r = -0.30) oznacza negatywne współwystępowanie zjawisk (wraz ze wzrostem jednej zmiennej maleją wyniki drugiej zmiennej)

Geometryczna interpretacja wartości tych współczynników odnosi się kąta nachylenia linii trendu (linii łączącej wartości danych obserwacji) do osi x. Im większy kąt, tym silniejszy związek.

Istotność statystyczna korelacji

Tak jak w przypadku większości testów statystycznych wylicza się wartość p, czyli wartość wskazującą na prawdziwość statystyczną hipotezy zerowej. W przypadku testu korelacji (Zarówno Pearsona jak Spearmana):

Hipoteza zerowa dla testu brzmi:
H0: Brak związku między zmiennymi - Współwystępowanie zjawisk jest przypadkowe

Hipoteza alternatywna brzmi:
H1: Istotny związek między zmiennymi - Współwystępowanie zjawisk nie jest dziełem przypadku

Wartość p mniejsza niż 0.05, czyli p < 0.05 pozwala w większości odrzucić hipotezę zerową i przyjąć alternatywną.

Jeśli p > 0.05 (np. 0.055), to oznacza, że korelacja nie jest istotna statystycznie.

Jeśli p < 0.05 (np. 0.00003), to oznacza, że korelacja jest istotna statystycznie.

Korelacja pozytywna i negatywna może być istotna lub nieistotna statystycznie!

Współczynnik korelacji Spearmana

Dany wzorem

\[{rho} = 1-(\frac{6\sum_{i=1}^{n} d_{i}^{2}}{({n^{3}-n})})\] \[{rho}\] współczynnik korelacji Spearmana \[{6}\] wartość stała \[\frac{6\sum_{i=1}^{n} d_{i}^{2}}{}\] suma kwadratów d dla każdego i

\[d_{i}\] di = ranga dla x - ranga dla y

Przykład korelacji Spearmana

dane = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
           "wzrost" = c(150, 175,170,175,155, 180, 190, 190, 190, 180),
           "waga" = c(61, 72, 68, 69, 69, 66, 72, 78, 79, 67))
n = length(dane$id)
n

## [1] 10

dane

##    id wzrost waga
## 1   1    150   61
## 2   2    175   72
## 3   3    170   68
## 4   4    175   69
## 5   5    155   69
## 6   6    180   66
## 7   7    190   72
## 8   8    190   78
## 9   9    190   79
## 10 10    180   67

Rysunek nr 1a
Relacja między wzrostem a wagą - dane surowe

ggplot(dane, aes(x = wzrost ,y = waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() +  theme(panel.border = element_blank())

Rangowanie danych do wyliczeń

dane$ranga_waga = rank(dane$waga)
dane

##    id wzrost waga ranga_waga
## 1   1    150   61        1.0
## 2   2    175   72        7.5
## 3   3    170   68        4.0
## 4   4    175   69        5.5
## 5   5    155   69        5.5
## 6   6    180   66        2.0
## 7   7    190   72        7.5
## 8   8    190   78        9.0
## 9   9    190   79       10.0
## 10 10    180   67        3.0

dane$ranga_wzrost = rank(dane$wzrost)
dane

##    id wzrost waga ranga_waga ranga_wzrost
## 1   1    150   61        1.0          1.0
## 2   2    175   72        7.5          4.5
## 3   3    170   68        4.0          3.0
## 4   4    175   69        5.5          4.5
## 5   5    155   69        5.5          2.0
## 6   6    180   66        2.0          6.5
## 7   7    190   72        7.5          9.0
## 8   8    190   78        9.0          9.0
## 9   9    190   79       10.0          9.0
## 10 10    180   67        3.0          6.5

Rysunek nr 1b
Relacja między wzrostem a wagą - dane rangowane

ggplot(dane, aes(x = ranga_wzrost ,y = ranga_waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() +  theme(panel.border = element_blank())

Przeliczenie kwadratów z różnic między rangami

dane$d = dane$ranga_waga - dane$ranga_wzrost
dane

##    id wzrost waga ranga_waga ranga_wzrost    d
## 1   1    150   61        1.0          1.0  0.0
## 2   2    175   72        7.5          4.5  3.0
## 3   3    170   68        4.0          3.0  1.0
## 4   4    175   69        5.5          4.5  1.0
## 5   5    155   69        5.5          2.0  3.5
## 6   6    180   66        2.0          6.5 -4.5
## 7   7    190   72        7.5          9.0 -1.5
## 8   8    190   78        9.0          9.0  0.0
## 9   9    190   79       10.0          9.0  1.0
## 10 10    180   67        3.0          6.5 -3.5

dane$d2 = dane$d^2
dane

##    id wzrost waga ranga_waga ranga_wzrost    d    d2
## 1   1    150   61        1.0          1.0  0.0  0.00
## 2   2    175   72        7.5          4.5  3.0  9.00
## 3   3    170   68        4.0          3.0  1.0  1.00
## 4   4    175   69        5.5          4.5  1.0  1.00
## 5   5    155   69        5.5          2.0  3.5 12.25
## 6   6    180   66        2.0          6.5 -4.5 20.25
## 7   7    190   72        7.5          9.0 -1.5  2.25
## 8   8    190   78        9.0          9.0  0.0  0.00
## 9   9    190   79       10.0          9.0  1.0  1.00
## 10 10    180   67        3.0          6.5 -3.5 12.25

sumakwadratów = sum(dane$d2)
sumakwadratów

## [1] 59

Sprawdzenie ile mamy obserwacji

n #liczba badanych

## [1] 10

Podstawienie do wzoru
\[{rho} = 1-(\frac{6\sum_{i=1}^{n} d_{i}^{2}}{({n^{3}-n})})\]

rho = 1-((6*59)/((10^3)-10))
round(rho, digits = 2)

## [1] 0.64

Wartość współczynnika spearmana wynosi

rHO = 0.64

Link do kalkulatora internetowego dla korelacji Spearmana https://www.socscistatistics.com/tests/spearman/default2.aspx

Praca w grupach

Ile wynosi korelacja między lubieniem nauczyciela a brakiem zaangażowania w naukę?

dane = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
           "Lubienie" = c(1, 2,3,4,5, 6, 7,8,9,10),
           "Brak_zaangażowania" = c(9, 10, 8, 7, 6, 5, 4, 3, 2, 1))
n = length(dane$id)
n

## [1] 10

dane

##    id Lubienie Brak_zaangażowania
## 1   1        1                  9
## 2   2        2                 10
## 3   3        3                  8
## 4   4        4                  7
## 5   5        5                  6
## 6   6        6                  5
## 7   7        7                  4
## 8   8        8                  3
## 9   9        9                  2
## 10 10       10                  1

dane$ranga_Lubienie = rank(dane$Lubienie,ties.method = "min")
dane

##    id Lubienie Brak_zaangażowania ranga_Lubienie
## 1   1        1                  9              1
## 2   2        2                 10              2
## 3   3        3                  8              3
## 4   4        4                  7              4
## 5   5        5                  6              5
## 6   6        6                  5              6
## 7   7        7                  4              7
## 8   8        8                  3              8
## 9   9        9                  2              9
## 10 10       10                  1             10

dane$ranga_Brak_zaangażowania = rank(dane$Brak_zaangażowania)
dane

##    id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania
## 1   1        1                  9              1                        9
## 2   2        2                 10              2                       10
## 3   3        3                  8              3                        8
## 4   4        4                  7              4                        7
## 5   5        5                  6              5                        6
## 6   6        6                  5              6                        5
## 7   7        7                  4              7                        4
## 8   8        8                  3              8                        3
## 9   9        9                  2              9                        2
## 10 10       10                  1             10                        1

dane$d = dane$ranga_Lubienie - dane$ranga_Brak_zaangażowania
dane

##    id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania  d
## 1   1        1                  9              1                        9 -8
## 2   2        2                 10              2                       10 -8
## 3   3        3                  8              3                        8 -5
## 4   4        4                  7              4                        7 -3
## 5   5        5                  6              5                        6 -1
## 6   6        6                  5              6                        5  1
## 7   7        7                  4              7                        4  3
## 8   8        8                  3              8                        3  5
## 9   9        9                  2              9                        2  7
## 10 10       10                  1             10                        1  9

dane$d2 = dane$d^2
dane

##    id Lubienie Brak_zaangażowania ranga_Lubienie ranga_Brak_zaangażowania  d d2
## 1   1        1                  9              1                        9 -8 64
## 2   2        2                 10              2                       10 -8 64
## 3   3        3                  8              3                        8 -5 25
## 4   4        4                  7              4                        7 -3  9
## 5   5        5                  6              5                        6 -1  1
## 6   6        6                  5              6                        5  1  1
## 7   7        7                  4              7                        4  3  9
## 8   8        8                  3              8                        3  5 25
## 9   9        9                  2              9                        2  7 49
## 10 10       10                  1             10                        1  9 81

sumakwadratów = sum(dane$d2)
sumakwadratów

## [1] 328

rho = 1-((6*328)/((10^3)-10))
round(rho, digits = 2)

## [1] -0.99

Bibliografia

Spearman, C. (1904). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15(1), 72–101. https://doi.org/10.2307/1412159

Współczynnik korelacji Pearsona 1

Dany wzorem

\[{r} = \frac{n(\sum{xy}) - {(\sum{x})}{(\sum{y})}} {\sqrt{[n\sum{(x^{2}) -(\sum{x})}^2]{[n\sum{(y^{2})} - (\sum{y})}^2]}}\]

dane2 = data.frame("id" = c(1,2,3,4,5,6),
           "wzrost" = c(43, 21,25,42,57, 59),
           "waga" = c(99, 65, 79, 75, 87, 81))
n = length(dane2$id)
n

## [1] 6

dane2

##   id wzrost waga
## 1  1     43   99
## 2  2     21   65
## 3  3     25   79
## 4  4     42   75
## 5  5     57   87
## 6  6     59   81

Rysunek nr 1a
Relacja między wzrostem a wagą - dane surowe

ggplot(dane2, aes(x = wzrost ,y = waga ))+geom_point(na.rm = TRUE, cex=3 , col=rgb(0.4,0.9,0.8,0.5) ) + geom_smooth(method="lm",color="#F1ABB9", size = 1.25, fill=rgb(0.4,0.9,0.8,0.5))+ theme_bw() +  theme(panel.border = element_blank())

dane2$xy = dane2$wzrost*dane2$waga
dane2

##   id wzrost waga   xy
## 1  1     43   99 4257
## 2  2     21   65 1365
## 3  3     25   79 1975
## 4  4     42   75 3150
## 5  5     57   87 4959
## 6  6     59   81 4779

dane2$x2 = dane2$wzrost^2
dane2$y2 = dane2$waga^2
dane2

##   id wzrost waga   xy   x2   y2
## 1  1     43   99 4257 1849 9801
## 2  2     21   65 1365  441 4225
## 3  3     25   79 1975  625 6241
## 4  4     42   75 3150 1764 5625
## 5  5     57   87 4959 3249 7569
## 6  6     59   81 4779 3481 6561

Suma_x = sum(dane2$wzrost)
Suma_y = sum(dane2$waga)
Suma_mnożenia_xy = sum(dane2$xy)
Suma_kwadratów_x = sum(dane2$x2)
Suma_kwadratóW_y =   sum(dane2$y2)
Liczba_obserwacji_n = length(dane2)


Suma_x

## [1] 247

Suma_y

## [1] 486

Suma_mnożenia_xy

## [1] 20485

Suma_kwadratów_x

## [1] 11409

Suma_kwadratóW_y

## [1] 40022

Liczba_obserwacji_n

## [1] 6

Przypomnienie wzroru

\[{r} = \frac{n(\sum{xy}) - {(\sum{x})}{(\sum{y})}} {\sqrt{[n\sum{(x^{2}) -(\sum{x})}^2]{[n\sum{(y^{2}}) - (\sum{y})}^2]}}\]

1. Podstawienie do wzoru \[{r} = \frac{6(\sum{yx=20485)} - {(\sum{x=247)}}*{(\sum{y =486)}}} {\sqrt{[6*(\sum{x^{2} = 11409) - (\sum x = {247)}}^2]*{[6*(\sum{y^{2} = 40022)} - (\sum y ={486)}}^2]}}\] 2. Pomnożenie n przez sumę z iloczynu xy

Krok2 = 6*20485
Krok2

## [1] 122910

Pomnożenie x i y

Krok3 = 247*486
Krok3

## [1] 120042

Różnica wyników między krokiem 2 i 3

Różnica_krok_2_krok_3 = 122910 - 120042
Różnica_krok_2_krok_3

## [1] 2868

Liczba obserwacji razy suma kwadratów z x

n_razy_kwadrat_x = 6*11409
n_razy_kwadrat_x

## [1] 68454

Kwadrat z sumy x

kwadrat_z_sumy_x = 247*247
kwadrat_z_sumy_x

## [1] 61009

Różnica wyników między krokiem 6 i 5

Różnica_krok_6_krok_5 =  68454-61009
Różnica_krok_6_krok_5

## [1] 7445

Liczba obserwacji razy suma kwadratów z y

n_razy_kwadrat_y = 6*40022
n_razy_kwadrat_y

## [1] 240132

Kwadrat z sumy y

kwadrat_z_sumy_y = 486*486
kwadrat_z_sumy_y

## [1] 236196

Różnica wyników między krokiem 9 i 8

Różnica_krok_9_krok_8 =  240132 - 236196
Różnica_krok_9_krok_8

## [1] 3936

Pomnożenie kroku 7 przez 10

Pomnożenie_kroku_7_przez_krok_10 = 7445*3936
Pomnożenie_kroku_7_przez_krok_10

## [1] 29303520

11a. Pierwiastek z kroku 11

pierwiastek_z_kroku_11 = sqrt(29303520)
pierwiastek_z_kroku_11

## [1] 5413.273

Podzielenie kroku 4 przez krok 11

r_pearsona = 2868/5413.273
round(r_pearsona, digits = 2)

## [1] 0.53

Wartość współczynnika Pearsona wynosi

r = 0.53

Internetowy kalkulator korelacji Pearsona https://www.socscistatistics.com/tests/pearson/

Współczynnik korelacji Pearsona 2

Wzór na współczynnik korelacji Pearsona można zapisać jako:

\[ r = \frac{ \sum (X_i - \bar{X})(Y_i - \bar{Y}) }{ \sqrt{ \sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2 } } \]

Gdzie: - \(r\) - współczynnik korelacji Pearsona - \(X_i\) - i-ta obserwacja zmiennej \(X\) - \(Y_i\) - i-ta obserwacja zmiennej \(Y\) - \(\bar{X}\) - średnia arytmetyczna zmiennej \(X\) - \(\bar{Y}\) - średnia arytmetyczna zmiennej \(Y\)

Przykład Obliczenia Analizy Korelacji Pearsona

wzrost = c(43, 21,25,42,57, 59)
waga = c(99, 65, 79, 75, 87, 81)

(43-mean(wzrost))*(99-mean(waga))+
(21-mean(wzrost))*(65-mean(waga))+
(25-mean(wzrost))*(79-mean(waga))+
(42-mean(wzrost))*(75-mean(waga))+
(57-mean(wzrost))*(87-mean(waga))+
(59-mean(wzrost))*(81-mean(waga))

## [1] 478

(43-mean(wzrost))

## [1] 1.833333

(21-mean(wzrost))

## [1] -20.16667

(25-mean(wzrost))

## [1] -16.16667

(42-mean(wzrost))

## [1] 0.8333333

(57-mean(wzrost))

## [1] 15.83333

(59-mean(wzrost))

## [1] 17.83333

(1.833333*1.833333) + (-20.16667*-20.16667) + (-16.16667*-16.16667)+ (0.8333333*0.8333333)+(15.83333*15.83333)+(17.83333*17.83333)

## [1] 1240.833

(99-mean(waga))

## [1] 18

(65-mean(waga))

## [1] -16

(79-mean(waga))

## [1] -2

(75-mean(waga))

## [1] -6

(87-mean(waga))

## [1] 6

(81-mean(waga))

## [1] 0

(18*18)+(-16*-16) +(-2*-2) +(-6*-6)+(6*6)+( 0*0)

## [1] 656

Bibliografia

Pearson, K. (1895) Notes on Regression and Inheritance in the Case of Two Parents Proceedings of the Royal Society of London, 58, 240-242. https://doi.org/10.1098/rspl.1895.0041

Praca w grupach

Ile wynosi korelacja między lubieniem nauczyciela a brakiem zaangażowania w naukę?

dane2 = data.frame("id" = c(1,2,3,4,5,6,7,8,9,10),
           "Lubienie" = c(1, 2,3,4,5, 6, 7,8,9,10),
           "Brak_zaangażowania" = c(9, 10, 7, 5, 5, 4, 3, 2, 2, 1))
n = length(dane2$id)
n

## [1] 10

dane2

##    id Lubienie Brak_zaangażowania
## 1   1        1                  9
## 2   2        2                 10
## 3   3        3                  7
## 4   4        4                  5
## 5   5        5                  5
## 6   6        6                  4
## 7   7        7                  3
## 8   8        8                  2
## 9   9        9                  2
## 10 10       10                  1

dane2$xy = dane2$Lubienie*dane2$Brak_zaangażowania
dane2

##    id Lubienie Brak_zaangażowania xy
## 1   1        1                  9  9
## 2   2        2                 10 20
## 3   3        3                  7 21
## 4   4        4                  5 20
## 5   5        5                  5 25
## 6   6        6                  4 24
## 7   7        7                  3 21
## 8   8        8                  2 16
## 9   9        9                  2 18
## 10 10       10                  1 10

dane2$x2 = dane2$Lubienie^2
dane2$y2 = dane2$Brak_zaangażowania^2
dane2

##    id Lubienie Brak_zaangażowania xy  x2  y2
## 1   1        1                  9  9   1  81
## 2   2        2                 10 20   4 100
## 3   3        3                  7 21   9  49
## 4   4        4                  5 20  16  25
## 5   5        5                  5 25  25  25
## 6   6        6                  4 24  36  16
## 7   7        7                  3 21  49   9
## 8   8        8                  2 16  64   4
## 9   9        9                  2 18  81   4
## 10 10       10                  1 10 100   1

Suma_x = sum(dane2$Lubienie)
Suma_y = sum(dane2$Brak_zaangażowania)
Suma_mnożenia_xy = sum(dane2$xy)
Suma_kwadratów_x = sum(dane2$x2)
Suma_kwadratóW_y =   sum(dane2$y2)
Liczba_obserwacji_n = length(dane2)

Suma_x

## [1] 55

Suma_y

## [1] 48

Suma_mnożenia_xy

## [1] 184

Suma_kwadratów_x

## [1] 385

Suma_kwadratóW_y

## [1] 314

Liczba_obserwacji_n

## [1] 6

1. Podstawienie do wzoru \[{r} = \frac{10(\sum{yx=184)} - {(\sum{x=55)}}*{(\sum{y =48)}}} {\sqrt{[10*(\sum{x^{2} = 385) - (\sum x = {55)}}^2]*{[10*(\sum{y^{2} = 314)} - (\sum y ={48)}}^2]}}\] 2. Pomnożenie n przez sumę z iloczynu xy

Krok2 = 10*184
Krok2

## [1] 1840

Pomnożenie x i y

Krok3 = 55*48
Krok3

## [1] 2640

Różnica wyników między krokiem 2 i 3

Różnica_krok_2_krok_3 = 1840 - 2640
Różnica_krok_2_krok_3

## [1] -800

Liczba obserwacji razy suma kwadratów z x

n_razy_kwadrat_x = 10*385
n_razy_kwadrat_x

## [1] 3850

Kwadrat z sumy x

kwadrat_z_sumy_x = 55*55
kwadrat_z_sumy_x

## [1] 3025

Różnica wyników między krokiem 6 i 5

Różnica_krok_6_krok_5 =  3850-3025
Różnica_krok_6_krok_5

## [1] 825

Liczba obserwacji razy suma kwadratów z y

n_razy_kwadrat_y = 10*314
n_razy_kwadrat_y

## [1] 3140

Kwadrat z sumy y

kwadrat_z_sumy_y = 48*48
kwadrat_z_sumy_y

## [1] 2304

Różnica wyników między krokiem 9 i 8

Różnica_krok_9_krok_8 =  3140 - 2304
Różnica_krok_9_krok_8

## [1] 836

Pomnożenie kroku 7 przez 10

Pomnożenie_kroku_7_przez_krok_10 = 825*(836)
Pomnożenie_kroku_7_przez_krok_10

## [1] 689700

11a. Pierwiastek z kroku 11

pierwiastek_z_kroku_11 = sqrt(689700)
pierwiastek_z_kroku_11

## [1] 830.4818

Podzielenie kroku 4 przez krok 11

r_pearsona = -800/830.4818
round(r_pearsona, digits = 2)

## [1] -0.96

Zagadka

Histogram 1a

Rozkład wzrostu w grupach sportowców

Histogram 1b

Rozkład wzrostu w grupach sportowców

Analiza Regresji

Analiza regresji to technika statystyczna, która pozwala na zbadanie zależności pomiędzy zmiennymi. Najczęściej stosuje się ją do przewidywania wartości jednej zmiennej (zmiennej zależnej) na podstawie wartości innej zmiennej (zmiennej niezależnej).

Kiedy się jej używa?

Analiza regresji jest używana w różnych sytuacjach, takich jak:

Przewidywanie wartości (np. prognozowanie sprzedaży w oparciu o wydatki na reklamę).
Badanie wpływu zmiennych na siebie (np. jak poziom wykształcenia wpływa na zarobki).
Analiza trendów w danych (np. zmiany temperatury w różnych porach roku).

W jakich działaniach badawczych?

Analiza regresji jest szeroko stosowana w badaniach naukowych, w tym:

Ekonomia – do przewidywania wskaźników gospodarczych.
Psychologia – do badania związku między zmiennymi psychologicznymi (np. stres a wydajność).
Medycyna – do oceny wpływu czynników ryzyka na zdrowie pacjentów.

W jakich naukach?

Technika ta jest wykorzystywana w wielu dziedzinach nauki, takich jak:

Statystyka
Informatyka
Biologia
Socjologia
Marketing

Podsumowując, analiza regresji to potężne narzędzie, które pomaga zrozumieć i przewidywać zachowania oraz zależności w różnych dziedzinach badań. Dzięki jej zastosowaniu można lepiej analizować dane i podejmować bardziej świadome decyzje.

Wzór na Analizę Regresji

W przypadku regresji liniowej, wzór matematyczny na analizę regresji jest następujący:

\[ y = a + bx \]

Gdzie: - y – zmienna zależna (to, co chcemy przewidzieć), - x – zmienna niezależna (na podstawie której przewidujemy), - a – wyraz wolny (intercept), - b – współczynnik nachylenia prostej regresji (slope).

Sens Wzoru Analizy Regresji

Wzór ten opisuje liniową zależność między zmiennymi x a y. Innymi słowy, dla każdej jednostki wzrostu zmiennej x, zmienna y zmienia się o wartość współczynnika b. Wyraz wolny a określa wartość zmiennej y, gdy zmienna x wynosi zero.

Przykład Obliczenia Analizy Regresji

Załóżmy, że mamy dane dotyczące sprzedaży owoców i warzyw w zależności od dni tygodnia:

Dzień	Sprzedaż Owoców (kg)	Sprzedaż Warzyw (kg)
Poniedziałek	20	10
Wtorek	18	12
Środa	25	15
Czwartek	22	13
Piątek	24	14

Dla uproszczenia obliczeń przyjmijmy, że zmienna niezależna to sprzedaż owoców (x), a zmienna zależna to sprzedaż warzyw (y).

Do wyliczenia wzoru analizy regresji użyjemy metody najmniejszych kwadratów. Potrzebujemy najpierw obliczyć a (wyraz wolny) oraz b (współczynnik nachylenia).

Wzory na a i b wyglądają następująco:

\[ b = \frac{N\sum_{i=1}^N{(x_i \cdot y_i)} - \sum_{i=1}^N{x_i} \sum_{i=1}^N{y_i}}{N\sum_{i=1}^N{x_i^2} - \left( \sum_{i=1}^N{x_i} \right)^2} \]

\[ a = \frac{\sum_{i=1}^N{y_i} - b \sum_{i=1}^N{x_i}}{N} \]

Podstawiając dane do wzorów, obliczamy wartości:

\[ \sum{x_i} = 20 + 18 + 25 + 22 + 24 = 109 \]

\[ \sum{y_i} = 10 + 12 + 15 + 13 + 14 = 64 \]

\[ \sum{x_i y_i} = (20 \cdot 10) + (18 \cdot 12) + (25 \cdot 15) + (22 \cdot 13) + (24 \cdot 14) = 1413 \]

\[ \sum{x_i^2} = 20^2 + 18^2 + 25^2 + 22^2 + 24^2 = 2409 \]

Teraz wyliczamy b:

\[ b = \frac{5 \cdot 1413 - 109 \cdot 64}{5 \cdot 2409 - 109^2} = \frac{89}{164} \approx 0.5426829 \]

Następnie wyliczamy a:

\[ a = \frac{64 - 0.5426829 \cdot 109}{5} = \frac{4.847564}{5} \approx 0.9695128 \]

Ostateczny wzór regresji wygląda następująco:

\[ y = 0.9695128 + 0.5426829x \]

Oznacza to, że dla każdej dodatniej sprzedaży owoców o 1 kg, sprzedaż warzyw rośnie o około 0.5426829 kg, z wyjściowym poziomem sprzedaży warzyw 0.9695128 kg, gdy sprzedaż owoców wynosi 0 kg.

Bibliografia

Fox, J. and Weisberg, S. (2011) An R Companion to Applied Regression. Sage Publishing, Thousand Oaks.

Rodzina testów t studenta

Różnice między grupami pod względem nasilenia badango parametru

Jeśli chodzi o statystyczny opis zjawisk, to czasami badacze i praktycy chcą sprawdzić, czy różnice między jakimiś grupami pod względem nasilenia jakiegoś parametru (np. grup sportowców pod względem wzrostu) są:

Istotne statystycznie czy Nieistotne statystycznie

Dążą oni do tego by sprawdzić czy różnice między grupami są przypadkowe, czy jednak jakieś znaczące.

Do celów weryfikacji różnic między grupami wykorzystuje się test statystyczny o nazwie “test t studenta”.
Twórcą testu t studenta był sir. Wiliam Sealy Gosset

Publikował pod pseudonimem Student (stąd nazwa wprowadzonego przez niego w roku 1908 rozkładu prawdopodobieństwa: rozkład Studenta). Przez większość życia pracował w browarach Guinnessa w Dublinie i w Londynie. Zajmował się tam m.in. kontrolą jakości piwa i surowców do jego produkcji, co doprowadziło go do rozważań nad statystyką i szacowaniem nieznanych parametrów.
https://pl.wikipedia.org/wiki/William_Sealy_Gosset

sir. Willam wyprowadził taki wzór

\[t = \frac{m_A - m_B}{\sqrt{(S^2/n_A)+(S^2/n_B)}}\] gdzie \[S^2\] ozacza:

\[S^2 = \frac{\sum (x_{i} - m_A)^{2} + \sum (x_{i} - m_B)^{2}}{n_A + n_B - 2}\]

O co chodzi z tym wzorem?

To co jest w liczebniku (na górze) to zróżnicowanie międzygrupowe (różnica między średnimi w grupach), a to w mianowniku (na dole) to suma zróżnicowania wewnątrzgupowego (suma zróżnicowania wynikóW w obu grupach). Im wyższe zróżnicowanie międzygrupowe i im niższe zróżnicowanie wewnątrzgrupowe to różnica między grupami jest bardziej istotna statystycznie.
Przyjęło się, że ta proporcja wyrażona statystyką t >= 1.96 (lub ~2) oznacza nieprzypadkowe różnice między grupami pod względem nasilenia jakiejś zmiennej (np. wzrostu, goryczki w piwie, bólu, chęci zapłaty itp.)

Jak to policzyć na piechotę?

Zapytano 10 ludzi (N = 10) o to jak bardzo lubią biedronki (n = 5) i stonki (n = 5) na skali Likerta (od 1: Nienawidzę, do 10: Kocham)

Średnie lubienie Biedronek

Biedronki_średnia = (5+6+7+5+6)/5
Biedronki_średnia # Średnie lubienie biedronek wynosi 5.8

## [1] 5.8

Średnie lubienie Stonek

Stonki_średnia = (1+2+3+4+2)/5
Stonki_średnia # Średnie lubienie stonek wynosi 2.4

## [1] 2.4

Zróżnicowanie miedzygrupowe wynosi

Zróżnicowanie_międzygrupowe = 5.8 - 2.4
Zróżnicowanie_międzygrupowe # Różnica miedzy średnimi wynosi 3.4

## [1] 3.4

Kwadrat_odchyleń dla grupy Biedronek

(5 - 5.8)^2

## [1] 0.64

(6 - 5.8)^2

## [1] 0.04

(7 - 5.8)^2

## [1] 1.44

(5 - 5.8)^2

## [1] 0.64

(6 - 5.8)^2

## [1] 0.04

Suma_kwadratóW_Biedronki = (0.64 + 0.04 + 1.44 + 0.64 + 0.04) # Suma kwadratów odchyleń wynosi 2.8

#sqrt to skrót od "square root". Oznacza pierwiastek!

Kwadrat_odchyleń dla grupy Stonek

(1 - 2.4)^2

## [1] 1.96

(2 - 2.4)^2

## [1] 0.16

(3 - 2.4)^2

## [1] 0.36

(4 - 2.4)^2

## [1] 2.56

(2 - 2.4)^2

## [1] 0.16

Suma_kwadratóW_Stonki = (1.96 + 0.16 + 0.36 + 2.56 + 0.16) # Suma kwadratów odchyleń wynosi 5.2
Suma_kwadratóW_Stonki

## [1] 5.2

wyliczamy wspólne zróżnicowanie wyników \[S^2 = \frac{\sum (x_{i} - m_A)^{2} + \sum (x_{i} - m_B)^{2}}{n_A + n_B - 2}\] \[S^2 = \frac{2.8 + 5.2}{5 + 5 - 2}\] \[S^2\] Wynosi

Wspólna_wariancja = (2.8+5.2)/8
Wspólna_wariancja

## [1] 1

Mamy wszystko i podstawiamy pod wzór na statystykę t \[t = \frac{m_A - m_B}{\sqrt{(S^2/n_A)+(S^2/n_B)}}\]

\[t = \frac{5.8 - 2.4}{\sqrt{(1/5)+(1/5)}}\]

t = (5.8-2.4)/sqrt((1/5)+(1/5))
t = 3.4/0.6324555
t

## [1] 5.375872

Wniosek jaki można wyciągnąć z tych wyliczeń

Statystyka t wyraża stosunek zróżnicowania międzygrupowego do sumy zróżnicowania wewnątrzgrupowego, jej wartość wynosząca 5.375872 mówi o tym, że zróżnicowanie międzygrupowe (różnica średnich ocen lubienia biedonek i stonek) jest około 5 razy większe niż zróżnicowanie wewnątrz grup (suma odchyleń standardowych lubienia biedronek i stonek). Statystyka t przekroczyła próg wartości 2 więc można uznać wstępnie, że nie jest to przypadek.

Ludzie lubią istotnie bardziej Biedronki M = 5.8 niż Stonki M = 2.4.

Ćwiczenie

W badaniu dotyczącym testowania jakości herbat poproszono 20 osób o wyrażenie zdania na temat smaku herbaty. 10 osób próbowało herbaty chińskiej i 10 herbaty japońskiej.

Osoby oceniały smak na skali od 1 (okropna) do 5 (bardzo smaczna)

Problem badawczy jaki postawili badacze brzmiał:
Która herbata jest smaczniejsza?

Wyniki dla herbaty chińskiej:

chińska = c(1,2,1,2,3,5,1,4,3,4)

Wyniki dla herbaty japońskiej:

japońska = c(1,3,2,3,4,5,3,4,4,5)

Średnie dla obu herbat

mean(chińska)

## [1] 2.6

mean(japońska)

## [1] 3.4

2.6-3.4

## [1] -0.8

Kwadrat odchyleń dla obu herbat

sum(as.data.frame(chińska - 2.6)^2)

## [1] 18.4

sum(as.data.frame(japońska - 3.4)^2)

## [1] 14.4

Wartość S2 =

(18.4 + 14.4)/18

## [1] 1.822222

Wartość t

t  = -0.8/sqrt((1.822222/10)+(1.822222/10))
t = -0.8/0.6036923
t

## [1] -1.325178

Wniosek?

Różnice między pomiarami pod względem nasilenia badango parametru

Test t dla prób zależnych, znany również jako test t dla prób związanych, jest statystycznym narzędziem służącym do porównywania średnich dwóch powiązanych grup. Jest to technika, która pozwala na ocenę, czy różnice między dwiema próbami są statystycznie istotne, gdy obie grupy są ze sobą powiązane, na przykład w badaniach przed i po interwencji.

Kiedy stosujemy test t dla prób zależnych?

Test t dla prób zależnych stosuje się, gdy chcemy porównać wyniki dwóch powiązanych grup. Typowe przypadki użycia obejmują:

badania, w których te same osoby są testowane przed i po interwencji,
badania, w których pary osób są dobierane na podstawie podobnych cech (np. wiek, płeć).

Gdzie wykorzystuje się test t dla prób zależnych?

Test ten znajduje zastosowanie w różnych dziedzinach naukowych, takich jak:

psychologia - do analizy efektywności terapii przed i po leczeniu,
medycyna - do oceny skuteczności nowych leków lub procedur chirurgicznych,
nauki społeczne - do badania zmian w zachowaniu lub postawach grupy w czasie.

Wzór

Wzór na obliczenie statystyki t dla prób zależnych jest następujący:

\[ t = \frac{\overline{d}}{(s_d / \sqrt{n})} \]

Gdzie: - \(\overline{d}\) - średnia różnica między parami obserwacji, - \(s_d\) - odchylenie standardowe różnic, - \(n\) - liczba par.

Opis wzoru

Analiza t Studenta dla prób zależnych porównuje średnią różnicę między dwiema powiązanymi próbami do odchylenia standardowego tych różnic. Wzór składa się z kilku kluczowych elementów:

\(\overline{d}\) to średnia różnica między parami obserwacji. Oblicza się ją, sumując różnice dla wszystkich par, a następnie dzieląc przez liczbę par \(n\).
\(s_d\) to odchylenie standardowe różnic. Jest to miara rozproszenia różnic wokół ich średniej.
\(n\) to liczba par w próbie.

Przykład obliczenia analizy t Studenta dla prób zależnych

Rozważmy przykład badań nad wpływem diety na poziom witamin w organizmach osób spożywających owoce i warzywa. Zmierzono poziom witaminy C w organizmach grupy osób przed i po miesiącu diety owocowo-warzywnej.

Oto wyniki pomiarów (w jednostkach witaminy C):

Przed dietą	Po diecie
54	60
55	63
58	64
52	65
53	62

Kroki obliczenia analizy t Studenta dla prób zależnych:

Oblicz różnice dla każdej pary obserwacji:
- 60 - 54 = 6
- 63 - 55 = 8
- 64 - 58 = 6
- 65 - 52 = 13
- 62 - 53 = 9
Oblicz średnią różnic: \(\overline{d} = \frac{6 + 8 + 6 + 13 + 9}{5} = \frac{42}{5} = 8.4\)
Oblicz odchylenie standardowe różnic:

\[ s_d = \sqrt{\frac{\sum{(d_i - \overline{d})^2}}{n-1}} \]

\[ = \sqrt{\frac{(6-8.4)^2 + (8-8.4)^2 + (6-8.4)^2 + (13-8.4)^2 + (9-8.4)^2}{4}} \]

\[ = \sqrt{\frac{33.2}{4}} = \sqrt{8.3} \approx 2.88 \]

Ostatecznie obliczamy statystykę t:

\[ t = \frac{8.4}{(2.88 / \sqrt{5})} = \frac{8.4}{1.29} \approx 6.51 \]

Na podstawie wyniku \(t \approx 6.51\), możemy stwierdzić, że różnica w średnich przed i po diecie owocowo-warzywnej jest statystycznie istotna.

Statystyka Chi Kwadrat

Statystyka chi kwadrat jest jedną z metod stosowanych w statystyce do badania, czy istnieje istotna różnica między oczekiwanymi i obserwowanymi częstościami w jednej lub więcej kategoriach. Jest szeroko stosowana w analizie danych, a jej głównym celem jest testowanie hipotez dotyczących niezależności zmiennych jakościowych.

Czym jest statystyka chi kwadrat?

Statystyka chi kwadrat (χ²) jest narzędziem statystycznym, które służy do oceny różnic pomiędzy oczekiwanymi a obserwowanymi częstościami w danych. Umożliwia analizę, czy istnieje istotna zależność pomiędzy dwiema zmiennymi jakościowymi lub czy rozkład danych różni się od oczekiwanego rozkładu.

Kiedy stosujemy statystykę chi kwadrat?

Test chi kwadrat stosuje się w sytuacjach, gdy chcemy zbadać zależności pomiędzy zmiennymi nominalnymi. Przykłady zastosowania obejmują:

analiza zależności pomiędzy płcią a preferencjami zakupowymi,
badanie, czy występują różnice w zachowaniach ludzi w różnych grupach wiekowych.

Jakie działania badawcze wykorzystują statystykę chi kwadrat?

Test chi kwadrat znajduje zastosowanie w wielu dziedzinach, takich jak:

socjologia - do badania zależności między różnymi cechami demograficznymi,
medycyna - do analizy danych epidemiologicznych (np. zależności między chorobami a czynnikami ryzyka),
marketing - do badania preferencji konsumentów w różnych segmentach rynku.

Interpretacja wyników

Wzór na Statystykę Chi Kwadrat

Wzór na statystykę chi kwadrat jest następujący:

\[ \chi^2 = \sum_{i=1}^n \frac{(O_i - E_i)^2}{E_i} \]

Gdzie:

\(\chi^2\) - statystyka chi kwadrat
\(O_i\) - obserwowana częstość w \(i\)-tej kategorii
\(E_i\) - oczekiwana częstość w \(i\)-tej kategorii
\(n\) - liczba kategorii

Sens Wzoru

Wzór na statystykę chi kwadrat porównuje różnice między obserwowanymi a oczekiwanymi wartościami w każdej kategorii, skalując je przez oczekiwane wartości. Im większa różnica między obserwowanymi a oczekiwanymi wartościami, tym większa wartość statystyki chi kwadrat, co może wskazywać na niezgodność z hipotezą zerową.

Kroki Obliczania Statystyki Chi Kwadrat

Ustal hipotezę zerową i alternatywną.
Zbierz dane i oblicz obserwowane częstości (\(O_i\)).
Oblicz oczekiwane częstości (\(E_i\)) na podstawie hipotezy zerowej.
Podstaw obserwowane i oczekiwane wartości do wzoru na statystykę chi kwadrat.
Wyciągnij wnioski na podstawie wartości statystyki chi kwadrat i tablic wartości krytycznych.

Przykład Obliczenia Statystyki Chi Kwadrat

Załóżmy, że chcemy sprawdzić, czy rodzaj produktu (owoc lub warzywo) wpływa na jego popularność w sklepie. Obserwowane częstości sprzedaży są następujące:

Jabłka: 50
Banany: 30
Marchewki: 40
Pomidor: 20

Oczekiwane częstości, zakładając, że wszystkie produkty powinny być równie popularne, to:

Jabłka: 35
Banany: 35
Marchewki: 35
Pomidor: 35

Zastosujmy wzór na statystykę chi kwadrat:

\[ \chi^2 = \frac{(50 - 35)^2}{35} + \frac{(30 - 35)^2}{35} + \frac{(40 - 35)^2}{35} + \frac{(20 - 35)^2}{35} \]

Obliczmy wartości poszczególnych elementów:

\[ \chi^2 = \frac{225}{35} + \frac{25}{35} + \frac{25}{35} + \frac{225}{35} \]

\[ \chi^2 = 6.43 + 0.71 + 0.71 + 6.43 \]

\[ \chi^2 = 14.28 \]

Po obliczeniu statystyki chi kwadrat, możemy porównać ją z odpowiednią wartością krytyczną w tabeli chi kwadrat, aby ocenić, czy różnica jest istotna statystycznie.

Bibliografia

Pearson, K. (1900). X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling . The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(302), 157–175. https://doi.org/10.1080/14786440009463897

Tablica statystyczna dla testu Chi Kwadrat

Jak wyliczyć stopnie swobody dla testu Chi Kwadadrat?

Chi kwadrat dla jednej zmiennej

df=k−1

k = płeć biologiczna; 2x(kobieta/mężczyzna)

df = 2-1

df = 1

Dla płci na 2 poziomach df dla testu Chi wynosi 1.

Chi kwadrat dla dwóch zmiennych

df = (r-1)+(c-1)

r = płeć biologiczna; 2x(kobieta/mężczyzna)

r = kolor włosów; 3x(blond/rude/czarne)

df = (2-1)+(3-1)

df = 1+2

df = 3

Przykład. Zakładamy, że nasz wynik testu Chi Kwadrat (df=3) = 8.01

Wynik jest istotny na poziomie p < 0.05 (Chi Kwadrat przy df = 3 musi wynosić minimum 7.814727903, żeby uzyskać istotność na poziomie p < 0.05 )

Tablica statystyzna dla statystyki Chi kwadrat dla 20 stopni swobody

df/p	0.05	0.1
1	3.841459	2.705544
2	5.991465	4.605170
3	7.814728	6.251389
4	9.487729	7.779440
5	11.070498	9.236357
6	12.591587	10.644641
7	14.067140	12.017037
8	15.507313	13.361566
9	16.918978	14.683657
10	18.307038	15.987179
11	19.675138	17.275008
12	21.026070	18.549348
13	22.362033	19.811929
14	23.684791	21.064144
15	24.995790	22.307130
16	26.296228	23.541829
17	27.587112	24.769035
18	28.869299	25.989423
19	30.143527	27.203571
20	31.410433	28.411981

Podstawowe modele badawcze i sposoby ich weryfikacji

Prosty model eksperymentalny

Na dzisiejszych zajęciach przedstawie Wam podstawowe schematy badawcze, dzięki którym badacze starają się dociec przyczyn.

Podstawowe pojęcia

Kanon jednej różnicy: Projektowanie warunków eksperymentalnych w taki sposób, by różniły się od siebie tylko jednym elementem (np. testowanie loga firmy z białą i czarną czcionką pozwala przypisać przyczynę różnic w postrzeganiu względem koloru czcionki z jakiego składa się logo). Kiedy różnią się więcej niż jednym elementem, to trudno przypisać zmiany jednej przyczynie, bo mamy równie możliwe alternatywne wyjaśnienie jakim jest fakt, że mogła zadziałać inna przyczyna.
Manipulacja eksperymentalna: Wywołanie przyczyny zjawiska (np. podanie leku przeciwbólowego.
Warunek kontrolny: Warunek w którym obserwacje nie są poddane manipulacji eksperymentalnej.
Operacjonalizacja pomiaru: zamiana teoretycznej wielkości np. agresywności na obserwowalne w rzeczywistości zdarzenie np. podanie do kanapki: 1 - sosu łagodnego; 2 - sosu delikatnie pikantnego; 3 - sosu pikantnego: 4 - sosu mocno pikantnego.
Pomiar: Sposób pomiaru interesującej nas wielkości po zadziałaniu przyczyny lub jej braku. Np. dystans psychologiczny między ludźmi możemy mierzyć metrówką w cm, czas działania programu komputerowego możemy mierzyć zegarem systemowym.

Praca w grupach 1

W grupach 3-4 osobowych zaprojektujcie prosty eksperyment z grupą kontrolną. Stwórzcie badanie i Wywołajcie w nim w jakiś sposób przyczynę i mierzcie jej skutki. Zaprojektujcie również warunek kontrolny. Postarajcie się stworzyć te warunki eksperymentalne w taki sposób, aby nikt nie zarzucił Wam, że na wyniki pomiaru po manipulacji exp. mógł systematycznie oddziaływać jeszcze jakiś czynnik zakłocający. Musicie obronić ten eksperyment z poziomu konstrukcji metody badawczej.

Postarajcie się:

Postawcie jakiś problem badawczy np. Dlaczego kot prowadzjącego strasznie miałczy o 4 nad ranem?
Podajcie kilka potencjalnych przyczyn
Odpowiedzieć logicznie na pytanie “Dlaczego wybrana przez Was przyczyna ma wpływać na Wasz pomiar?”
Zadbajcie o kanon jednej różnicy w planowaniu grupy eksperymentalnej i kontrolnej.
Jeśli trzeba, to wykonajcie odpowiednią operacjonalizację/określcie pomiar skutku.

Analiza przyczynowości w czasie

Bardzo ciekawym podejściem do analizy przyczynowości są badania o charakterze powtarzanego pomiaru, czyli badania w których te same obserwacje są badane wielokrotnie.

Zwróćmy uwagę na poniższy rysunek. Mamy dwie cechy mierzone w przeszłosci i te same cechy mierzone ponownie. Możemy zaobserwować, że jedna cecha z przeszłości (\(YYt_1\)) wpływa na zupełnie inną cechę w przyszłości (\(XXt_1\)).

Rysunek nr 1

Efekt wpływu cechy XX na YY oraz YY na XX

Nota: Linie poziome to efekty autoregresyjne (ta sama cecha z przeszłości wpływa na tę samą cechę w przyszłości); Linie krzyżujące się to krzyżowe efekty wpływu (może pojawić się wpływ); Linie pionowe to korelacje pomiędzy cechami w danym punkcie czasowym.

Tabela nr 1

Efekt wpływu cechy XX na YY oraz YY na XX

Dzięki analizie komponentów autoregresyjnych (np. agresja dzieci \(t_1\) → agresja dzieci \(t_2\)) i relacji cross-laggowych (np. agresja rodziców \(t_1\) → agresja dzieci \(t_2\) vs gresja dzieci \(t_1\) → agresja rodziców \(t_2\) ) możemy obserwować okoliczności w których przyczyna z przeszłości działa na skutek w przyszłości.

O przyczynowości możemy mówić wtedy kiedy tylko jedna cecha np. a wpływa na inną cechę np. b, przy jednoczesnej obserwacji okoliczności w których b nie wpływa na a. Możemy wtedy powiedzieć, że np. agresja rodziców (z przeszłości) wpływa na agresję dzieci (w przyszłości), bo nie obserwujemy, aby agresja dzieci (z przeszłości) wpływała na agresję rodziców (w przyszłości).

Wniosek z powyższego przykładu jest taki, że to agresja rodziców wpływa na agresję dzieci, a nie odwrotnie.

Dlatego możemy odpowiedzieć na kilka pytań:

Czy nasilenie cech z przeszłości wiąże się z nasileniem cech w przyszłości?
Czy możemy rozstrzygnąć o przyczynie?
Jaki układ wyników obserwujemy?

Badania tego typu pozwalają również na analizy mechanizmów mediacyjnych (analiza mechanizmów które odpowiadają za dany efekt przyczynowo-skutkowy [\(xt_1\) -> \(mt_2\) -> \(yt_3\)]).

Ponad to, jest szereg uwarunkowań metodologicznych które trzeba spełnić (lub dążyć do ich spełnienia), by takie badanie się nie rozjechało ⛕ pod względem kontroli efektu przyczynowego.

O to te warunki:

Pomiar zmiennych w danym punkcie czasowym musi być wykonany w tym samym momencie u wszystkich obserwacji (nie możemy zbadać Zosi w poniedziałek, a Krzysia w piątek)
Odstęp czasowy pomiędzy pomiarem cech w \(t_1\) i \(t_2\) musi być taki sam dla wszystkich obserwacji taki sam (nie może być tak, że różnica w czasie między pomirami cech u Zosi wynosi 4 dni, a u Krzysia 10 dni).

Czujny umysł zwróci uwagę, że jeśli warunek 1 jest spełniony to w zasadzie 2 też. Aczkolwiek warunki te są w praktyce badawczej trudno spełnialne jeśli nie mamy wystarczającej kontroli nad badanymi obserwacjami (np. ludźmi, zwierzętami, czy zjawiskami ekonomicznymi). Dlatego warunki te musimy raczej traktować jako warunki do spełnienia których spełnienia dążymy, niż faktycznie spełniamy.

Praca w grupach 2

W grupach 3-4 osobowych zaprojektujcie proste badanie o charakterze powtarzanego pomiaru w którym rozstrzygniecie o przyczynie jakiegoś zjawiska.

Tematy do wyboru

Na pozytywny nastrój wpływa sen.
Na wynik sportowy piłkarza wpływa charakter trenera, a nie jego staż treningowy.
Na motywację do pracy pracownika ma wpływ publiczna pochwała szefa.
Na odczuwanie bólu ma wpływ nastrój.

Postarajcie się:

Postawcie jakiś problem badawczy np. Dlaczego kot prowadzjącego strasznie miałczy o 4 nad ranem?
Podajcie kilka potencjalnych przyczyn
Odpowiedzieć logicznie na pytanie “Dlaczego wybrana przez Was przyczyna ma wpływać na Wasz pomiar?”

Odnosząc się do rozstrzygnięć o przyczynowości w planach z powtarzanym pomiarem, rozpiszcie:

Jak i czym zostanie wykonany pierwszy pomiar cech?
Po jakim czasie i dlaczego po takim czasie zostanie wykonany drugi pomiar?
Jak zadbacie o jednoczesny pomiar cech w \(t_1\) i \(t_2\) u Waszych obiektów badawczych?
Jak zadbacie o to by róznice między pomiarami \(t_1\) i \(t_2\) były zbliżone u każdego biektu badanego?

Bibliografia

Popper, Karl. The Logic of Scientific Discovery. 2nd ed. Routledge Classics. London, England: Routledge, 2002.

Rosseel, Y. (2012). lavaan: An R package for structural equation modeling. Journal of Statistical Software, 48(2), 1–36. https://doi.org/10.18637/jss.v048.i02

Zyphur, M. J., Allison, P. D., Tay, L., Voelkle, M. C., Preacher, K. J., Zhang, Z., Hamaker, E. L., Shamsollahi, A., Pierides, D. C., Koval, P., & Diener, E. (2019). From data to causes I: Building a general cross-lagged panel model (GCLM). Organizational Research Methods, 23(4), 651–687. https://doi.org/10.1177/1094428119847278

Statystyka Opisowa

mgr Konrad Hryniewicz - Uniwesytet Morski w Gdyni

26 February, 2025

Zaliczenie

Statystyki opisowe

Średnia arytmetyczna

Średnia kwadratowa Root Mean Square (RMS)

Odchylenie standardowe

Jakie są wnioski?

Błąd standardowy średniej

Populacja i próbkowanie

Populacja

Pórbka 1 (100 losowych obserwacji)

Pórbka 2 (100 losowych obserwacji)

Pórbka 3 (100 losowych obserwacji)

Pórbka 4 (100 losowych obserwacji)

Pórbka 1 (50 losowych obserwacji)

Pórbka 2 (50 losowych obserwacji)

Pórbka 3 (50 losowych obserwacji)

Pórbka 4 (50 losowych obserwacji)

Pórbka 1 (20 losowych obserwacji)

Przedziały ufności

Ułatwienie oblicznia przedziałów ufności

Praca w grupach

Siła Efektu d Cohena

Czym jest współczynnik d Cohena?

Kiedy stosujemy współczynnik d Cohena?

Jakie działania badawcze wykorzystują współczynnik d Cohena?

Interpretacja wyników

Wzór na Siłę Efektu d Cohena

Przykład Obliczeń: Porównanie Średniej Wagi Owoców i Warzyw

Bibliografia

Analiza korelacji - Test Pearsona i Spearmana

Współczynnik korelacji Spearmana

Przykład korelacji Spearmana

Praca w grupach

Bibliografia

Współczynnik korelacji Pearsona 1

Współczynnik korelacji Pearsona 2

Przykład Obliczenia Analizy Korelacji Pearsona

Bibliografia

Praca w grupach

Zagadka

Analiza Regresji

Kiedy się jej używa?

W jakich działaniach badawczych?

W jakich naukach?

Wzór na Analizę Regresji

Sens Wzoru Analizy Regresji

Przykład Obliczenia Analizy Regresji

Bibliografia

Rodzina testów t studenta

Różnice między grupami pod względem nasilenia badango parametru

Ćwiczenie

Różnice między pomiarami pod względem nasilenia badango parametru

Kiedy stosujemy test t dla prób zależnych?

Gdzie wykorzystuje się test t dla prób zależnych?

Wzór

Opis wzoru

Przykład obliczenia analizy t Studenta dla prób zależnych

Statystyka Chi Kwadrat

Czym jest statystyka chi kwadrat?

Kiedy stosujemy statystykę chi kwadrat?

Jakie działania badawcze wykorzystują statystykę chi kwadrat?

Interpretacja wyników

Wzór na Statystykę Chi Kwadrat

Sens Wzoru

Kroki Obliczania Statystyki Chi Kwadrat

Przykład Obliczenia Statystyki Chi Kwadrat

Bibliografia

Tablica statystyczna dla testu Chi Kwadrat

Jak wyliczyć stopnie swobody dla testu Chi Kwadadrat?

Chi kwadrat dla jednej zmiennej

Chi kwadrat dla dwóch zmiennych

Podstawowe modele badawcze i sposoby ich weryfikacji

Prosty model eksperymentalny

Praca w grupach 1

Analiza przyczynowości w czasie

Praca w grupach 2

Bibliografia