Statystyka opisowa wzory: jak w godzinę przeliczyć podstawowe miary?

Statystyka opisowa pozwala w prosty i zrozumiały sposób scharakteryzować zebrane dane. Umiejętność obliczania i interpretacji miar takich jak średnia, odchylenie standardowe, błąd standardowy, mediana, moda, tercyle, 95% przedziały ufności nie tylko skraca czas analiz, ale przede wszystkim pomaga lepiej zrozumieć sedno badanych zagadnień. W niniejszym poradniku zaprezentujemy krótki przewodnik na temat obliczania podstawowych statystyk opisowych, który warto mieć zawsze pod ręką. Przykładem będzie sytuacja, w której studentka Zosia mierzy długość 10 węży, aby przećwiczyć omawiane metody obliczeń.

Załóżmy, że Zosia otrzymała następujące długości (w metrach): 1.8, 2.0, 2.1, 1.5, 3.0, 1.9, 2.2, 2.0, 2.7, 1.7. Na podstawie tych 10 długości chcemy policzyć wszystkie istotne miary statystyczne i pokazać Ci, krok po kroku, jak je interpretować.

1. Średnia arytmetyczna

Intuicja: Średnia arytmetyczna informuje nas o tzw. “przeciętnej” wartości w zbiorze danych. To punkt, wokół którego dane zwykle się skupiają. Jeśli zbiór liczb jest w przybliżeniu symetryczny, średnia dobrze opisuje “typową” obserwację.

Wzór: $$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$ gdzie $n$ to liczba obserwacji, a $x_i$ to kolejne wartości (długości węży w tym przykładzie).

Obliczenia dla przykładu: Suma wszystkich długości węży wynosi: 1.8 + 2.0 + 2.1 + 1.5 + 3.0 + 1.9 + 2.2 + 2.0 + 2.7 + 1.7 = 20.9. Dzielimy tę sumę przez 10 (liczbę węży): 20.9 / 10 = 2.09. Średnia długość węży to więc 2.09 m.

Interpretacja: Przeciętna długość mierzonego węża wynosi około 2.09 m. Jeśli dane są stosunkowo jednolite, to wartość zbliżona do tej liczby będzie reprezentować typowego węża w badanej próbie.

2. Odchylenie standardowe z próby

Intuicja: Odchylenie standardowe pokazuje, jak bardzo dane rozpraszają się wokół średniej. Im wyższa wartość, tym więcej obserwacje “rozsiane” są wokół wartości średniej.

Wzór): $$ s = \sqrt{\frac{\sum (x_{i} - \bar{x})^{2}}{N - 1}} $$ \[ \begin{aligned} s &\text{ — Odchylenie standardowe} \\ \bar{x} &\text{ — Średnia arytmetyczna z próby} \\ x_{i} &\text{ — Wartość obserwacji} \\ \sqrt{} &\text{ — Pierwiastek} \\ N - 1 &\text{ — Liczebność próby minus jedna obserwacja} \\ (x_{i} - \bar{x})^{2} &\text{ — Tzw. kwadrat odchyleń (bardzo ważne!)} \end{aligned} \]

Obliczenia dla przykładu (krok po kroku):
1) Obliczamy różnice $ x_i - \bar{x} $.
2) Każdą różnicę podnosimy do kwadratu.
3) Sumujemy kwadraty i dzielimy je przez $n - 1$.
4) Wyciągamy pierwiastek kwadratowy z wyniku.
W naszym przykładzie otrzymamy wartość odchylenia standardowego w okolicach 0.453 m.

Interpretacja: Odchylenie standardowe rzędu 0.453 m oznacza, że większość węży różni się od średniej (2.09 m) w granicach około 0.453 m. Wyższa wartość oznaczałaby większe zróżnicowanie populacji węży w naszym zbiorze.

3. Błąd standardowy

Intuicja: Błąd standardowy (SE) pokazuje nie tyle rozrzut samych obserwacji, co niepewność w oszacowaniu średniej. Jeśli mamy niewielką próbę, błąd standardowy może być dość duży, wskazując, że nasza “średnia” w badanej grupie może być słabym oszacowaniem prawdziwej średniej w populacji.

Wzór: $$ SE = \frac{s}{\sqrt{n}} $$ gdzie $s$ to odchylenie standardowe w próbie, a $n$ to liczba obserwacji.

Obliczenia dla przykładu: Jeśli nasze odchylenie standardowe wyniosło około 0.453, to dla naszej próby 10 węży: 0.453 / √10 ≈ 0.143. Otrzymujemy przybliżony błąd standardowy rzędu 0.14 m.

Interpretacja: Im mniejszy błąd standardowy, tym pewniejsi możemy być, że nasza średnia (2.09 m) dobrze przybliża rzeczywistą populacyjną średnią długość węży. Duży błąd standardowy kazałby nam przyjąć, że nasza próba jest zbyt mała, by jednoznacznie opisać populację.

4. Mediana

Intuicja: Mediana to wartość dzieląca uporządkowany zbiór na dwie połowy. Pozwala odzwierciedlić centralną tendencję danych bez wrażliwości na skrajne wartości (tzw. outliers).

Obliczenia: Porządkujemy dane rosnąco: 1.5, 1.7, 1.8, 1.9, 2.0, 2.0, 2.1, 2.2, 2.7, 3.0. Przy liczbie obserwacji n=10 mediana to średnia wartość między 5-tym i 6-tym wynikiem, czyli: (2.0 + 2.0) / 2 = 2.0.

Interpretacja: Połowa węży jest krótsza lub równa 2.0 m, a połowa węży jest dłuższa bądź równa 2.0 m. Jeśli w zbiorze pojawi się bardzo długi wąż (np. 10 m), mediana pozostanie bardziej stabilna niż średnia.

5. Moda

Intuicja: Moda (wartość najczęściej występująca) jest użyteczna przy danych kategorycznych bądź wtedy, gdy chcemy odnotować najpopularniejszy pomiar w zbiorze.

Obliczenia: Wśród naszych pomiarów mamy wartości 2.0 pojawiające się dwukrotnie, pozostałe wartości występują jednokrotnie. Zatem modą w skróconym przykładzie jest 2.0.

Interpretacja: Moda mówi nam, że najczęściej mierzona długość węży to 2.0 m. Przydatne, gdy chcemy wskazać najbardziej typową wartość występującą (np. w zasobach magazynowych, w badaniach ankietowych itp.).

6. Tercyle

Intuicja: Tercyle dzielą zbiór na trzy równe części (podobnie jak kwartyle w 4, decyle w 10, itd.). Dzięki temu możemy zobaczyć, jak rozkładają się dane w 33% i 66% przedziale.

Obliczenia: Po uporządkowaniu danych, obliczamy punkty odcięcia odpowiadające 1/3 (około 3.3 obserwacji) i 2/3 (około 6.6 obserwacji) w zbiorze. – Tercyl 1 (T1) będzie w okolicach trzeciej i czwartej wartości (między 1.8 a 1.9). – Tercyl 2 (T2) w okolicach szóstej i siódmej wartości (między 2.0 a 2.1). Dokładnivh wyznaczeń można dokonać metodą interpolacji.

Interpretacja: Jeśli np. T1 = około 1.85 m i T2 = około 2.05 m, to znaczy, że 1/3 pomiarów jest < 1.85 m, a 2/3 pomiarów jest < 2.05 m. Takie informacje pozwalają sprawnie ocenić, na jakim poziomie znajduje się dolna i środkowa część rozkładu.

95% przedziały ufności dla średniej

Intuicja: Przedział ufności pokazuje, w jakim zakresie – z pewnym prawdopodobieństwem (np. 95%) – może się znaleźć prawdziwa średnia populacji. Im szerszy jest przedział, tym mniej pewni jesteśmy dokładnego oszacowania.

1️⃣ Wersja uproszczona – bez stopni swobody

Wzór:
\[ \bar{x} \pm t_{\alpha/2} \times \frac{s}{\sqrt{n}} \] gdzie $t_{\alpha/2}$ to wartość krytyczna z rozkładu t-Studenta dla poziomu ufności 95%.

Obliczenia:
Średnia próby: $\bar{x} = 2.09$
Odchylenie standardowe próby: $s = 0.453$
Liczba obserwacji: $n = 10$
Błąd standardowy: \[ SE = \frac{s}{\sqrt{n}} = \frac{0.453}{\sqrt{10}} \approx 0.143 \]
Wartość krytyczna $t_{\alpha/2} \approx 1.96$
95% CI: \[ 2.09 \pm (1.96 \times 0.143) \approx 2.09 \pm 0.28028 \approx (1.80972, 2.37028) \]

Interpretacja:
Z 95% pewnością możemy stwierdzić, że prawdziwa średnia długość węży w populacji mieści się w przedziale od 1.77 m do 2.41 m.

2️⃣ Wersja ze stopniami swobody dla ilości węży - 1 = 9

Wzór na stopnie swobody dla 1 próby jest bardzo prosty i następujący:
\[ \text{df} = N - 1 \] \[ \text{Dla jednej próby o } N = 10 \text{ obserwacjach węży Zosi: } df = 10 - 1 = 9 \]

Wzór:
\[ \bar{x} \pm t_{\alpha/2, \, 9} \times \frac{s}{\sqrt{n}} \] gdzie $t_{\alpha/2,9}$ to wartość krytyczna z rozkładu t-Studenta dla poziomu ufności 95% i 9 stopni swobody (te dane bierzemy z tablic statystycznych dla statystyk t studenta, dla danej istotności i wielkości próby -1, czyli właśnie dla df).

Obliczenia:
Średnia próby: $\bar{x} = 2.09$
Odchylenie standardowe próby: $s = 0.453$
Liczba obserwacji: $n = 10$
Błąd standardowy: \[ SE = \frac{s}{\sqrt{n}} = \frac{0.453}{\sqrt{10}} \approx 0.143 \]
Wartość krytyczna dla istotności przedziałów 0.05 i 9 stopni swobody $t_{0.050,9} \approx 2.262$
95% CI: \[ 2.09 \pm (2.262 \times 0.143) \approx 2.09 \pm 0.323466 \approx (1.766534, 2.413466) \]

Interpretacja:
Z 95% pewnością prawdziwa średnia długość węży w populacji mieści się w przedziale od 1.766534 m do 2.413466 m.

Teraz, kiedy już wiesz, jak obliczyć każdą z powyższych miar, możesz w przeciągu godziny (a nawet szybciej!) policzyć najważniejsze statystyki opisowe dla swoich danych. Największą zaletą statystyki opisowej jest jej bezpośrednia użyteczność: natychmiast zyskujesz prosty obraz tego, jak kształtują się Twoje wyniki pod względem rozkładu i pewności oszacowań.

Jeśli potrzebujesz wsparcia w zakresie badań naukowych, analiz danych czy doradztwa statystycznego, skontaktuj się z nami: zachęcamy do skorzystania z darmowych konsultacji przy nawiązywaniu współpracy. Możesz odwiedzić naszą stronę https://sztos-it.com/kontakt.html, zadzwonić do mgr Konrada Hryniewicza (798 30 95 31) lub mgr Anny Milewskiej (501 51 08 80), a także napisać na adres metodolog.pl@gmail.com. Z przyjemnością pomożemy Ci w przeprowadzeniu rzetelnych i skutecznych analiz statystycznych!