Oferty statystyczne Jak działa SZTOS Start Tutoriale FAQ Opinie Kontakt

Bootstrap w Statystyce

Bootstrap jest metodą statystyczną stosowaną do oszacowania właściwości próbek z danych poprzez losowe próbkowanie z odzyskiem. Proces Bootstrap polega na tworzeniu wielu zestawów danych (bootstrap samples) poprzez wielokrotne losowanie z danej próby, co pozwala na oszacowanie niepewności statystyki (np. średniej, odchylenia standardowego) danej próby.

Bootstraping to metoda statystyczna, która pozwala oszacować rozkład statystyki poprzez wielokrotne próbkowanie z próby danych. Technika ta jest szczególnie przydatna w sytuacjach, gdy nie można przyjąć założeń dotyczących rozkładu danych, takich jak normalność, lub gdy próbka jest zbyt mała, aby uzyskać wiarygodne wyniki z tradycyjnych metod statystycznych.

Kiedy używać bootstrapingu?

Bootstraping stosuje się w sytuacjach, gdy:

  • Nie mamy wystarczającej liczby danych do przeprowadzenia analizy statystycznej.
  • Nie możemy przyjąć, że nasze dane są rozkładem normalnym.
  • Chcemy oszacować błąd standardowy, przedziały ufności lub inne statystyki dla estymatorów.

W jakich działaniach badawczych stosuje się bootstrapping?

Metoda bootstrapingu jest wykorzystywana w różnych dziedzinach nauki, takich jak:

  • Ekonomia: Ocena ryzyka inwestycyjnego i prognozowanie cen aktywów.
  • Psychologia: Analiza wyników badań eksperymentalnych i ocena efektywności interwencji.
  • Biostatystyka: Oszacowanie przedziałów ufności dla wyników badań klinicznych.
  • Inżynieria: Ocena niezawodności systemów i modeli.

Jak działa bootstrapping?

Metoda bootstrapingu polega na następujących krokach:

  1. Losowanie z próby oryginalnej z zamianą, co oznacza, że każda obserwacja może być wybrana wielokrotnie.
  2. Obliczenie interesującej statystyki (np. średniej, mediany, odchylenia standardowego) dla każdej z prób bootstrapowych.
  3. Powtarzanie procesu losowania przez określoną liczbę razy (np. 1000 lub 10 000), co pozwala uzyskać rozkład statystyki bootstrapowej.
  4. Na podstawie tego rozkładu można oszacować błąd standardowy, przedziały ufności i inne istotne miary.

Jakie są zalety i wady bootstrapingu?

Zalety:

  • Nie wymaga założeń dotyczących rozkładu danych.
  • Może być stosowany do różnych statystyk, nie tylko do średnich.
  • Łatwy do zrozumienia i implementacji w praktyce.

Wady:

  • Może wymagać dużych zasobów obliczeniowych w przypadku dużych próbek.
  • Wyniki mogą być niestabilne, szczególnie przy bardzo małych próbach.

Kluczowy wzór w metodzie Bootstrap to:

\[ \hat{\theta}^* = \frac{1}{B} \sum_{b=1}^B \hat{\theta}^{*(b)} \]

gdzie:

  • \(\hat{\theta}^*\) - szacowana wartość statystyki Bootstrap
  • \(B\) - liczba bootstrap samples
  • \(\hat{\theta}^{*(b)}\) - oszacowanie statystyki dla b-tej bootstrap sample

Oto kroki obliczania Bootstrap:

  1. Weź próbę danych \(X = \{x_1, x_2, \ldots, x_n\}\).
  2. Stwórz \(B\) bootstrap samples poprzez losowe próbkowanie z odzyskiem z \(X\).
  3. Dla każdej bootstrap sample \(X^*_b\) (gdzie \(b = 1, 2, \ldots, B\)), oblicz statystykę \(\hat{\theta}^{*(b)}\).
  4. Oszacuj wartość statystyki Bootstrap \(\hat{\theta}^*\) jako średnią z wszystkich \(\hat{\theta}^{*(b)}\).

Przykład Obliczenia Bootstrap na Owockach i Warzywkach

Rozważmy zbiór danych zawierający wagę owoców i warzyw. Przypuśćmy, że mamy próbę \(X = \{120, 150, 180, 200, 220\}\) (w gramach).

Krok 1: Weź próbę danych: \(X = \{120, 150, 180, 200, 220\}\)

Krok 2: Stwórz \(B\) bootstrap samples. Przyjmijmy, że \(B = 3\) dla uproszczenia:

  • \(X^*_1 = \{120, 150, 220, 150, 200\}\)
  • \(X^*_2 = \{180, 180, 220, 120, 150\}\)
  • \(X^*_3 = \{200, 120, 180, 200, 220\}\)

Krok 3: Oblicz średnią każdego bootstrap sample:

  • \(\hat{\theta}^{*(1)} = \frac{120 + 150 + 220 + 150 + 200}{5} = 168\)
  • \(\hat{\theta}^{*(2)} = \frac{180 + 180 + 220 + 120 + 150}{5} = 170\)
  • \(\hat{\theta}^{*(3)} = \frac{200 + 120 + 180 + 200 + 220}{5} = 184\)

Krok 4: Oszacuj wartość statystyki Bootstrap: \[ \hat{\theta}^* = \frac{1}{3} \left(168 + 170 + 184\right) = 174 \]

Więc szacowana średnia wagi owoców i warzyw za pomocą metody Bootstrap wynosi 174 gramy.


Bibliografia:


Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/


Hans R. Kunsch. "The Jackknife and the Bootstrap for General Stationary Observations." Ann. Statist. 17 (3) 1217 - 1241, September, 1989. https://doi.org/10.1214/aos/1176347265