Bootstrap w Statystyce
Bootstrap jest metodą statystyczną stosowaną do oszacowania właściwości próbek z danych poprzez losowe próbkowanie z odzyskiem. Proces Bootstrap polega na tworzeniu wielu zestawów danych (bootstrap samples) poprzez wielokrotne losowanie z danej próby, co pozwala na oszacowanie niepewności statystyki (np. średniej, odchylenia standardowego) danej próby.
Bootstraping to metoda statystyczna, która pozwala oszacować rozkład statystyki poprzez wielokrotne próbkowanie z próby danych. Technika ta jest szczególnie przydatna w sytuacjach, gdy nie można przyjąć założeń dotyczących rozkładu danych, takich jak normalność, lub gdy próbka jest zbyt mała, aby uzyskać wiarygodne wyniki z tradycyjnych metod statystycznych.
Kiedy używać bootstrapingu?
Bootstraping stosuje się w sytuacjach, gdy:
- Nie mamy wystarczającej liczby danych do przeprowadzenia analizy statystycznej.
- Nie możemy przyjąć, że nasze dane są rozkładem normalnym.
- Chcemy oszacować błąd standardowy, przedziały ufności lub inne statystyki dla estymatorów.
W jakich działaniach badawczych stosuje się bootstrapping?
Metoda bootstrapingu jest wykorzystywana w różnych dziedzinach nauki, takich jak:
- Ekonomia: Ocena ryzyka inwestycyjnego i prognozowanie cen aktywów.
- Psychologia: Analiza wyników badań eksperymentalnych i ocena efektywności interwencji.
- Biostatystyka: Oszacowanie przedziałów ufności dla wyników badań klinicznych.
- Inżynieria: Ocena niezawodności systemów i modeli.
Jak działa bootstrapping?
Metoda bootstrapingu polega na następujących krokach:
- Losowanie z próby oryginalnej z zamianą, co oznacza, że każda obserwacja może być wybrana wielokrotnie.
- Obliczenie interesującej statystyki (np. średniej, mediany, odchylenia standardowego) dla każdej z prób bootstrapowych.
- Powtarzanie procesu losowania przez określoną liczbę razy (np. 1000 lub 10 000), co pozwala uzyskać rozkład statystyki bootstrapowej.
- Na podstawie tego rozkładu można oszacować błąd standardowy, przedziały ufności i inne istotne miary.
Jakie są zalety i wady bootstrapingu?
Zalety:
- Nie wymaga założeń dotyczących rozkładu danych.
- Może być stosowany do różnych statystyk, nie tylko do średnich.
- Łatwy do zrozumienia i implementacji w praktyce.
Wady:
- Może wymagać dużych zasobów obliczeniowych w przypadku dużych próbek.
- Wyniki mogą być niestabilne, szczególnie przy bardzo małych próbach.
Kluczowy wzór w metodzie Bootstrap to:
\[ \hat{\theta}^* = \frac{1}{B} \sum_{b=1}^B \hat{\theta}^{*(b)} \]
gdzie:
- \(\hat{\theta}^*\) - szacowana wartość statystyki Bootstrap
- \(B\) - liczba bootstrap samples
- \(\hat{\theta}^{*(b)}\) - oszacowanie statystyki dla b-tej bootstrap sample
Oto kroki obliczania Bootstrap:
- Weź próbę danych \(X = \{x_1, x_2, \ldots, x_n\}\).
- Stwórz \(B\) bootstrap samples poprzez losowe próbkowanie z odzyskiem z \(X\).
- Dla każdej bootstrap sample \(X^*_b\) (gdzie \(b = 1, 2, \ldots, B\)), oblicz statystykę \(\hat{\theta}^{*(b)}\).
- Oszacuj wartość statystyki Bootstrap \(\hat{\theta}^*\) jako średnią z wszystkich \(\hat{\theta}^{*(b)}\).
Przykład Obliczenia Bootstrap na Owockach i Warzywkach
Rozważmy zbiór danych zawierający wagę owoców i warzyw. Przypuśćmy, że mamy próbę \(X = \{120, 150, 180, 200, 220\}\) (w gramach).
Krok 1: Weź próbę danych: \(X = \{120, 150, 180, 200, 220\}\)
Krok 2: Stwórz \(B\) bootstrap samples. Przyjmijmy, że \(B = 3\) dla uproszczenia:
- \(X^*_1 = \{120, 150, 220, 150, 200\}\)
- \(X^*_2 = \{180, 180, 220, 120, 150\}\)
- \(X^*_3 = \{200, 120, 180, 200, 220\}\)
Krok 3: Oblicz średnią każdego bootstrap sample:
- \(\hat{\theta}^{*(1)} = \frac{120 + 150 + 220 + 150 + 200}{5} = 168\)
- \(\hat{\theta}^{*(2)} = \frac{180 + 180 + 220 + 120 + 150}{5} = 170\)
- \(\hat{\theta}^{*(3)} = \frac{200 + 120 + 180 + 200 + 220}{5} = 184\)
Krok 4: Oszacuj wartość statystyki Bootstrap: \[ \hat{\theta}^* = \frac{1}{3} \left(168 + 170 + 184\right) = 174 \]
Więc szacowana średnia wagi owoców i warzyw za pomocą metody Bootstrap wynosi 174 gramy.
Bibliografia:
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Słownik pojęć statystycznych]. https://sztos-it.com/
Hans R. Kunsch. "The Jackknife and the Bootstrap for General Stationary Observations." Ann. Statist. 17 (3) 1217 - 1241, September, 1989. https://doi.org/10.1214/aos/1176347265