Niniejszą analizę i raport opisowy wykonano w Systemie Zautomatyzowanego Tworzenia Opisu Statystycznego - SZTOS (Hryniewicz, Milewska, 2023).Rozstęp międzykwartylowy (ang. IQR) jest często używany do znajdowania wartości odstających w danych. IQR jest to przestrzeń danych pomiedzy 1 i 3 qwartylem. Wartości odstające są tutaj definiowane jako obserwacje, które mieszczą się poniżej Q1 - 1,5 IQR lub powyżej Q3 + 1,5 IQR. Na wykresie pudełkowym najwyższa i najniższa występująca wartość w ramach tego limitu są wskazywane przez wąsy pudełka (często z dodatkową kreską na końcu wąsa) oraz wszelkie wartości odstające jako pojedyncze punkty.
Niniejszy program ma na celu identyfikacje wartości odstających w grupach pod względem zmiennych numerycznych. Pierwszy krok algorymtu w losowej kolejności wybiera zmienną niezależną (grupującą) i zależną (numeryczną), a następnie buduje z nich wykres pudełkowy. Losowość doboru tych zmiennych w budowaniu wykresów pudełkowych ma na celu ograniczenie tendencyjności w kolejności wygładzania wartości odstających. Następnie, na podstawie identyfikacji wartośći odchylających się względem IQR są wprowadzane braki danych. Po ich identyfikacji i wstawieniu, braki te są uzupełniane techniką losowych lasów ang. random forests. Dodatkowo, jeśli zmiennych zależnych jest więcej niż dwie, to dane z pierwszej analizy wygładzania przechodzą wygładzone do następnej analizy wygładzania i następnej itd. Zaleca się ostrożność w wykorzystywaniu tej procedury.
Technika losowych lasów
Wypełnianie braków danych metodą losowych lasów zostało wykonane za pośrednictwem pakietu „missForest” z repozytorium CRAN (Stekhoven & Bühlmann, 2012) w programie R. Jest to nieparametryczna metoda, która wykorzystuje technikę losowych lasów (ang. random forests) do maksymalizacji predykcji wartości w miejscach braków danych (Breiman, 2001). Technika lasów losowych polega na losowej selekcji (ze zwracaniem) obserwacji ze wskazanego zbioru danych w celu utworzenia licznych trzew decyzyjnych (zawierających różne zmienne i obserwacje ze zbioru danych), pozwalających po agregacji na predykcję (metodą przewidywania) lub klasyfikację (metodą głosowania) zmiennych zależnych (ilościowych lub jakościowych). Technika uzupełniania braków danych oparta o metodę losowych lasów polega z grubsza na iteracyjnej realizacji 3 kroków. W pierwszym kroku ustalana jest ilość i jakość (jakościowe vs ilościowe) braków danych. W drugim, braki danych są wypełniane wartością średnią lud dominantą. W trzecim korku następuje predykcja regresyjna lub klasyfikacyjna tych braków danych metodą losowych lasów. W procedurze przwidywania wartrości w miejscach braków jest wykorzystywany cały zbiór danych. Kroki te są powtarzane do momentu zminimalizowania błędu predykcji lub klasyfikacji.
Wyniki analizy są przedstawione na serii rysunków oraz w tabalach. Rysunek przedstawia dane surowe oraz te same dane, ale wygładzone, przewidywaniem przez technikę losowych lasów. Tabela przedstawia te zestawienia w sposób tebelaryczny.
Analizę wykonano na zbiorze liczącym N = 303 obserwacji.
Zmienne w zbiorze biorące udział w przewidywaniu braków danych to: Płeć; Edukacja; Grupa badana; Licencja; Czy jeździł autem; Grupa2; Co myśli o autonomii google multi coding; Wiek; Obawy1; Obawy2; Obawy3; Obawy4; Obawy5; Cele1; Cele2; Cele3; Cele4; Cele5; Cele6; Łatwość korzystania1; Łatwość korzystania2; Łatwość korzystania3; Łatwość korzystania4; Użyteczność1; Użyteczność2; Użyteczność3; Użyteczność4; Intencja kupna1; Intencja kupna2; Intencja kupna3; Intencja kupna4; Obawy; Cele; Łatwość; Użyteczność; Intencja zakupu.
Bibliografia
Hryniewicz, K., Milewska, A. (2023). SZTOS: System Zautomatyzowanego Tworzenia Opisu Statystycznego (Wersja SZTOS) [Oprogramowanie]. https://sztos-it.com/
Breiman, L. (2001). Random Forests. Machine Learning, 45, 5–32. https://doi.org/10.1007/978-3-030-62008-0_35
Stekhoven, D. J., & Bühlmann, P. (2012). Missforest-Non-parametric missing value imputation for mixed-type data. Bioinformatics, 28(1), 112–118. https://doi.org/10.1093/bioinformatics/btr597
Rysunek nr 1
Różnice między grupami zmiennej Płeć pod względem wartości zmiennej Intencja zakupu - Dane surowe i dane po imputacji (odpowiednio górny i dolny rysunek)
Nota: Nr id = pozycja wiersza w zbiorze danych; Czerwona kropka oznacza średnią; Czerwona kreska oznacza medianę
Tabela nr 1
Obserwacje odstające dla pary zmiennych - dane surowe i po imputacji
id | Płeć | Intencja zakupu - dane surowe | Intencja zakupu - dane po imputacji |
---|---|---|---|
1 | Kobieta | 10 | 3.19 |
2 | Kobieta | -4 | 3.52 |
3 | Kobieta | 8 | 2.85 |
4 | Kobieta | 9 | 1.34 |
17 | Kobieta | 20 | 3.93 |
20 | Mężczyzna | 15 | 2.80 |
23 | Kobieta | -5 | 3.05 |
24 | Mężczyzna | -6 | 1.60 |
25 | Kobieta | -7 | 2.80 |
26 | Mężczyzna | -8 | 1.61 |
144 | Mężczyzna | 10 | 3.27 |
147 | Kobieta | -10 | 2.58 |
150 | Kobieta | 12 | 2.92 |
154 | Kobieta | 9 | 2.74 |
156 | Mężczyzna | -3 | 1.72 |
167 | Kobieta | 11 | 3.02 |
191 | Kobieta | -10 | 3.57 |
235 | Kobieta | -1 | 3.73 |
236 | Kobieta | -2 | 2.58 |
237 | Mężczyzna | -3 | 1.86 |
238 | Mężczyzna | -4 | 1.11 |
239 | Mężczyzna | -5 | 2.52 |
240 | Mężczyzna | -6 | 2.60 |
241 | Kobieta | -7 | 2.75 |
242 | Kobieta | -8 | 2.75 |
243 | Kobieta | -8 | 2.80 |
244 | Kobieta | -9 | 1.13 |
293 | Kobieta | -1 | 2.46 |
294 | Kobieta | -2 | 3.54 |
295 | Kobieta | -4 | 4.77 |
296 | Kobieta | -5 | 3.42 |
297 | Mężczyzna | 10 | 3.10 |
298 | Mężczyzna | 11 | 3.57 |
299 | Mężczyzna | 12 | 1.51 |
300 | Mężczyzna | 13 | 1.19 |
301 | Kobieta | 14 | 1.81 |
Nota: id = pozycja wiersza w zbiorze danych
Podsumowanie wierszowe obserwacji odstających w modelach regresji
Numery wierszy (obserwacji) w bazie danych które pojawiły się w analizie jako obserwacje odstające przynajmniej jeden raz, to ; c( 1,2,3,4,17,20,23,24,25,26,144,147,150,154,156,167,191,235,236,237,238,239,240,241,242,243,244,293,294,295,296,297,298,299,300,301 )