metoda próbkowania Bootstrap jest bardzo prostą koncepcją i stanowi budulec dla niektórych bardziej zaawansowanych algorytmów uczenia maszynowego, takich jak AdaBoost i XGBoost. Jednak kiedy zacząłem moją podróż do nauki danych, nie mogłem do końca zrozumieć jej sensu. Dlatego moim celem jest wyjaśnienie, czym jest metoda bootstrap i dlaczego jest to ważne, aby wiedzieć!
technicznie rzecz biorąc, metoda próbkowania bootstrap jest metodą ponownego próbkowania, która wykorzystuje losowe próbkowanie z wymianą.,
nie martw się, jeśli zabrzmiało to myląco, pozwól mi wyjaśnić to diagramem:
Załóżmy, że masz początkową próbkę z 3 obserwacjami. Korzystając z metody próbkowania bootstrap, utworzysz nową próbkę z 3 obserwacjami. Każda obserwacja ma jednakową szansę na wybór (1/3). W tym przypadku druga obserwacja została wybrana losowo i będzie pierwszą obserwacją w naszej nowej próbce.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Oznacza to, że bardzo możliwe jest ponowne wybranie już wybranej obserwacji.
i to jest istota Bootstrap samplingu!
Znaczenie próbkowania Bootstrap
świetnie, teraz rozumiesz, czym jest próbkowanie bootstrap i wiesz, jak proste jest to pojęcie, ale teraz pewnie zastanawiasz się, co sprawia, że jest tak przydatne.
jest to budulec dla wielu nowoczesnych algorytmów uczenia maszynowego
gdy dowiesz się więcej o uczeniu maszynowym, prawie na pewno natkniesz się na termin „Bootstrap aggregating”, znany również jako „bagging”., Bagging jest techniką stosowaną w wielu zespołowych algorytmach uczenia maszynowego, takich jak random forests, AdaBoost, gradient boost i XGBoost.
zapoznaj się z moim artykułem na temat nauki w zespole, workowania i wspomagania.
może być używany do oszacowania parametrów populacji
czasami przy szacowaniu parametrów populacji (czyli średnia, błąd standardowy), może mieć próbkę, która nie jest wystarczająco duża, aby założyć, że rozkład próbkowania jest normalnie rozłożony. Ponadto, w niektórych przypadkach, może być trudno wypracować standardowy błąd oszacowania., W obu przypadkach próbkowanie bootstrap może być wykorzystane do obejścia tych problemów.
zasadniczo, przy założeniu, że próba jest reprezentatywna dla populacji, pobranie próbek Bootstrap jest przeprowadzane w celu zapewnienia oszacowania rozkładu pobierania próbek danych statystycznych próby.
ten punkt jest trochę bardziej statystyczny, więc jeśli go nie rozumiesz, nie martw się. Wszystko, co musisz zrozumieć, to to, że próbkowanie bootstrap służy jako podstawa do „workowania”, która jest techniką używaną przez wiele modeli uczenia maszynowego.
dzięki za przeczytanie!,
Jeśli chcesz dowiedzieć się więcej o podstawach uczenia maszynowego i być na bieżąco z moimi treściami, możesz to zrobić tutaj.
Jeśli chcesz kontynuować naukę, zajrzyj do mojego artykułu na temat ensemble learning, bagging, and boosting tutaj.