Il metodo di campionamento Bootstrap è un concetto molto semplice ed è un elemento costitutivo per alcuni degli algoritmi di apprendimento automatico più avanzati come AdaBoost e XGBoost. Tuttavia, quando ho iniziato il mio viaggio di scienza dei dati, non riuscivo a capire il punto di esso. Quindi i miei obiettivi sono spiegare cos’è il metodo bootstrap e perché è importante sapere!
Tecnicamente parlando, il metodo di campionamento bootstrap è un metodo di ricampionamento che utilizza il campionamento casuale con sostituzione.,
non preoccupatevi se che sembrava confuso, mi permetta di spiegare con un diagramma:
si Supponga di avere un campione iniziale con 3 osservazioni. Usando il metodo di campionamento bootstrap, creerai anche un nuovo campione con 3 osservazioni. Ogni osservazione ha la stessa probabilità di essere scelta (1/3). In questo caso, la seconda osservazione è stata scelta casualmente e sarà la prima osservazione nel nostro nuovo campione.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Ciò significa che è molto possibile che un’osservazione già scelta venga scelta di nuovo.
E questa è l’essenza del campionamento bootstrap!
Importanza del campionamento Bootstrap
Ottimo, ora capisci cos’è il campionamento bootstrap e sai quanto sia semplice il concetto, ma ora probabilmente ti starai chiedendo cosa lo rende così utile.
È il blocco di costruzione per molti moderni algoritmi di apprendimento automatico
Man mano che impari di più sull’apprendimento automatico, quasi sicuramente ti imbatterai nel termine “aggregazione di bootstrap”, noto anche come “insacco”., Insaccamento è una tecnica utilizzata in molti algoritmi di apprendimento automatico ensemble come foreste casuali, AdaBoost, gradiente boost, e XGBoost.
Dai un’occhiata al mio articolo sull’apprendimento, l’insacco e il potenziamento dell’ensemble.
Può essere usato per stimare i parametri di una popolazione
A volte quando si stimano i parametri di una popolazione (cioè media, errore standard), si può avere un campione che non è abbastanza grande da supporre che la distribuzione di campionamento sia normalmente distribuita. Inoltre, in alcuni casi, potrebbe essere difficile calcolare l’errore standard della stima., In entrambi i casi, il campionamento bootstrap può essere utilizzato per aggirare questi problemi.
In sostanza, nell’ipotesi che il campione sia rappresentativo della popolazione, il campionamento bootstrap è condotto per fornire una stima della distribuzione del campionamento della statistica del campione in questione.
Questo punto è un po ‘ più statistico, quindi se non lo capisci, non preoccuparti. Tutto ciò che devi capire è che il campionamento bootstrap serve come base per “insaccare”, che è una tecnica utilizzata da molti modelli di apprendimento automatico.
Grazie per la lettura!,
Se vuoi saperne di più fondamenti di apprendimento automatico e rimanere aggiornato con i miei contenuti, puoi farlo qui.
Se vuoi continuare i tuoi apprendimenti, dai un’occhiata al mio articolo su ensemble learning, insaccamento e potenziamento qui.