La méthode d’échantillonnage Bootstrap est un concept très simple et est un bloc de construction pour certains des algorithmes d’apprentissage automatique les plus avancés comme AdaBoost et XGBoost. Cependant, quand j’ai commencé mon voyage en science des données, je ne pouvais pas tout à fait comprendre le but de celui-ci. Donc, mes objectifs sont d’expliquer ce qu’est la méthode bootstrap et pourquoi il est important de savoir!
Techniquement parlant, la méthode d’échantillonnage bootstrap est une méthode de rééchantillonnage qui utilise un échantillonnage aléatoire avec remplacement.,
Ne vous inquiétez pas si cela semblait confus, laissez-moi vous expliquer avec un schéma:
Supposons que vous avez un échantillon de départ avec 3 observations. En utilisant la méthode d’échantillonnage bootstrap, vous créerez également un nouvel échantillon avec 3 observations. Chaque observation a une chance égale d’être choisie (1/3). Dans ce cas, la deuxième observation a été choisi au hasard et sera la première observation dans notre nouvel échantillon.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Cela signifie qu’il est très possible qu’une observation déjà choisie soit à nouveau choisie.
Et c’est l’essence même de l’échantillonnage bootstrap!
Importance de l’échantillonnage Bootstrap
Génial, maintenant vous comprenez ce qu’est l’échantillonnage bootstrap, et vous savez à quel point le concept est simple, mais maintenant vous vous demandez probablement ce qui le rend si utile.
C’est la pierre angulaire de nombreux algorithmes modernes d’apprentissage automatique
Au fur et à mesure que vous en apprendrez plus sur l’apprentissage automatique, vous rencontrerez presque certainement le terme « agrégation bootstrap”, également connu sous le nom de « ensachage”., L’ensachage est une technique utilisée dans de nombreux algorithmes d’apprentissage automatique d’ensemble comme les forêts aléatoires, AdaBoost, gradient boost et XGBoost.
Consultez mon article sur l’apprentissage d’ensemble, l’ensachage et le renforcement.
Il peut être utilisé pour estimer les paramètres d’une population
Parfois, lors de l’estimation des paramètres d’une population (c.-à-d. moyenne, erreur type), vous pouvez avoir un échantillon qui n’est pas assez grand pour supposer que la distribution d’échantillonnage est normalement distribuée. En outre, dans certains cas, il peut être difficile de calculer l’erreur type de l’estimation., Dans les deux cas, échantillonnage bootstrap peut être utilisé pour contourner ces problèmes.
Essentiellement, en supposant que l’échantillon est représentatif de la population, l’échantillonnage bootstrap est effectué pour fournir une estimation de la distribution d’échantillonnage de la statistique de l’échantillon en question.
Ce point est un peu plus statistique, donc si vous ne comprenez pas, ne vous inquiétez pas. Tout ce que vous devez comprendre, c’est que l’échantillonnage bootstrap sert de base à « l’ensachage”, une technique utilisée par de nombreux modèles d’apprentissage automatique.
Merci pour la Lecture!,
Si vous souhaitez en savoir plus sur les fondamentaux de l’apprentissage automatique et rester à jour avec mon contenu, vous pouvez le faire ici.
Si vous voulez continuer vos apprentissages, consultez mon article sur l’apprentissage d’ensemble, l’ensachage et le renforcement ici.