El Método de muestreo Bootstrap es un concepto muy simple y es un bloque de construcción para algunos de los Algoritmos de aprendizaje automático más avanzados como AdaBoost y XGBoost. Sin embargo, cuando comencé mi viaje de ciencia de datos, no podía entender bien el punto de la misma. Así que mis objetivos son explicar lo que el método bootstrap es y por qué es importante saber!
técnicamente hablando, el método de muestreo bootstrap es un método de remuestreo que utiliza muestreo aleatorio con reemplazo.,
no te preocupes si que sonaba confusa, me explico con un diagrama:
Supongamos que usted tiene una muestra inicial con 3 observaciones. Usando el método de muestreo bootstrap, crearás una nueva muestra con 3 Observaciones también. Cada observación tiene la misma probabilidad de ser elegida (1/3). En este caso, la segunda observación fue elegida aleatoriamente y será la primera observación en nuestra nueva muestra.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Esto significa que es muy posible que una observación ya elegida sea elegida de nuevo.
y esta es la esencia de Bootstrap sampling!
importancia del muestreo Bootstrap
genial, ahora entiendes lo que es el muestreo bootstrap, y sabes lo simple que es el concepto, pero ahora probablemente te estés preguntando qué lo hace tan útil.
es el bloque de construcción para muchos algoritmos modernos de aprendizaje automático
a medida que aprenda más sobre el aprendizaje automático, es casi seguro que encontrará el término «agregación de bootstrap», también conocido como «embolsado»., El embolsado es una técnica utilizada en muchos algoritmos de aprendizaje automático de conjuntos como random forests, AdaBoost, gradient boost y XGBoost.
echa un vistazo a mi artículo sobre ensemble learning, embolsado y boosting.
se puede utilizar para estimar los parámetros de una población
a veces, al estimar los parámetros de una población (es decir, la media, el error estándar), puede tener una muestra que no es lo suficientemente grande como para asumir que la distribución de muestreo se distribuye normalmente. Además, en algunos casos, puede ser difícil calcular el error estándar de la estimación., En cualquier caso, el muestreo bootstrap se puede utilizar para solucionar estos problemas.
en esencia, bajo el supuesto de que la muestra es representativa de la población, el muestreo bootstrap se lleva a cabo para proporcionar una estimación de la distribución muestral de la estadística muestral en cuestión.
este punto es un poco más estadístico, así que si no lo entiendes, no te preocupes. Todo lo que tiene que entender es que el muestreo bootstrap sirve como base para el «embolsado», que es una técnica que muchos modelos de aprendizaje automático utilizan.
Gracias por Leer!,
si quieres aprender más sobre los fundamentos del aprendizaje automático y mantenerte al día con mi contenido, puedes hacerlo aquí.
si quieres continuar con tus aprendizajes, echa un vistazo a mi artículo sobre ensemble learning, embolsado y boosting aquí.