de Bootstrap Sampling methode is een zeer eenvoudig concept en is een bouwsteen voor sommige van de meer geavanceerde machine learning algoritmen zoals AdaBoost en XGBoost. Echter, toen ik mijn data science-reis begon, kon ik het nut ervan niet helemaal begrijpen. Dus mijn doelen zijn om uit te leggen wat de bootstrap methode is en waarom het belangrijk is om te weten!
technisch gesproken is de Bootstrap sampling methode een resampling methode die willekeurige sampling met vervanging gebruikt.,
Maak je geen zorgen als dat klonk verwarrend, laat me het uitleggen met een diagram:
Stel je hebt een eerste voorbeeld met 3 opmerkingen. Met behulp van de bootstrap sampling methode, zult u een nieuwe sample met 3 observaties ook. Elke waarneming heeft een gelijke kans om te worden gekozen (1/3). In dit geval werd de tweede waarneming willekeurig gekozen en zal de eerste waarneming in onze nieuwe steekproef zijn.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Dit betekent dat het heel goed mogelijk is om een reeds gekozen waarneming opnieuw te kiezen.
en dit is de essentie van bootstrap sampling!
belang van Bootstrap Sampling
geweldig, nu begrijp je wat bootstrap sampling is, en je weet hoe eenvoudig het concept is, maar nu vraag je je waarschijnlijk af wat het zo nuttig maakt.
het is de bouwsteen voor veel moderne machine learning algoritmen
naarmate u meer leert over machine learning, zult u vrijwel zeker de term “bootstrap aggregating” tegenkomen, ook bekend als “bagging”., Bagging is een techniek die wordt gebruikt in veel ensemble machine learning algoritmen zoals random forests, AdaBoost, gradiënt boost, en XGBoost.
bekijk mijn artikel over ensemble leren, bagging en boosting.
het kan worden gebruikt om de parameters van een populatie te schatten
soms kunt u bij het schatten van de parameters van een populatie (d.w.z. gemiddelde, standaardfout) een steekproef hebben die niet groot genoeg is om aan te nemen dat de steekproefverdeling normaal wordt verdeeld. Ook kan het in sommige gevallen moeilijk zijn om de standaardfout van de schatting uit te werken., In beide gevallen, bootstrap sampling kan worden gebruikt om te werken rond deze problemen.
in wezen wordt, in de veronderstelling dat de steekproef representatief is voor de populatie, bootstrapbemonstering uitgevoerd om een schatting te geven van de steekproefverdeling van de desbetreffende steekproefstatistiek.
dit punt is iets meer statistisch, dus als je het niet begrijpt, maak je geen zorgen. Alles wat je moet begrijpen is dat bootstrap sampling dient als basis voor “bagging”, een techniek die veel machine learning modellen gebruiken.
Bedankt voor het lezen!,
Als u meer Machine learning fundamentals wilt leren en op de hoogte wilt blijven van mijn inhoud, kunt u dit hier doen.
als je verder wilt leren, bekijk dan mijn artikel over ensemble learning, bagging en boosting hier.