Bootstrap utvalgsmetode er et veldig enkelt konsept og er en byggestein for noen av de mer avanserte algoritmer for maskinlæring som AdaBoost og XGBoost. Men, når jeg startet min data realfag reise, kunne jeg ikke helt forstår poenget med det. Så mitt mål er å forklare hva bootstrap metoden er og hvorfor det er viktig å vite!
Teknisk sett, bootstrap utvalgsmetode er en resampling metode som bruker tilfeldig utvalg med tilbakelegging.,
ikke bekymre deg hvis det hørtes forvirrende, la meg forklare det med et diagram:
Tenk deg at du har en første prøve med 3 observasjoner. Ved hjelp av bootstrap sampling metoden, vil du opprette en ny prøve med 3 observasjoner som godt. Hver observasjon har en lik sjanse for å bli valgt (1/3). I dette tilfellet, den andre observasjonen ble valgt tilfeldig, og vil være den første observasjonen i vår nye prøven.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Dette betyr at det er veldig mye mulig for en allerede valgt observasjon for å bli valgt igjen.
Og dette er essensen av bootstrap prøvetaking!
Viktigheten av Bootstrap Prøvetaking
Flott, nå forstår du hva bootstrap-utvalg er, og du vet hvor enkelt konseptet er, men nå er du sannsynligvis lurer på hva som gjør det så nyttig.
Det er byggesteinen for mange moderne algoritmer for maskinlæring
Som du lærer mer om maskinlæring, vil du nesten helt sikkert kommer over begrepet «bootstrap samle inn», også kjent som «bagging»., Bagging er en teknikk som benyttes i mange ensemble algoritmer for maskinlæring som tilfeldige skoger, AdaBoost, gradient boost, og XGBoost.
Sjekk ut min artikkel på ensemble læring, bagging, og forsterke.
Det kan brukes til å estimere parametre i en befolkning
noen Ganger når estimering av parametre i en befolkning (dvs. mean, standard feil), kan du ha en prøve som ikke er store nok til å anta at den tilfeldige fordelingen er normalfordelt. Også, i noen tilfeller kan det være vanskelig å finne ut standardfeil på estimatet., I begge tilfeller, bootstrap prøvetaking kan brukes til å omgå disse problemene.
I hovedsak, under forutsetning av at prøven er representativ for befolkningen, bootstrap prøvetaking er utført for å gi et estimat for den tilfeldige fordeling av prøven statistikk i spørsmålet.
Dette punktet er litt mer statistisk, så hvis du ikke forstår det, ikke bekymre deg. Alt du trenger å forstå er at bootstrap prøvetaking fungerer som grunnlag for «bagging», som er en teknikk som mange maskinlæring modeller bruker.
Takk for at du Leser!,
Hvis du ønsker å lære mer maskinlæring grunnleggende og holde deg oppdatert med mitt innhold, kan du gjøre det her.
Hvis du ønsker å fortsette erfaringene, sjekk ut min artikkel på ensemble læring, bagging, og øke her.