provtagningsmetoden Bootstrap är ett mycket enkelt koncept och är ett byggsten för några av de mer avancerade maskininlärningsalgoritmerna som AdaBoost och XGBoost. Men när jag började min data science resa, jag kunde inte riktigt förstå poängen med det. Så mina mål är att förklara vad bootstrap-metoden är och varför det är viktigt att veta!
tekniskt sett är Bootstrap samplingsmetoden en omsamplingsmetod som använder slumpmässig provtagning med ersättning.,
oroa dig inte om det lät förvirrande, låt mig förklara det med ett diagram:
Antag att du har ett första prov med 3 observationer. Med hjälp av Bootstrap samplingsmetoden skapar du ett nytt prov med 3 observationer också. Varje observation har lika stor chans att väljas (1/3). I det här fallet valdes den andra observationen slumpmässigt och kommer att vara den första observationen i vårt nya prov.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Det innebär att det är mycket möjligt att en redan vald observation väljs igen.
och detta är kärnan i Bootstrap sampling!
betydelsen av Bootstrap Sampling
bra, nu förstår du vad Bootstrap sampling är, och du vet hur enkelt konceptet är, men nu undrar du förmodligen vad som gör det så användbart.
det är byggstenen för många moderna maskininlärningsalgoritmer
När du lär dig mer om maskininlärning kommer du nästan säkert över termen ”bootstrap aggregating”, även känd som ”säckväv”., Säckväv är en teknik som används i många ensemble maskininlärningsalgoritmer som slumpmässiga skogar, AdaBoost, gradient boost och XGBoost.
kolla in min artikel om ensemble lärande, säckväv, och öka.
det kan användas för att uppskatta parametrarna för en population
Ibland när du beräknar parametrarna för en population (dvs. medelvärde, standardfel) kan du ha ett prov som inte är tillräckligt stort för att anta att provtagningsfördelningen normalt distribueras. I vissa fall kan det också vara svårt att utarbeta standardfelet i uppskattningen., I båda fallen kan Bootstrap-provtagning användas för att kringgå dessa problem.
under antagandet att provet är representativt för befolkningen utförs bootstrap-provtagning för att ge en uppskattning av provtagningsfördelningen av provstatistiken i fråga.
denna punkt är lite mer statistisk, så om du inte förstår det, oroa dig inte. Allt du behöver förstå är att bootstrap sampling tjänar som grund för ”säckväv” vilket är en teknik som många maskininlärningsmodeller använder.
Tack för att du läste!,
om du vill lära dig mer grundläggande maskininlärning och hålla dig uppdaterad med mitt innehåll kan du göra det här.
om du vill fortsätta dina lärdomar, kolla in min artikel om ensemble learning, säckväv, och öka här.