Bootstrap-prøveudtagningsmetoden er et meget simpelt koncept og er en byggesten for nogle af de mere avancerede maskinlæringsalgoritmer som AdaBoost og .gboost. Men da jeg startede min datavidenskabsrejse, kunne jeg ikke helt forstå meningen med det. Så mine mål er at forklare, hvad bootstrap-metoden er, og hvorfor det er vigtigt at vide!teknisk set er Bootstrap-prøveudtagningsmetoden en resamplingsmetode, der bruger tilfældig prøveudtagning med udskiftning.,
Må ikke bekymre dig, hvis der lød forvirrende, så lad mig forklare det med et diagram:
Antag at du har en indledende prøve med 3 observationer. Ved hjælp af Bootstrap-prøveudtagningsmetoden opretter du også en ny prøve med 3 observationer. Hver observation har en lige chance for at blive valgt (1/3). I dette tilfælde blev den anden observation valgt tilfældigt og vil være den første observation i vores nye prøve.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Det betyder, at det er meget muligt for en allerede valgt observation at blive valgt igen.
og dette er essensen af Bootstrap prøveudtagning!
betydningen af Bootstrap Sampling
fantastisk, nu forstår du, hvad bootstrap sampling er, og du ved, hvor simpelt konceptet er, men nu undrer du dig nok over, hvad der gør det så nyttigt.
det er byggestenen for mange moderne maskinlæringsalgoritmer
Når du lærer mere om maskinlæring, vil du næsten helt sikkert støde på udtrykket “bootstrap aggregating”, også kendt som “bagging”., Bagging er en teknik, der anvendes i mange ensemble machine learning algoritmer som tilfældige skove, AdaBoost, gradient boost, og .gboost.
tjek min artikel om ensemblelæring, sække og boosting.
det kan bruges til at estimere parametrene for en population
Nogle gange når du estimerer parametrene for en population (dvs.gennemsnitlig standardfejl), kan du have en prøve, der ikke er stor nok til at antage, at prøveudtagningsfordelingen normalt distribueres. I nogle tilfælde kan det også være vanskeligt at udarbejde estimatets standardfejl., I begge tilfælde kan Bootstrap sampling bruges til at løse disse problemer.
under den antagelse, at prøven er repræsentativ for populationen, udføres bootstrap-prøveudtagning for at give et skøn over prøveudtagningsfordelingen af den pågældende prøvestatistik.
dette punkt er lidt mere statistisk, så hvis du ikke forstår det, skal du ikke bekymre dig. Alt, hvad du skal forstå, er, at bootstrap-sampling tjener som grundlag for “sække”, som er en teknik, som mange maskinlæringsmodeller bruger.
tak for læsning!,
Hvis du vil lære mere grundlæggende om maskinlæring og holde dig ajour med mit indhold, kan du gøre det her.
Hvis du vil fortsætte dine læringer, så tjek min artikel om ensemble learning, bagging og boosting her.