metoda vzorkování Bootstrap je velmi jednoduchý koncept a je stavebním kamenem pro některé z pokročilejších algoritmů strojového učení, jako jsou AdaBoost a XGBoost. Nicméně, když jsem začal svou datovou vědeckou cestu,nemohl jsem úplně pochopit smysl toho. Takže mým cílem je vysvětlit, co je metoda bootstrap a proč je důležité vědět!
technicky vzato, metoda vzorkování bootstrap je metoda převzorkování, která používá náhodný odběr vzorků s výměnou.,
nebojte se, pokud to znělo neuvěřitelně, dovolte mi vysvětlit to s diagram:
Předpokládejme, že máte počáteční vzorek s 3 pozorování. Pomocí metody vzorkování bootstrap vytvoříte nový vzorek se 3 pozorováními. Každé pozorování má stejnou šanci na zvolení (1/3). V tomto případě bylo druhé pozorování vybráno náhodně a bude prvním pozorováním v našem novém vzorku.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., To znamená, že je velmi možné, aby již vybrané pozorování bylo znovu vybráno.
a to je podstata vzorkování bootstrap!
význam vzorkování Bootstrap
skvělé, nyní chápete, co je vzorkování bootstrap, a víte, jak jednoduchý je koncept, ale nyní se pravděpodobně ptáte, co je tak užitečné.
To je stavebním kamenem pro mnoho moderních algoritmů strojového učení
Jak jste se dozvědět více o strojové učení, budete téměř jistě narazíte na termín „bootstrap aggregating“, také známý jako „pytlování“., Pytlování je technika používaná v mnoha algoritmech strojového učení, jako jsou náhodné lesy, AdaBoost, gradient boost a XGBoost.
podívejte se na můj článek o ensemble learning, pytlování a posilování.
To může být použit k odhadu parametrů populace
Někdy se při odhadování parametrů populace (tj. průměr, směrodatná chyba), může mít vzorek, který není dostatečně velký, aby se předpokládat, že výběrové rozdělení je normální rozdělení. Také v některých případech může být obtížné vyřešit standardní chybu odhadu., V obou případech lze k řešení těchto problémů použít vzorkování bootstrap.
V podstatě, za předpokladu, že vzorek je reprezentativní pro populaci, bootstrap vzorků je provedena poskytnout odhad z výběrového rozdělení vzorku statistika v otázce.
tento bod je trochu statističtější, takže pokud tomu nerozumíte, nebojte se. Vše, co musíte pochopit, je, že vzorkování bootstrap slouží jako základ pro „pytlování“, což je technika, kterou používá mnoho modelů strojového učení.
Díky za čtení!,
Pokud se chcete dozvědět více základů strojového učení a zůstat v obraze s mým obsahem, můžete tak učinit zde.
Pokud chcete pokračovat ve svých učeních, podívejte se na můj článek o ensemble learning, pytlování a posilování zde.