Bootstrap Näytteenotto Menetelmä on hyvin yksinkertainen käsite ja on rakennuspalikka joitakin enemmän kehittyneitä koneoppimisen algoritmeja, kuten AdaBoost ja XGBoost. Mutta kun aloitin datatieteellisen matkani, en aivan ymmärtänyt asian ydintä. Joten tavoitteeni on selittää, mikä bootstrap menetelmä on ja miksi se on tärkeää tietää!
teknisesti ottaen bootstrap-näytteenottomenetelmä on resampling-menetelmä, jossa käytetään satunnaisotantaa korvaamalla.,
Älä huolestu, jos se kuulosti sekava, anna minun selittää se kaavio:
Oletetaan, että sinulla on alkuperäisen näytteen 3 havaintoja. Bootstrap-näytteenottomenetelmällä luodaan uusi näyte, jossa on myös 3 havaintoa. Jokaisella havainnolla on yhtäläiset mahdollisuudet tulla valituksi (1/3). Tällöin toinen havainto valittiin satunnaisesti ja se on ensimmäinen havainto uudessa otoksessamme.,
After choosing another observation at random, you chose the green observation.
Lastly, the yellow observation is chosen again at random. Remember that bootstrap sampling using random sampling with replacement., Tämä tarkoittaa, että on hyvin mahdollista, että jo valittu havainto valitaan uudelleen.
ja tämä on bootstrap-näytteenoton ydin!
Bootstrap-näytteenoton merkitys
suuri, nyt ymmärrät, mikä bootstrap-näytteenotto on, ja tiedät kuinka yksinkertainen konsepti on, mutta nyt varmaan mietit, mikä tekee siitä niin hyödyllisen.
Se on rakennuspalikka monet moderni kone oppimisen algoritmeja
Kun opit lisää siitä, koneoppimisen, sinun tulee lähes varmasti törmännyt termi ”bootstrap kokoamiseen”, joka tunnetaan myös nimellä ”pussitus”., Pussitus on tekniikka, jota käytetään monissa ensemble koneoppimisen algoritmeja, kuten random forests, AdaBoost, gradient boost, ja XGBoost.
Check out my article on ensemble learning, bagging, and boosting.
Sitä voidaan käyttää arvioimaan parametrit väestöstä
Joskus estimoitaessa parametrit väestöstä (eli keskiarvo, keskivirhe), sinulla voi olla näyte, joka ei ole tarpeeksi suuri, olettaa, että näytteenotto jakauma on normaalisti jakautunut. Joissakin tapauksissa voi myös olla vaikea selvittää arvion standardivirhettä., Kummassakin tapauksessa bootstrap-näytteenotto voi toimia näiden ongelmien parissa.
pohjimmiltaan, olettaen, että otos on edustava otos, bootstrap näytteenotto on suoritettu antamaan arvio näytteenoton jakautuminen otos tilastollinen kysymys.
Tämä kohta on hieman enemmän tilastollista, joten jos et ymmärrä, älä huoli. Kaikki, että sinun täytyy ymmärtää on, että bootstrap näytteenotto toimii perustana ”pussitus”, joka on tekniikka, että monet koneoppimisen malleja käyttää.
Kiitos lukemisesta!,
Jos haluat oppia lisää koneoppimisen perusteet ja pysyä ajan tasalla sisältöä, voit tehdä sen täältä.
Jos haluat jatkaa opit, check out my artikkeli kokonaisuus oppiminen, bagging ja boosting täällä.