Blocați bootstrap-ul pentru un începător

Pentru a pune întrebarea mea în context, sunt fizician, dar cu o expunere limitată la statistici și ceea ce am aflat despre asta a fost peste 30 cu ani în urmă.

Încerc să aflu despre bootstrapping-ul blocurilor, deoarece această tehnică ar putea fi potrivită pentru rezolvarea unei probleme la care lucrez. Pot găsi o mulțime de lucrări / cărți / informații despre matematica blocării bootstrappingului, dar aș dori să găsesc mai întâi o descriere generică a procesului de bootstrapping a blocurilor înainte de a mă „aventura” în probleme precum bootstrappingul blocului în mișcare, bootstrappingul blocului circular, bootstrappingul blocului staționar , lungimi de blocuri, dimensiuni de eșantionare etc.

Am suprasamplat date corelate, 5 variabile (coloane) cu 10000 de observații (rânduri) pe care vreau să le reduc la aproximativ 100 de rânduri de date. Datele sunt în serie, dar nu sunt continue și ar putea exista și date din locații diferite, ceea ce înseamnă că puteți avea date diferite în același timp (dacă acesta din urmă este o problemă pentru blocarea bootstrapping-ului, aș putea elimina datele „duplicate” la timp). Blocarea bootstrapping-ului ar permite reproducerea corelației datelor.

Scopul final este de a reduce setul de date la ~ 100 de rânduri de date, astfel încât atât pdf cât și cdf ale setului de date complet și setul de date redus să fie aceleași. (într-un interval de erori minime încă de definit) pentru toate cele 5 variabile.

Întrebare: 1) Blocarea bootstrapping va putea face acest lucru? 2) Care este procesul pas cu pas realizat? Nu mă aștept ca cineva să scrie întregul proces în detaliu aici, dar poate cineva a pus acolo un videoclip YouTube sau un „bootstrapping for dummies” cu care aș putea începe.

M-am uitat la similar întrebări despre blocarea bootstrappingului aici și acolo este una despre „Resurse pentru a afla despre blocarea bootstrapului în analiza seriilor de timp”, dar referințele din răspunsuri presupun o alfabetizare statistică pe care încă trebuie să o stăpânesc.

Comentarii

Răspuns

Re-eșantionarea fără model a seriilor temporale se realizează prin eșantionarea blocurilor, numită și blocare bootstrapping, care poate fi implementată folosind funcția tsboot în pachetul de încărcare al lui R. Ideea este de a împărți seria în blocuri de lungimi aproximativ egale de observații consecutive, pentru a resample blocul cu înlocuire și apoi pentru a lipi blocurile împreună a ei. De exemplu, dacă seria temporală are lungimea 200 și una folosește 10 blocuri de lungime 20, atunci blocurile sunt primele 20 de observații, următoarele 20 și așa mai departe. Un posibil eșantionare este al patrulea bloc (observația 61 la 80), apoi ultimul bloc (observația 181 la 200), apoi al doilea bloc (observația 21 la 40), apoi al patrulea bloc din nou și așa mai departe până când există 10 blocuri în resample. Cum faceți bootstrapping-ul cu datele din seria temporală?

Comentarii

  • Ce economia explicată despre boostrapping este corectă, dar rețineți că eșantionul bootstrapped nu este utilizat pentru reducerea unui set de date la un set de date mai mic cu aceeași distribuție subiacentă. (care ai spus că este scopul tău). Bootstrapping-ul este folosit pentru testarea unor ipoteze prin crearea eșantionului bootstrapped și apoi pentru a vedea unde se încadrează statistica (cea care este testată) în ceea ce privește distribuția empirică a eșantionului bootstrapped. Deci, reducerea unui set de date la un set de date mai mic nu este scopul bstrapping-ului. ' este utilizat pentru testarea ipotezelor într-un mod liber de model.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *