dezavantajul bootstrap-ului (din wiki)

În Wikipedia despre dezavantajul bootstrap-ului scrie:

Simplitatea aparentă poate ascunde faptul că se fac ipoteze importante atunci când se efectuează analiza bootstrap (de exemplu, independența eșantioanelor), în cazul în care acestea ar fi menționate mai formal în alte abordări.

Ați putea, vă rog, să explicați această afirmație?

Comentarii

Răspuns

  1. wiki, citiți toate wiki cu un bob de sare. Ar trebui să ridicați un steag ca fiind neclar, bazat pe opinie sau care are nevoie de o citație, deoarece toate acestea sunt (parțial) adevărate. Afluența recentă de oameni în statistici care consideră că pot fi făcute și arogate declarații largi fără dovezi formale trebuie să fie dominată (mă includ în declarația respectivă).

  2. Bootstrap nu necesită ca eșantioanele să fie independente. Există proceduri speciale de bootstrapping care sunt mai eficiente decât un bootstrap necondiționat

  3. Articolul face eroarea critică a combinării procedurii de generare a replicilor bootstrap ale unui set de date (care are nu ipoteze) și obținerea intervalelor de boot / valori p pentru o statistică de testare. Metodele BCa, Quantile, Percentile normale și Double Bootstrap sunt doar un subset al ceea ce sunt acolo și sunt toate dezvoltate pentru a fi efectuate pe replicate deja bootstrapate ale datelor studiului. Practic, nu există o singură metodă pentru obținerea IC-urilor. și p-valori, iar ciudățenia ajunge să fie mai mult o funcție a statisticii alese decât este un atribut al datelor în sine.

Comentarii

  • Bootstrap-ul nu necesită ca eșantioanele să fie independente. Cred că acest lucru ar trebui extins pentru un răspuns mai util. De exemplu, bootstrap-ul clusterului nu ' nu necesită observații individuale pentru a fi independente, dar necesită clustere să fie! Blocarea bootstrap-ului pentru seriile de timp este un caz mai interesant, dar eu ' Nu sunt sigur cum ' este justificat asimptotic (fără a-l spune ' nu, doar spunându-l ' este dincolo de mine) . Cel puțin, bootstrap-ul " vanilie " pe care majoritatea oamenilor îl consideră nu necesită independență.
  • @CliffAB Aș susține că acestea sunt considerente pentru eficiență, dar nu neapărat pentru deducție. Dacă utilizați bootstrap necondiționat într-un eșantion cu corelație și estimați parametrii GLS în fiecare subsample, estimările devin mult mai variate datorită variabilității adăugate a dimensiunii clusterului, dar niciun alt impact. Bootstrap-ul blocat ar îmbunătăți eficiența.
  • Mi ' mă tem că nu ' vă înțeleg comentariul: dacă ați ignorat corelațiile din clustere și unități individuale eșantionate în loc de blocuri, estimarea bootstrap-ului erorii standard (de exemplu) ar avea o prejudecată imensă și nu ar fi un estimator consecvent. Astfel, inferența ar fi nevalidă.
  • @CliffAB folosind un bootstrap ponderat pentru a estima varianța între sau în interiorul clusterului are cu siguranță aceleași trăsături atractive ca și efectuarea unui eșantion ponderat. Dar aș spune în cazul dvs. că utilizați un estimator de varianță greșit. Estimatorul de varianță GLS ar trebui utilizat în eșantionul bootstrap.
  • Acum sunt ' m mai confuz: de ce ați folosi estimatorul de varianță GLS mai degrabă decât să folosiți bootstrap-ul? estimarea erorilor standard? Pentru referință, ' mă refer la utilizarea unui bootstrap de cluster pentru a aborda eșantioane corelate, adică en.wikipedia.org/wiki/ …

Răspuns

Acesta poate fi legat de faptul că bootstrap-ul poate fi uneori prezentat aproximativ ca o procedură „fără presupuneri” care poate fi utilizată pentru a înlocui alte elemente comune, de ex. teste atunci când ipotezele lor solicitate (de exemplu, normalitatea) nu sunt îndeplinite. Cu toate acestea, bootstrapping-ul este relevant numai în anumite situații care ridică ipoteze care trebuie îndeplinite.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *