ulempe med bootstrap (fra wiki)

I wikipedia om ulempe med bootstrap står det:

Den tilsynelatende enkelheten kan skjule det faktum at det blir gjort viktige forutsetninger når du foretar bootstrap-analysen (f.eks. uavhengighet av prøver) der disse vil være mer formelt angitt i andre tilnærminger.

Kunne du forklare denne uttalelsen?

Kommentarer

Svar

  1. Det «wiki, les all wiki med et saltkorn. Du bør heve et flagg som uklart, meningsbasert eller trenger et sitat fordi alle disse er (delvis) sanne. Den nylige tilstrømningen av mennesker i statistikk som føler at brede uttalelser kan komme og papegøyes uten formelle bevis, må regjeres i (jeg inkluderer meg selv i den uttalelsen).

  2. Bootstrap krever ikke at prøvene er uavhengige. Det er spesielle bootstrapping-prosedyrer som er mer effektive enn en ubetinget bootstrap

  3. Artikkelen gjør den kritiske feilslutningen med å samle prosedyren for å generere bootstrap-replikater av en datasett (som har ingen forutsetninger overhodet) og skaffe bootstrap-intervaller / p-verdier for en teststatistikk. Metodene BCa, Quantile, Normal Percentile og Double Bootstrap er bare en delmengde av det som er der ute, og er alle utviklet for å bli utført på allerede bootstrapped replikater av studiedataene. I utgangspunktet er det ingen metode for å få CI-er og p-verdier, og rariteten ender med å bli mer en funksjon av den valgte statistikken enn det er en attributt av selve dataene.

Kommentarer

  • Bootstrap krever ikke at prøvene er uavhengige. Jeg tror dette bør utvides for å få et mer nyttig svar. For eksempel er cluster bootstrap ikke ' t krever individuelle observasjoner for å være uavhengige, men det krever klynger å være! Blokker bootstrap for tidsserier er et mer interessant tilfelle, men jeg ' er ikke sikker på hvordan den ' er asymptotisk berettiget (sier ikke det ' er ikke, bare sier det ' er utenfor meg) . I det minste krever " vanilje " bootstrap folk flest tenker på ikke uavhengighet.
  • @CliffAB Jeg vil hevde at det er hensyn til effektivitet, men ikke nødvendigvis for slutning. Hvis du bruker ubetinget bootstrap i et utvalg med korrelasjon, og estimerer GLS-parametrene i hver delprøve, blir estimatene mer varierte på grunn av den ekstra variabiliteten i klyngestørrelse, men ingen annen innvirkning. Blokkert bootstrap vil forbedre effektiviteten.
  • Jeg ' er redd for at jeg ikke ' ikke forstår kommentaren din: hvis du ignorerte korrelasjonene innenfor klynger og utvalgte individuelle enheter i stedet for blokker, vil bootstrapestimatet ditt for standardfeilen (for eksempel) ha en enorm skjevhet og ikke være en konsekvent estimator. Dermed ville inferens være ugyldig.
  • @CliffAB ved å bruke en vektet bootstrap for å estimere mellom- eller innenklyngevariasjon har absolutt de samme attraktive egenskapene som å utføre et vektet utvalg. Men jeg vil si i ditt tilfelle at du bruker feil variansestimator. GLS-variansestimatoren skal brukes i bootstrapped-eksemplet.
  • Nå er jeg ' mer forvirret: hvorfor skulle du bruke GLS-variansestimatoren i stedet for å bruke bootstrap estimat av standardfeilene? Som referanse refererer jeg til ' til å bruke en klyngestrop for å adressere korrelerte prøver, dvs. en.wikipedia.org/wiki/ …

Svar

Dette kan være relatert til det faktum at bootstrap noen ganger kan presenteres grovt som en «antagelsesfri» prosedyre som kan brukes til å erstatte andre vanlige f.eks. tester når deres forutsetninger (f.eks. normalitet) ikke blir oppfylt. Bootstrapping er imidlertid bare relevant i visse situasjoner som reiser antagelser som også må oppfylles.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *