svantaggio del bootstrap (da wiki)

In wikipedia sullo svantaggio del bootstrap si dice:

Lapparente semplicità può nascondere il fatto che vengono fatte importanti ipotesi quando si intraprende lanalisi bootstrap (ad esempio, indipendenza dei campioni) dove queste sarebbero più formalmente dichiarate in altri approcci.

Potresti, per favore, spiegare questa affermazione?

Commenti

Answer

  1. It “s wiki, leggi tutto il wiki con le pinze. Dovresti innalzare una bandiera come non chiaro, basato su opinioni o che necessita di una citazione perché tutte queste sono (in parte) vere. Il recente afflusso di persone nelle statistiche che ritengono che le affermazioni generali possano essere fatte e ripetute a pappagallo senza bisogno di una prova formale debba essere regnato in (includo me stesso in quella dichiarazione).

  2. non richiede che i campioni siano indipendenti. Esistono procedure di bootstrap speciali che sono più efficienti di un bootstrap incondizionato

  3. Larticolo fa lerrore critico di fondere la procedura di generazione di repliche di bootstrap di un dataset (che non ha nessun presupposto di sorta) e lottenimento di intervalli / valori p di bootstrap per una statistica di test. I metodi BCa, Quantile, Normal Percentile e Double Bootstrap sono solo un sottoinsieme di ciò che è disponibile e sono tutti sviluppati per essere eseguiti su repliche già avviate dei dati dello studio. Fondamentalmente, non esiste un metodo per ottenere CI e p-valori, e la stranezza finisce per essere più una funzione della statistica scelta che un attributo dei dati stessi.

Commenti

  • Il bootstrap non richiede che i campioni siano indipendenti. Penso che questo dovrebbe essere espanso per una risposta più utile. Ad esempio, il bootstrap del cluster non ' t richiede che le osservazioni individuali siano indipendenti, ma richiede che i cluster lo siano! Bloccare il bootstrap per le serie temporali è un caso più interessante, ma ' Non sono sicuro di come ' sia asintoticamente giustificato (non dico ', lo dico solo ' oltre me) . Per lo meno, il " vanilla " bootstrap a cui la maggior parte delle persone pensa richiede indipendenza.
  • @CliffAB Direi che si tratta di considerazioni per lefficienza, ma non necessariamente per linferenza. Se si utilizza il bootstrap incondizionato in un campione con correlazione e si stimano i parametri GLS in ogni sottocampione, le stime variano più ampiamente a causa della variabilità aggiunta nella dimensione del cluster, ma nessun altro impatto. Il bootstrap bloccato migliorerebbe lefficienza.
  • ' temo di non ' non capisco il tuo commento: se lhai ignorato le correlazioni allinterno dei cluster e delle singole unità campionate invece dei blocchi, la tua stima bootstrap dellerrore standard (ad esempio) avrebbe un enorme bias e non sarebbe uno stimatore coerente. Pertanto linferenza non sarebbe valida.
  • @CliffAB che utilizza un bootstrap ponderato per stimare la varianza tra o allinterno dei cluster ha certamente gli stessi tratti attraenti dellesecuzione di un campione ponderato. Ma nel tuo caso direi che stai usando lo stimatore della varianza sbagliato. Lo stimatore della varianza GLS dovrebbe essere usato nellesempio bootstrap.
  • Ora ' sono più confuso: perché dovresti usare lo stimatore della varianza GLS invece di usare il bootstrap stima degli errori standard? Per riferimento, ' mi riferisco allutilizzo di un bootstrap del cluster per indirizzare campioni correlati, ad esempio en.wikipedia.org/wiki/ …

Risposta

Potrebbe essere relativo al fatto che il bootstrap a volte può essere presentato approssimativamente come una procedura “priva di presupposti” che può essere utilizzata per sostituire altre comuni test quando le loro ipotesi richieste (ad esempio la normalità) non sono soddisfatte. Tuttavia, il bootstrap è rilevante solo in determinate situazioni che sollevano ipotesi che devono essere soddisfatte.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *