nackdelen med bootstrap (från wiki)

I wikipedia om nackdelen med bootstrap står det:

Den uppenbara enkelheten kan dölja det faktum att viktiga antaganden görs när man gör bootstrap-analysen (t.ex. oberoende av prover) där dessa mer formellt skulle anges i andra tillvägagångssätt.

Kan du snälla förklara detta uttalande?

Kommentarer

Svar

  1. Det ”s wiki, läs all wiki med ett saltkorn. Du bör lyfta en flagga som oklar, opinionsbaserad eller behöver citering för alla dessa är (delvis) sanna. Den senaste tidens tillströmning av personer i statistik som känner att breda uttalanden kan göras och papegojas utan formella bevis behöver regeras i (jag inkluderar mig själv i det uttalandet).

  2. Bootstrap kräver inte att proverna är oberoende. Det finns speciella bootstrapping-procedurer som är effektivare än en ovillkorlig bootstrap

  3. Artikeln gör den kritiska felaktigheten att sammanföra proceduren för att generera bootstrap-replikat av en dataset (som har inga antaganden alls) och erhåller bootstrap-intervall / p-värden för en teststatistik. Metoderna BCa, Quantile, Normal Percentile och Double Bootstrap är bara en delmängd av vad som finns där ute och är alla utvecklade för att utföras på redan startade replikat av studiedata. I grund och botten finns det ingen metod för att få CI: er och p-värden, och konstigheten blir mer en funktion av den valda statistiken än det är ett attribut för själva datan.

Kommentarer

  • Bootstrap kräver inte att proverna är oberoende. Jag tycker att detta bör utökas för att få ett mer användbart svar. Till exempel kluster bootstrap inte ' t kräver enskilda observationer för att vara oberoende, men det kräver kluster att vara! Blockera bootstrap för tidsserier är ett mer intressant fall, men jag ' jag är inte säker på hur ' är asymptotiskt motiverat (säger inte det ' är inte, säger bara det ' är bortom mig) . Åtminstone kräver " vanilj " bootstrap som de flesta tänker på kräver oberoende.
  • @CliffAB Jag vill hävda att det är överväganden för effektivitet, men inte nödvändigtvis för slutsats. Om du använder ovillkorlig bootstrap i ett exempel med korrelation och uppskattar GLS-parametrarna i varje delprov, blir uppskattningarna mer varierade på grund av den extra variationen i klusterstorlek, men ingen annan påverkan. Blockerad bootstrap skulle förbättra effektiviteten.
  • Jag ' är rädd att jag inte ' inte förstår din kommentar: om du ignorerade korrelationerna inom kluster och samplade enskilda enheter istället för block, skulle din bootstrap-uppskattning av standardfelet (till exempel) ha en enorm förspänning och inte vara en konsekvent uppskattning. Således skulle slutsatsen vara ogiltig.
  • @CliffAB med hjälp av en vägd bootstrap för att uppskatta varianter mellan eller inom kluster har säkert samma attraktiva egenskaper som att utföra ett viktat prov. Men jag skulle säga i ditt fall att du använder fel variansberäkare. GLS-variansuppskattaren ska användas i bootstrapped-exemplet.
  • Nu är jag ' mer förvirrad: varför skulle du använda GLS-variansuppskattaren snarare än att använda bootstrap uppskattning av standardfelen? Som referens hänvisar jag ' till att använda en kluster bootstrap för att adressera korrelerade prover, dvs. en.wikipedia.org/wiki/ …

Svar

Detta kan vara relaterat till det faktum att bootstrap ibland kan presenteras grovt som ett ”antagningsfritt” förfarande som kan användas för att ersätta andra vanliga t.ex. test när deras nödvändiga antaganden (t.ex. normalitet) inte uppfylls. Bootstrapping är emellertid endast relevant i vissa situationer som ger antaganden som också måste uppfyllas.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *