För att sätta min fråga i sitt sammanhang är jag fysiker men med begränsad exponering för statistik och vad jag har lärt mig om det var över 30 för flera år sedan.
Jag försöker lära mig om block bootstrapping eftersom den tekniken kan vara lämplig för att lösa ett problem jag arbetar med. Jag kan hitta massor av papper / böcker / info om matematiken för block bootstrapping men jag vill först hitta en generisk beskrivning av processen för block bootstrapping innan jag ”vågar” in i frågor som rörande block bootstrapping, cirkulär block bootstrapping, stationär block bootstrapping , blocklängder, samplingsstorlek etc.
Jag har överproverat korrelerade data, 5 variabler (kolumner) med 10000 observationer (rader) som jag vill minska till cirka 100 rader med data. Data är en tidsserie, men inte kontinuerlig och det kan finnas data från olika platser i den också, vilket innebär att du kan ha olika data samtidigt (om den senare är ett problem för block bootstrapping, skulle jag kunna ta bort ”duplicerade” data i tid). Blockera bootstrapping skulle göra det möjligt att replikera korrelationen av data.
Det ultimata målet är att minska datasetet till ~ 100 rader med data så att både pdf och cdf för hela datasetet och det reducerade datasetet är desamma (inom ett fortfarande definierat minimifelområde) för alla 5 variabler.
Fråga: 1) Kommer block bootstrapping att kunna göra detta? 2) Vilken är steg-för-steg-processen detta görs? Jag förväntar mig inte att någon skriver hela processen i detalj här, men kanske har någon lagt ut en youtube-video eller en ”bootstrapping for dummies” där som jag kan börja med.
Jag har tittat på liknande frågor om block bootstrapping här och det finns en om ”Resurser för att lära dig mer om block bootstrap i tidsserieanalys”, men referenser i svaren antar en statistisk läskunnighet som jag fortfarande måste behärska.
Kommentarer
- Vad sägs om den här introduktionen ? Den har en introduktion till bootstrap och sedan block bootstrap.
Svar
Modellfri omprovning av tidsserier åstadkommes genom blockomprovning, även kallad block bootstrapping, som kan implementeras med hjälp av tsboot-funktionen i R: s startpaket. Tanken är att dela upp serien i ungefär lika långa block av på varandra följande observationer, att återprova blocket med utbyte och sedan klistra in blocken tillsammans henne. Till exempel, om tidsserien är av längd 200 och man använder 10 block av längd 20, så är blocken de första 20 observationerna, nästa 20 och så vidare. Ett möjligt återprov är det fjärde blocket (observation 61 till 80), sedan det sista blocket (observation 181 till 200), sedan det andra blocket (observation 21 till 40), sedan det fjärde blocket igen och så vidare tills det finns 10 block i samplet. Hur gör du bootstrapping med tidsseriedata?
Kommentarer
- Vad economia förklarade om boostrapping är korrekt men notera att bootstrapped-samplet inte används för att reducera en dataset till en mindre datamängd med samma underliggande distribution. (som du sa var ditt mål). Bootstrapping används för att testa en del hypoteser genom att skapa bootstrapped samplet och sedan se var statistiken (den som testas) faller med avseende på den empiriska fördelningen av bootstrapped samplet. Så, minskning av en datamängd till en mindre datamängd är inte målet att bstrappa. Det ' används för hypotesprovning på ett modellfritt sätt.