Para colocar minha pergunta em contexto, sou um físico, mas com exposição limitada a estatísticas e o que aprendi sobre isso foi mais de 30 anos atrás.
Estou tentando aprender sobre bootstrap em bloco, pois essa técnica pode ser adequada para resolver um problema no qual estou trabalhando. Posso encontrar muitos artigos / livros / informações sobre a matemática de bootstrapping de bloco, mas gostaria de encontrar primeiro uma descrição genérica do processo de bootstrapping de bloco antes de “me aventurar” em questões como bootstrapping de bloco móvel, bootstrapping de bloco circular, bootstrapping de bloco estacionário , comprimentos de bloco, tamanho da amostra, etc.
Eu tenho dados correlacionados sobreamostrados, 5 variáveis (colunas) por 10.000 observações (linhas) que desejo reduzir para cerca de 100 linhas de dados. Os dados são uma série temporal, mas não contínuos e pode haver dados de diferentes locais também, o que significa que você pode ter dados diferentes ao mesmo tempo (se o último for um problema para a inicialização em bloco, eu poderia remover dados “duplicados” em tempo). O bootstrap de bloco permitiria replicar a correlação dos dados.
O objetivo final é reduzir o conjunto de dados para ~ 100 linhas de dados, de modo que tanto o pdf quanto o cdf do conjunto de dados completo e reduzido sejam os mesmos (dentro de um intervalo de erro mínimo ainda a ser definido) para todas as 5 variáveis.
Pergunta: 1) O bloqueio de bootstrap pode fazer isso? 2) Qual é o processo passo a passo que isso é feito? Não espero que ninguém escreva o processo completo em detalhes aqui, mas talvez alguém tenha colocado um vídeo do youtube ou um “bootstrapping for dummies” por aí que eu poderia começar.
Eu já observei algo semelhante perguntas sobre bootstrap de bloco aqui e há uma sobre “Recursos para aprender sobre bootstrap de bloco na análise de série temporal”, mas as referências nas respostas pressupõem um conhecimento estatístico que ainda preciso dominar.
Comentários
- Que tal esta introdução ? Ela contém uma introdução ao bootstrap e depois o bootstrap em bloco.
Resposta
A reamostragem sem modelo de séries temporais é realizada por reamostragem de bloco, também chamada de bootstrapping de bloco, que pode ser implementada usando o função tsboot no pacote de inicialização de R. A ideia é quebrar a série em blocos de comprimento aproximadamente igual de observações consecutivas, para reamostrar o bloco com substituição e, em seguida, colar os blocos juntos sua. Por exemplo, se a série temporal tem comprimento 200 e se usa 10 blocos de comprimento 20, então os blocos são as primeiras 20 observações, as próximas 20 e assim por diante. Uma possível reamostragem é o quarto bloco (observação 61 a 80), então o último bloco (observação 181 a 200), então o segundo bloco (observação 21 a 40), então o quarto bloco novamente, e assim por diante até que haja 10 blocos na reamostragem. Como você inicializa com dados de série temporal?
Comentários
- O que economia explicou que o boostrapping está correto, mas observe que a amostra bootstrapped não é usada para reduzir um conjunto de dados a um conjunto de dados menor com a mesma distribuição subjacente. (que você disse que era seu objetivo). Bootstrapping é usado para testar algumas hipóteses criando a amostra bootstrapped e então ver onde a estatística (aquela que está sendo testada) cai com relação à distribuição empírica da amostra bootstrapped. Portanto, a redução de um conjunto de dados para um conjunto de dados menor não é o objetivo do bstrapping. É ' é usado para teste de hipóteses de uma forma livre de modelo.