O que a variação agrupada “ realmente ” significa?

Eu sou um novato em estatística, então vocês poderiam me ajudar aqui.

Minha pergunta é a seguinte: O que significa variância combinada realmente significa?

Quando procuro uma fórmula para variância combinada na Internet, encontro muita literatura usando a seguinte fórmula (por exemplo, aqui: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ begin {equation} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {equation}

Mas o que faz realmente calcular? Porque quando eu uso esta fórmula para calcular minha variância combinada, ela me dá uma resposta errada.

Por exemplo, considere estes “amostra pai”:

\ begin {equation} \ label { eq: amostra parental} 2,2,2,2,2,8,8,8,8,8 \ end {equation}

A variância desta amostra parente é $ S ^ 2_p = 10 $, e sua média é $ \ bar {x} _p = 5 $.

Agora, suponha que eu divida esta amostra pai em duas subamostras:

  1. A primeira subamostra é 2,2,2,2,2 com $ \ média bar {x} _1 = 2 $ e variação $ S ^ 2_1 = 0 $.
  2. A segunda subamostra é 8,8,8,8,8 com média $ \ bar {x} _2 = 8 $ e variância $ S ^ 2_2 = 0 $.

Agora, claramente, usar a fórmula acima para calcular a variância combinada / pai dessas duas subamostras produzirá zero, porque $ S_1 = 0 $ e $ S_2 = 0 $. Então, o que essa fórmula realmente calcula?

Por outro lado, após algumas derivações demoradas, descobri que a fórmula que produz a variância combinada / pai correta é:

\ begin {equation} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {equation}

Na fórmula acima, $ d_1 = \ bar {x_1} – \ bar {x} _p $ e $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

Encontrei uma fórmula semelhante com a minha, por exemplo aqui: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html e também na Wikipedia. Embora eu tenha que admitir que eles não se parecem exatamente com os meus.

Então, novamente, o que a variância combinada realmente significa? Não deveria significar a variância da amostra original das duas subamostras ? Ou estou completamente errado aqui?

Agradeço antecipadamente.


EDIT 1: Alguém disse que minhas duas subamostras acima são patológicas, pois têm variância zero. Bem, eu poderia te dar um exemplo diferente. Considere esta amostra pai:

\ begin {equation} \ label {eq: Parentsample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}

A variação desta amostra pai é $ S ^ 2_p = 564,7 $, e sua média é $ \ bar {x} _p = 25,5 $.

Agora, suponha que eu divida esta amostra pai em duas subamostras:

  1. A primeira subamostra é 1,2,3,4,5 com $ \ médio bar {x} _1 = 3 $ e variação $ S ^ 2_1 = 2,5 $.
  2. A segunda subamostra é 46,47,48,49,50 com média $ \ bar {x} _2 = 48 $ e variância $ S ^ 2_2 = 2,5 $.

Agora, se você usar a “fórmula da literatura” para calcular a variância combinada, obterá 2,5, o que é completamente errado, porque a variância pai / agrupada deve ser 564,7. Em vez disso, se você usar “minha fórmula”, obterá a resposta correta.

Entenda, eu uso exemplos extremos aqui para mostrar às pessoas que a fórmula realmente está errada. Se eu usar “dados normais” que não têm muitas variações (casos extremos), então os resultados dessas duas fórmulas serão muito semelhantes, e as pessoas podem descartar a diferença devido ao erro de arredondamento, não porque a fórmula em si é errado.

Comentários

Resposta

Simplificando, a variância combinada é uma estimativa (imparcial) da variância dentro de cada amostra, sob a suposição / restrição de que essas variâncias são iguais.

Isso é explicado, motivado e analisado com alguns detalhes na entrada da Wikipedia para variação combinada .

Sim não estimar a variância de uma nova” meta-amostra “formada pela concatenação das duas amostras individuais, como você supôs. Como você já descobriu, estimar isso requer uma fórmula completamente diferente.

Comentários

  • A suposição de ” igualdade ” (isto é, a mesma população percebeu essas amostras) não é necessário em geral para definir o que é – ” agrupado “. Pooled simplesmente significa média, omnibus (veja meu comentário para Tim).
  • @ttnphns Acho que a suposição de igualdade é necessária para dar à variância combinada um significado conceitual (que o OP pediu) que vai além de apenas verbalmente descrevendo a operação matemática que realiza nas variações da amostra. Se as variâncias da população não forem consideradas iguais, então ‘ não está claro o que poderíamos considerar a variância combinada como uma estimativa. Claro, poderíamos apenas pensar nisso como um amálgama das duas variações e deixar por isso mesmo, mas que ‘ dificilmente é esclarecedor na ausência de qualquer motivação para querer combinar as variações em primeiro lugar.
  • Jake, eu ‘ não discordo disso, dada a questão específica do OP, mas gostaria de falar sobre definição da palavra ” agrupada “, que ‘ é por isso que eu disse, ” em geral “.
  • @JakeWestfall Sua resposta é a melhor resposta até agora. Obrigada. Embora eu ainda não esteja certo sobre uma coisa. De acordo com a Wikipedia, a variância combinada é um método para estimar a variância de várias populações diferentes quando a média de cada população pode ser diferente , mas pode-se supor que a variância de cada população é o mesmo .
  • @JakeWestfall: Então, se estamos calculando a variância combinada de duas populações diferentes com médias diferentes, o que ele realmente calcula? Porque a primeira variância mede a variação em relação à primeira média e a segunda variância em relação à segunda média. Não ‘ não sei quais informações adicionais podem ser obtidas com o cálculo.

Resposta

A variância combinada é usada para combinar as variâncias de diferentes amostras, tomando sua média ponderada, para obter a variância “geral”. O problema do seu exemplo é que se trata de um caso patológico, pois cada uma das subamostras tem variância igual a zero. Esse caso patológico tem muito pouco em comum com os dados que costumamos encontrar, uma vez que sempre há alguma variabilidade e se não houver variabilidade, não nos importamos com essas variáveis, pois elas não trazem nenhuma informação. É preciso notar que se trata de um método muito simples e há maneiras mais complicadas de estimar a variação em estruturas de dados hierárquicas que não são propensas a tais problemas.

Quanto ao seu exemplo na edição, mostra que é importante declarar claramente suas suposições antes de iniciar a análise. Digamos que você tenha $ n $ pontos de dados em $ k $ grupos, nós o denotaríamos como $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, onde o $ i $ -ésimo índice em $ x_ {i, j} $ representa casos e $ j $ -ésimo índice significa índices de grupo. Existem vários cenários possíveis, você pode assumir que todos os pontos vêm da mesma distribuição (para simplificar, vamos assumir a distribuição normal),

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

você pode assumir que cada uma das subamostras tem sua própria média

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

ou, sua própria variância

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

ou, cada um deles tem seus próprios parâmetros distintos

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

Dependendo de suas suposições, um método específico pode, ou pode não ser adequado para analisar os dados.

No primeiro caso, você não estaria interessado em estimar as variâncias dentro do grupo, já que você assumiria que todas são iguais. No entanto, se você agregar a variância global das variâncias do grupo, obterá o mesmo resultado que usar a variância combinada, pois a definição de variância é

$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

e no estimador agrupado você primeiro multiplica por $ n-1 $, então some e finalmente divide por $ n_1 + n_2 – 1 $.

No segundo caso, as médias diferem, mas você tem uma variação comum. Este exemplo está mais próximo do seu exemplo na edição. Neste cenário, a variância combinada estimaria corretamente a variância global, enquanto se a variância estimada em todo o conjunto de dados, você obteria resultados incorretos, uma vez que não estava contabilizando o fato de que os grupos têm médias diferentes .

No terceiro caso, não faz sentido estimar a variância “global”, pois você assume que cada um dos grupos tem sua própria variância.Você pode ainda estar interessado em obter a estimativa para toda a população, mas, nesse caso, (a) calcular as variâncias individuais por grupo e (b) calcular a variância global de todo o conjunto de dados, pode fornecer resultados enganosos . Se você está lidando com este tipo de dados, deve pensar em usar um modelo mais complicado que leve em consideração a natureza hierárquica dos dados.

O quarto caso é o mais extremo e bastante semelhante ao anterior. Nesse cenário, se você quisesse estimar a média e a variância globais, precisaria de um modelo diferente e de um conjunto diferente de suposições. Nesse caso, você assumiria que seus dados são de estrutura hierárquica e, além das médias e variações dentro do grupo, há uma variação comum de nível superior, por exemplo, assumindo o seguinte modelo

$$ \ começar {alinhar} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

onde cada amostra tem seus próprios meios e variações $ \ mu_j, \ sigma ^ 2_j $ que são eles próprios extraídos de distribuições comuns. Nesse caso, você usaria um modelo hierárquico que leva em consideração a variabilidade de nível inferior e superior. Para ler mais sobre esse tipo de modelo, você pode verificar o livro Análise de dados Bayesiana de Gelman et al. e seu exemplo de oito escolas . No entanto, este é um modelo muito mais complicado do que o estimador de variância combinada simples.

Comentários

  • Eu atualizei minha pergunta com um exemplo diferente. Nesse caso, a resposta da ” literatura ‘ fórmula ” ainda está errada. Eu entendo que normalmente estamos lidando com ” dados normais ” onde não há nenhum caso extremo como meu exemplo acima. No entanto, como matemáticos, você não deve ‘ se preocupar com qual fórmula é realmente correta, em vez de qual fórmula se aplica ao ” problema cotidiano / comum “? Se alguma fórmula estiver fundamentalmente errada, ela deve ser descartada, especialmente se houver outra fórmula que seja válida em todos os casos, patológicos ou não.
  • A propósito, você disse que existem maneiras mais complicadas de estimar a variância. Você poderia me mostrar esses caminhos? Obrigado
  • Tim, a variância agrupada não é a variação total da ” amostra combinada “. Em estatísticas, ” agrupado ” significa média ponderada (quando falamos de quantidades médias, como variações, pesos sendo os n ‘ s) ou apenas somados (quando falamos de somas como dispersões, somas de quadrados) . Por favor, reconsidere sua terminologia (escolha de palavras) na resposta.
  • Embora fora do tópico atual, aqui está uma pergunta interessante sobre ” comum ” conceito de variância. stats.stackexchange.com/q/208175/3277
  • Hanciong. Insisto em que ” agrupado ” em geral e até mesmo especificamente ” variância agrupada ” o conceito não precisa, em geral, de qualquer suposição como: os grupos vieram de populações com variâncias iguais. O agrupamento é simplesmente uma combinação (média ponderada ou soma). É em ANOVA e circunstâncias semelhantes que adicionamos essa suposição estatística.

Resposta

O problema é se você apenas concatena as amostras e estima sua variância, você está assumindo que elas são da mesma distribuição, portanto, têm a mesma média. Mas, em geral, estamos interessados em várias amostras com médias diferentes. Isso faz sentido?

Resposta

O caso de uso de variância combinada é quando você tem duas amostras de distribuições que:

  • pode ter meios diferentes, mas
  • que você espera ter uma variação verdadeira igual.

Um exemplo disso é uma situação em que você mede o comprimento do nariz de Alice $ n $ vezes para uma amostra e mede o comprimento do nariz de Bob $ m $ vezes para a segunda. É provável que eles produzam um monte de medições diferentes na escala de milímetros, devido ao erro de medição. Mas você espera que a variância no erro de medição seja a mesma, independentemente do nariz medido.

Nesse caso, obter a variância combinada forneceria uma estimativa melhor da variância no erro de medição do que tirar a variância de uma amostra sozinha.

Comentários

  • Obrigado por sua resposta, mas ainda não ‘ não entendo sobre uma coisa . Os primeiros dados fornecem a variação em relação ao comprimento do nariz de Alice ‘ e os segundos dados fornecem a variação em relação a Bob ‘ s comprimento do nariz. Se você está calculando uma variação combinada a partir desses dados, o que isso significa realmente? Porque a primeira variação está medindo a variação em relação a Alice ‘ s, e a segunda em relação a Bob ‘ s, então qual informações que podemos obter calculando sua variância combinada? Eles são números completamente diferentes.

Resposta

Por meio da variância combinada, não estamos tentando estimar a variância de um amostra maior, usando amostras menores. Portanto, os dois exemplos que você deu não se referem exatamente à pergunta.

A variância combinada é necessária para obter uma estimativa melhor da variância da população a partir de duas amostras que foram retiradas aleatoriamente dessa população e surgem com diferentes estimativas de variação.

Por exemplo, você está tentando medir a variação nos hábitos de fumar dos homens em Londres. Você faz a amostragem duas vezes, 300 homens de Londres. Você acaba obtendo duas variações (provavelmente um pouco diferentes !). Agora, uma vez que você fez uma amostragem aleatória razoável (o melhor para sua capacidade! Já que a amostragem aleatória verdadeira é quase impossível), você tem todo o direito de dizer que ambas as variâncias são estimativas pontuais verdadeiras da variância da população (homens de Londres neste caso).

Mas como isso é possível? ou seja, duas estimativas pontuais diferentes !! Assim, vamos em frente e encontramos uma estimativa pontual comum que é a variância combinada. Não é nada além da média ponderada de duas estimativas pontuais onde os pesos são o grau de liberdade associado a cada amostra.

Espero que isso esclareça.

Resposta

Embora eu esteja muito atrasado para a conversa, talvez eu possa adicionar algo útil:
Parece-me que o OP deseja saber por que (para quê) precisaríamos de uma estimativa de variabilidade combinada $ \ hat \ sigma_ {pooled} $ como uma média ponderada de duas amostras (ser (variância ou desvio padrão).

Tanto quanto eu sei, a principal prática necessidade disso tipo de medida de dispersão surge de querer comparar médias de (sub) grupos: então, se eu quiser comparar o comprimento médio do nariz para 1) pessoas que não foram submetidas a terapia genética, 2) pessoas que foram submetidas a terapia genética A e 3) pessoas que se submeteram à terapia genética B.
Para poder comparar melhor a quantidade das diferenças médias de comprimento (mm), divido a diferença média, digamos, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ pela estimativa de variabilidade (aqui devi padrão ação). Dependendo do tamanho da raiz quadrada da variância combinada (desvio padrão combinado), podemos avaliar melhor o tamanho da diferença de 2 mm entre esses grupos (por exemplo, $ d = 2 mm / 0,5 mm = 4 $ vs. $ d = 2mm / 4mm = 0,5 $ – > A terapia genética A faz algo até o comprimento do nariz? E se sim, quanto? Quando $ d = 4 $ ou $ 2 \ pm 0,5 mm $ parece haver um ” estável ” ou ” consistente ” ou ” big ” (em comparação com a variabilidade) diferença entre os comprimentos médios do nariz, quando $ d = 0.5 $ ou $ 2 \ pm 4mm $ não parece tanto, relativamente falando. caso todos os valores dentro de ambos os grupos sejam iguais e, portanto, não há variabilidade com nos grupos, $ d $ não seria definido, mas a interpretação seria $ 2 \ pm 0mm = 2mm $ exatamente).
Esta é a idéia de tamanho do efeito (teoricamente introduzida por Neyman e Pearson, até onde eu sei, mas em um tipo ou outro usado bem antes, ver Stigler, 1986 , por exemplo).
Portanto, o que estou fazendo é comparar a diferença média entre os grupos com as diferenças médias dentro desses mesmos grupos, isto é, média ponderada das variâncias (desvios-padrão). Isso faz mais sentido do que comparar a diferença média entre (sub) grupos com a diferença média dentro do grupo ” inteiro “, porque , como você (Hanciong) mostrou, a variância (e o desvio padrão) de todo o grupo também contém a (s) diferença (ões) das médias do grupo.

A necessidade teórica da medida surge da capacidade de usar a $ t $ -distribuição para encontrar a probabilidade para a diferença média observada ou uma mais extrema, dado algum valor esperado para a diferença média (valor de p para, por exemplo, Teste de significância de hipótese nula , NHST, ou teste de hipótese de Neyman-Pearson ou teste de hipótese de Fisher, intervalos de confiança etc.): $ p (e \ ge e_ {observado} | \ mu_e = 0) $ .
Pelo que eu sei, o valor p obtido pela $ t $ -distribuição (e especialmente pelo $ F $ -distribuição em casos com mais de 2 meios para comparar) dará estimativas corretas para a probabilidade somente quando ambas (ou todas) as amostras são retiradas de populações com variâncias iguais (homogeneidade de variância, como apontado nas outras respostas já; isso deve ser descrito em (mais) detalhes em m maioria dos livros de estatística). Acho que todas as distribuições são baseadas na distribuição normal ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) assume uma variação de mais de 0 e menos de $ \ infty $ , então seria impossível encontrar o valor p para um caso com uma variabilidade dentro de 0 (neste caso, você obviamente não presumiria que extraiu sua amostra de uma distribuição normal).
(Isso também parece intuitivamente razoável: se eu quiser para comparar dois ou mais meios, então a precisão desses meios deve ser a mesma ou pelo menos comparável:
se eu executar minha terapia genética A em pessoas cujo comprimento do nariz é bastante semelhante, digamos $ \ bar x \ pm 0,5 mm $ , mas tenho um grupo de pessoas com alta variabilidade no comprimento do nariz em meu grupo de controle, digamos $ \ bar x \ pm 4mm $ não parece justo comparar diretamente esses meios, porque esses meios não têm o mesmo ” significado médio “; na verdade, a variação / desvio padrão muito maior em meu grupo de controle pode estar indicando outros subgrupos, talvez diferenças no comprimento do nariz devido a diferenças em algum gene.)

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *