Qual é a diferença entre escores Z e valores p?

Em algoritmos de motivo de rede, parece bastante comum retornar um valor p e um Z-score para uma estatística: “A rede de entrada contém X cópias do subgráfico G”. Um subgrafo é considerado um motivo se satisfaz

  • p-value < A,
  • Z-score> B e
  • X> C, para alguns A, B e C definidos pelo usuário (ou definidos pela comunidade).

Isso motiva a pergunta:

Pergunta : Quais são as diferenças entre o valor p e o Z-score ?

E a subquestão:

Pergunta : Há situações em que o valor p e o escore Z da mesma estatística podem sugerir hipóteses opostas? A primeira e a segunda condições listadas acima são essencialmente as mesmas?

Resposta

Eu diria, com base na sua pergunta, que não há diferença entre os três testes. Isso ocorre no sentido de que você sempre pode escolher A, B e C de forma que se chegue à mesma decisão, independentemente do critério que estiver usando. Embora seja necessário que o valor p seja baseado na mesma estatística (ou seja, o Z-score)

Para usar o Z-score, a média $ \ mu $ e a variância $ \ sigma ^ 2 $ são considerados conhecidos e a distribuição é considerada normal (ou assintoticamente / aproximadamente normal). Suponha que o critério do valor p seja o usual 5%. Então temos:

$$ p = Pr (Z > z) < 0,05 \ rightarrow Z > 1,645 \ rightarrow \ frac {X- \ mu} {\ sigma} > 1,645 \ rightarrow X > \ mu + 1,645 \ sigma $$

Portanto, temos o $ triplo (0,05, 1,645, \ mu + 1,645 \ sigma) $, que representam os mesmos pontos de corte.

Observe que a mesma correspondência se aplicará ao teste t, embora os números sejam diferentes. O teste de duas caudas também terá uma correspondência semelhante, mas com números diferentes.

Comentários

  • Obrigado por isso! (e obrigado aos outros respondentes também).

Resposta

Uma pontuação de $ Z $ descreve o seu desvio da média em unidades de desvio padrão. Não é explícito se você aceita ou rejeita sua hipótese nula.

Um valor $ p $ é a probabilidade de que, sob a hipótese nula, possamos observar um ponto tão extremo quanto sua estatística. Isso diz explicitamente se você rejeita ou aceita sua hipótese nula dado um tamanho de teste $ \ alpha $.

Considere um exemplo onde $ X \ sim \ mathcal {N} (\ mu, 1) $ e o a hipótese nula é $ \ mu = 0 $. Então você observa $ x_1 = 5 $. Seu $ Z $ -score é 5 (que apenas informa o quanto você se desvia de sua hipótese nula em termos de $ \ sigma $) e seu $ p $ -valor é 5,733e-7. Para 95% de confiança, você terá um tamanho de teste $ \ alpha = 0,05 $ e, como $ p < \ alpha $, você rejeitará a hipótese nula. Mas, para qualquer estatística, deve haver alguns $ A $ e $ B $ equivalentes, de modo que os testes sejam iguais.

Comentários

  • @ Gary – um valor p não ' diz a você para rejeitar ou não mais do que um Z-score. Eles são apenas números. É apenas a regra de decisão que determina a aceitação ou rejeição. Esta regra de decisão poderia igualmente ser definida em termos de um Z-score (por exemplo, a regra $ 2 \ sigma $ ou $ 3 \ sigma $)
  • @probabilityislogic Concordo com você. Na verdade, você poderia construir algum teste com base no limite de pontuação de $ Z $, mas não permite definir explicitamente um tamanho de teste no sentido clássico (ou seja, em termos de probabilidade). Este tipo de critério pode ser problemático se a sua distribuição tiver caudas grossas. Quando você constrói um teste, você define explicitamente um tamanho de teste e, portanto, o valor $ p $ imediatamente diz se você aceita ou rejeita, que é o que eu estava tentando fazer.
  • @gary – not realmente, pois o valor p não faz referência a alternativas. Portanto, ele não pode ' ser usado para comparar alternativas diretamente. Por exemplo, tome $ H_0: \ mu = 0 $ vs $ H_A: \ mu = -1 $. O valor p para $ H_0 $ permanece o mesmo $ 5 \ vezes 10 ^ {- 7} $. Então você diz " rejeitar o " nulo, o que significa " aceitar a alternativa " e declara $ \ mu = -1 $. Mas isso é um absurdo, ninguém faria isso, mas a regra do valor p que você usa aqui faz isso.Dito de outra forma, a regra do valor p que você descreveu não é invariável em relação ao que é chamado de " hipótese nula " (resolução chegando )
  • (cont ' d) A resolução do aparente absurdo é observar que o valor p não é um " teste " absoluto, mas relativo, definido com uma hipótese alternativa implícita. Nesse caso, a alternativa implícita é $ H_ {imp}: \ mu = 5 $. Você pode ver isso observando que, se eu calcular o valor p de $ H_A $, obtenho $ 1 \ vezes 10 ^ {- 9} $, que é menor do que o valor p de $ H_0 $. Agora, neste exemplo, a " alternativa implícita " é fácil de encontrar por intuição, mas é muito mais difícil de encontrar em problemas mais complexos , onde parâmetros incômodos ou nenhuma estatística suficiente.
  • @Gary – o valor p não é mais rigoroso apenas porque é uma probabilidade. É uma transformação monotônica de 1 para 1 do Z-score. qualquer " rigor " possuído pelo valor p também é possuído pelo Z-score. Embora, se você estiver usando um teste bilateral, o equivalente é o valor absoluto do Z-score. E para comparar $ H_1: \ mu \ neq 0 $ com o nulo, você deve adotar uma abordagem " minimax ": que é escolher a hipótese precisa que é mais apoiada pelos dados e consistente com $ H_1 $. A menos que você possa demonstrar como calcular $ P (X | \ mu \ neq 1) $

Resposta

$ p $ -value indica o quão improvável a estatística é. $ z $ -score indica o quão longe da média está. Pode haver uma diferença entre eles, dependendo do tamanho da amostra.

Para grandes amostras, mesmo pequenos desvios da média tornam-se improváveis. Ou seja, o valor de $ p $ pode ser muito pequeno, mesmo para um baixo valor de $ z $. Por outro lado, para pequenas amostras, mesmo grandes desvios não são improváveis. Ou seja, um grande valor de $ z $ não significa necessariamente um pequeno valor de $ p $.

Comentários

  • se o tamanho da amostra for grande, então o desvio padrão será pequeno, portanto, o Z-score será alto. Acho que você pode descobrir isso se tentar um exemplo numérico.
  • Na verdade, não. Suponha que você faça uma amostra de N (0, 1). Então, seu padrão será cerca de 1, independentemente do tamanho da amostra. O que ficará menor é o erro padrão da média, não o desvio padrão. Os valores p são baseados no SEM, não no padrão.
  • O Z-score é (média observada) / (desvio padrão). Mas a média e o desvio padrão são da estatística observada, não da população da qual seus componentes foram extraídos. Minha terminologia frouxa foi capturada aqui. No entanto, se você estiver testando a média, o desvio padrão apropriado no Z-score é o erro padrão, que fica menor na mesma taxa que o p-value.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *