Qual é o significado dos valores p e dos valores t nos testes estatísticos?

Depois de fazer um curso de estatística e tentar ajudar outros alunos, percebi que um assunto que inspira muita agitação é a interpretação dos resultados de testes de hipóteses estatísticas . Parece que os alunos aprendem facilmente a realizar os cálculos exigidos por um determinado teste, mas ficam presos na interpretação dos resultados. Muitas ferramentas computadorizadas relatam os resultados dos testes em termos de “valores p” ou “valores t”.

Como você explicaria os seguintes pontos para estudantes universitários que estão fazendo seu primeiro curso de estatística:

  • O que significa um “valor p” em relação à hipótese que está sendo testada? Existem casos em que se deve procurar um valor p alto ou um valor p baixo?

  • Qual é a relação entre um valor p e um valor t?

Comentários

  • Uma boa parte disso é basicamente coberta pela primeira frase do artigo da Wikipedia sobre valores p , que define corretamente um valor p. Se isso ‘ for entendido, muito ficará claro.
  • Basta pegar o livro: Estatísticas sem lágrimas. Isso pode salvar sua sanidade!
  • @ user48700 Você poderia resumir como Statistics Without Tears explica isso?
  • Alguém deveria desenhar um gráfico de p-valor relacionado perguntas ao longo do tempo e aposto que ‘ veremos a sazonalidade e a correlação com calendários acadêmicos em faculdades ou aulas de ciência de dados do Coursera
  • Além de outro livro bom e relevante recomendações nas respostas e comentários, gostaria de sugerir outro livro, apropriadamente chamado ” O que é um valor p, afinal? ” .

Resposta

Compreendendo $ p $ -value

Suponha que você queira testar a hipótese de que a altura média dos alunos do sexo masculino em sua universidade é $ 5 $ ft $ 7 $ polegadas. Você coleta alturas de $ 100 $ alunos selecionados aleatoriamente e calcula a média da amostra (digamos que seja $ 5 $ ft US $ 9 $ polegadas). Usando uma fórmula / rotina estatística apropriada, você calcula o $ p $ -valor para sua hipótese e diz que é $ 0,06 $ .

Para interpretar $ p = 0,06 $ apropriadamente, devemos ter várias coisas em mente:

  1. A primeira etapa do teste de hipótese clássica é a suposição de que a hipótese em consideração é verdadeira. (Em nosso contexto, presumimos que a true altura média é $ 5 $ ft $ 7 $ polegadas.)

  2. Imagine fazer o seguinte cálculo: Calcule a probabilidade de que a média da amostra é maior que $ 5 $ pés $ 9 $ polegadas, supondo que nossa hipótese esteja de fato correta (consulte o ponto 1) .

Em outras palavras, queremos saber $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {polegadas} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { polegadas}). $$

O cálculo na etapa 2 é o que é chamado de $ p $ -valor. Portanto, um $ p $ -valor de $ 0,06 $ significaria que se repetíssemos nosso experimento muitos , muitas vezes (cada vez que selecionamos $ 100 $ alunos aleatoriamente e calculamos a média da amostra), então $ 6 $ vezes fora de $ 100 $ , podemos esperar ver uma média de amostra maior ou igual a $ 5 $ pés $ 9 $ polegadas.

Dado o entendimento acima, devemos ainda manter nossa suposição de que nossa hipótese é verdadeira (consulte a etapa 1)? Bem, um $ p = 0,06 $ indica que uma de duas coisas aconteceu:

  • (A) Ou nossa hipótese está correta e um evento extremamente improvável ocorreu (por exemplo, todos os $ 100 $ alunos são estudantes atletas)

ou

  • (B) Nossa suposição está incorreta e a amostra que obtivemos não é tão incomum.

A maneira tradicional de escolher entre (A) e (B) é escolher um corte para $ p $ . Escolhemos (A) se $ p > 0.05 $ e (B) if $ p < 0,05 $ .

Comentários

  • Não tenha pressa! Não estarei ‘ pensando em selecionar uma ” Melhor resposta ” por uma semana ou então.
  • Agora que eu ‘ tive a chance de voltar e ler a resposta inteira – um grande +1 para o exemplo da altura do aluno. Muito claro e bem definido.
  • Bom trabalho … mas precisamos adicionar (C) nosso modelo (incorporado na fórmula / rotina estatística) está errado.
  • A t -valor (ou qualquer outra estatística de teste) é principalmente uma etapa intermediária. É ‘ basicamente alguma estatística que foi comprovada, sob algumas suposições, ter uma distribuição bem conhecida. Como sabemos a distribuição da estatística de teste sob o valor nulo, podemos usar tabelas padrão (hoje principalmente software) para derivar um valor p.
  • Isn ‘ t o valor de p derivado como resultado de fazer o teste do qui-quadrado e depois da tabela do qui-quadrado? Estou me perguntando como a probabilidade calculada acima indica o valor p em si ?!

Resposta

Um diálogo entre um professor e um aluno atencioso

Humildemente submetido na crença de que não foram usados lápis de cera suficientes até agora neste tópico. Uma breve sinopse ilustrada aparece no final.


Aluno : O que significa um valor p? Muitas pessoas parecem concordar que “é a chance de ” ver uma média de amostra maior ou igual a ” uma estatística ou “s ” a probabilidade de observar esse resultado. .. dado que a hipótese nula é verdadeira ” ou onde ” A estatística de minha amostra caiu em [uma simulação] distribuição ” e até ” a probabilidade de observar uma estatística de teste pelo menos tão grande quanto a calculada assumindo a hipótese nula é verdadeira ” .

Professor : Entendido corretamente, todas essas afirmações estão corretas em muitas circunstâncias.

Aluno : Não vejo como a maioria delas é relevante. Você não nos ensinou que temos que declarar uma hipótese nula $ H_0 $ e uma hipótese alternativa $ H_A $ ? Como eles estão envolvidos nessas ideias de ” maior ou igual a ” ou ” pelo menos tão grande ” ou o muito popular ” mais extremo “?

Professor : Como pode parecer complicado em geral, seria útil explorarmos um exemplo concreto?

Aluno : Claro. Mas, se possível, torne-o realista, mas simples.

Professor : essa teoria de teste de hipóteses historicamente começou com a necessidade dos astrônomos de analisar erros observacionais, que tal começar por aí. Certo dia, eu estava lendo alguns documentos antigos onde um cientista descreveu seus esforços para reduzir o erro de medição em seu aparelho. Ele havia tomado muitas medidas rements de uma estrela em uma posição conhecida e registrou seus deslocamentos à frente ou atrás dessa posição. Para visualizar esses deslocamentos, ele desenhou um histograma que – quando suavizado um pouco – se parecia com este.

Figura 1: Histograma de deslocamentos

Aluno : lembro-me de como funcionam os histogramas: o eixo vertical é identificado como ” Densidade ” para me lembrar que as frequências relativas das medições são representadas por área em vez de altura.

Professor : Isso mesmo. Um ” incomum ” ou ” extremo ” valor seria estar localizado em uma região com uma área bem pequena. Aqui está um giz de cera. Você acha que poderia colorir uma região cuja área seja apenas um décimo do total?

Aluno : Claro; isso é fácil. [Cores na figura.]

Figura 2: O aluno

Professor : Muito bom! Isso parece cerca de 10% da área para mim. Lembre-se, porém, que as únicas áreas no histograma que importam são aquelas entre as linhas verticais: elas representam a chance ou probabilidade de que o deslocamento estaria localizado entre essas linhas no eixo horizontal. Isso significa que você precisava colorir todo o caminho até o fundo e isso seria mais da metade da área, não “é?

Aluno : Ah, entendo. Deixe-me tentar de novo. Vou querer colorir onde a curva é realmente baixa, não vou? É o mais baixo nas duas extremidades.Tenho que colorir apenas uma área ou posso dividi-la em várias partes?

Professor : Usar várias partes é uma ideia inteligente. Onde eles estariam?

Aluno (apontando): aqui e aqui. Como este lápis não é muito afiado, usei uma caneta para mostrar as linhas que estou usando.

Figura 3: O aluno

Professor : Muito bom! Deixe-me contar o resto da história. O cientista fez algumas melhorias em seu dispositivo e então fez medições adicionais. Ele escreveu que o deslocamento do primeiro foi de apenas $ 0,1 $ , o que ele considerou um bom sinal, mas sendo um cientista cuidadoso, ele começou a fazer mais medições como uma verificação . Infelizmente, essas outras medidas foram perdidas – o manuscrito se interrompe neste ponto – e tudo o que temos é aquele único número, $ 0,1 $ .

Aluno : Isso é muito ruim. Mas não é muito melhor do que a ampla propagação de deslocamentos em sua figura?

Professor : Isso “é a pergunta que eu gostaria que você respondesse. Para começar, o que devemos considerar $ H_0 $ ?

Aluno : Bem, um cético se perguntaria se as melhorias feitas no dispositivo tiveram algum efeito. O ônus da prova recai sobre o cientista: ele gostaria de mostrar que o cético está errado. Isso me faz pensar que a hipótese nula é meio ruim para o cientista: diz que todas as novas medições – incluindo o valor de $ 0,1 $ que conhecemos – devem se comportar conforme descrito pelo primeiro histograma. Ou talvez ainda pior do que isso: eles podem estar ainda mais espalhados.

Professor : G o on, você está indo bem.

Aluno : E então a alternativa é que as novas medições seriam menos espalhadas, certo?

Professor : muito bom! Você poderia me desenhar uma imagem de como seria um histograma com menos propagação? Aqui está outra cópia do primeiro histograma; você pode desenhar por cima dele como referência.

Aluno (desenho): Estou usando uma caneta para delinear o novo histograma e estou colorindo a área abaixo dele. Fiz com que a maior parte da curva ficasse próxima de zero no eixo horizontal e a maior parte de sua área estivesse próxima de um valor (horizontal) de zero: é isso que significa ser menos espalhado ou mais preciso.

Figura 4: O aluno

Professor : É um bom começo. Mas lembre-se de que um histograma mostrando chances deve ter uma área total de $ 1 $ . A área total do primeiro histograma portanto, é $ 1 $ . Qual é a área dentro do seu novo histograma?

Aluno : menos da metade, eu acho . Vejo que é um problema, mas não sei como consertá-lo. O que devo fazer?

Professor : o truque é fazer o novo histograma mais alto do que o antigo, de modo que seu total A área é $ 1 $ . Aqui, vou mostrar uma versão gerada por computador para ilustrar.

Figura 5: O professor

Aluno : Entendo: você o esticou verticalmente para que sua forma não mudasse realmente, mas agora a área vermelha e a área cinza (incluindo a parte sob o vermelho) são as mesmas quantidades.

Professor : Certo. Você está vendo uma imagem da hipótese nula (em azul, espalhado) e parte da hipótese alternativa (em vermelho, com menos espalhado).

Aluno : O que você quer dizer com ” parte ” da alternativa? Não é apenas a hipótese alternativa?

Professor : Estatísticos e gramática não parecem se misturar. 🙂 Sério, o que eles querem dizer com uma ” hipótese ” geralmente é um grande conjunto de possibilidades. Aqui, a alternativa (como você afirmou antes) é que as medições estão ” menos espalhadas ” do que antes. Mas quanto menos ? Existem muitas possibilidades. Aqui, deixe-me mostrar outro. Desenhei com traços amarelos. Está entre os dois anteriores.

Figura 6: O nulo junto com dois elementos da alternativa

Aluno : Entendo: você pode ter diferentes quantidades de spread, mas não sabe com antecedência quanto será o spread. Mas por que você fez o sombreamento engraçado nesta imagem?

Professor : Eu queria destacar onde e como os histogramas diferem. Eu os sombrei em cinza onde os histogramas alternativos são menores do que o nulo e em vermelho onde as alternativas são maiores .

Aluno : Por que isso importa?

Professor : Você se lembra de como você coloriu o primeiro histograma em ambas as caudas? [Olhando os papéis.] Ah, aqui está.Vamos colorir esta imagem da mesma maneira.

Figura 7: O nulo e o alternativo, colorido.

Aluno : Eu me lembro: esses são os valores extremos. Encontrei os lugares onde a densidade nula era a menor possível e colorida em 10% da área.

Professor : Conte-me sobre as alternativas nessas áreas extremas.

Aluno : É difícil de ver, porque o giz de cera cobriu, mas parece que está lá ” s quase nenhuma chance de qualquer alternativa estar nas áreas que eu pintei. Seus histogramas estão diretamente em relação ao eixo dos valores e não há espaço para nenhuma área abaixo deles.

Professor : Vamos continuar com esse pensamento. Se eu dissesse a você, hipoteticamente, que uma medida teve um deslocamento de $ – 2 $ e pedisse a você para escolher qual destes três era mais provável que ele tivesse vindo de histogramas, de qual seria?

Aluno : O primeiro – o azul. É o mais espalhado a descubra que é o único em que $ – 2 $ parece ter alguma chance de ocorrer.

Professor : E o valor de $ 0.1 $ no manuscrito?

Aluno : Hmmm … isso é diferente história. Todos os três histogramas estão bem acima do solo em $ 0,1 $ .

Professor : OK, é justo. Mas suponha que eu lhe dissesse que o valor estava em algum lugar próximo de $ 0,1 $ , como entre $ 0 $ e $ 0,2 $ . Isso ajuda você a ler algumas probabilidades desses gráficos?

Aluno : Claro, porque posso usar áreas. Só preciso estimar as áreas abaixo de cada curva entre $ 0 $ e $ 0,2 $ . Mas isso parece muito difícil.

Professor : Você não precisa ir tão longe. Você pode apenas dizer qual área é a maior?

Aluno : Aquela abaixo da curva mais alta, é claro. Todas as três áreas têm a mesma base, então quanto mais alta a curva, mais área há abaixo dela e a base. Isso significa que o histograma mais alto– aquele que desenhei, com os traços vermelhos – é o mais provável para um deslocamento de $ 0,1 $ . Acho que vejo aonde você quer chegar com isso, mas eu “Estou um pouco preocupado: não preciso olhar todos os histogramas para todas as alternativas, não apenas uma ou duas mostradas aqui? Como eu poderia fazer isso?

Professor : você é bom em captar padrões, então me diga: à medida que o aparato de medição se torna cada vez mais preciso, o que acontece com seu histograma?

Aluno : fica mais estreito – ah, e tem que ficar mais alto também, então sua área total permanece a mesma. Isso torna muito difícil comparar os histogramas. Os alternativos são todos maiores que o nulo à direita em $ 0 $ , isso “é óbvio. Mas em outros valores às vezes as alternativas são mais altas e às vezes são mais baixas! Por exemplo, [apontando para um valor próximo a $ 3/4 $ ], bem aqui meu histograma vermelho é o mais baixo, o histograma amarelo é o mais alto, e o histograma nulo original está entre eles. Mas, à direita, o nulo é o mais alto.

Professor : em geral, comparar histogramas é uma tarefa complicada. Para nos ajudar a fazer isso, pedi ao computador para fazer outro gráfico: ele dividiu cada uma das alturas alternativas do histograma (ou ” densidades “) pela altura nula do histograma, criando valores conhecidos como ” razões de probabilidade. ” Como resultado , um valor maior que $ 1 $ significa que a alternativa é mais provável, enquanto um valor menor que $ 1 $ significa a alternativa é menos provável. Ele desenhou ainda mais uma alternativa: é mais espalhado do que as outras duas, mas ainda menos espalhado do que o aparelho original estava.

Figura 8: Razões de probabilidade

Professor (continuando): Você poderia me mostrar onde as alternativas tendem a ser mais prováveis do que a nula?

Aluno (coloração): aqui no meio, obviamente. E como esses não são mais histogramas, acho que deveríamos olhar para alturas em vez de áreas, então estou apenas marcando uma faixa de valores no eixo horizontal. Mas como sei quanto do meio devo colorir? Onde eu paro de colorir?

Figura 9: Gráficos de razão de verossimilhança marcados

Professor : Não existe uma regra firme. Tudo depende de como planejamos usar nossas conclusões e de quão ferozes são os céticos.Mas relaxe e pense sobre o que você realizou: agora você percebe que resultados com grandes razões de probabilidade são evidências para a alternativa e resultados com pequenas razões de probabilidade são evidências contra a alternativa . O que vou pedir que você faça é colorir uma área que, na medida do possível, tem uma chance pequena de ocorrer sob a hipótese nula e uma chance relativamente grande de ocorrer sob as alternativas. Voltando ao primeiro diagrama que você coloriu, bem no início de nossa conversa, você coloriu as duas caudas do nulo porque eles eram ” extremos. ” Eles ainda fariam um bom trabalho?

Aluno : Acho que não. Mesmo que fossem muito extremos e raros sob a hipótese nula, eles são praticamente impossíveis para qualquer uma das alternativas. Se minha nova medição fosse, digamos, $ 3,0 $ , acho que ficaria do lado dos céticos e negaria que qualquer melhoria tenha ocorrido, mesmo que $ 3,0 $ tenha sido um resultado incomum em qualquer caso. Eu quero mudar essa cor. Aqui – deixe-me pegar outro lápis de cor.

Figura 10: Marcação aprimorada

Professor : o que isso representa?

Aluno : Começamos com você me pedindo para desenhar em apenas 10% da área sob o histograma original – aquele que descreve o nulo. Então, agora Desenhei 10% da área onde as alternativas parecem mais prováveis de ocorrer. Acho que quando uma nova medição está nessa área, ela está nos dizendo que devemos acreditar na alternativa.

Professor : E como o cético deveria reagir a isso?

Aluno : um cético nunca precisa admitir que está errado, não é? Mas acho que sua fé deveria estar um pouco abalada. Afinal, nós o organizamos de forma que, embora uma medida pudesse estar dentro da área que acabei de desenhar, ela tenha apenas 10% de chance de estar lá quando o nulo for verdadeiro. E tem uma chance maior de estar lá quando a alternativa for verdadeira. Eu simplesmente não posso te dizer quão essa chance é muito maior, porque dependeria de quanto o cientista melhorou o aparelho. Eu simplesmente sei que é maior. Portanto, a evidência seria contra o cético.

Professor : Tudo bem. Você se importaria de resumir seu entendimento para que “estejamos perfeitamente claros sobre o que você aprendeu?

Aluno : eu aprendi que para comparar hipóteses alternativas com hipóteses nulas, devemos comparar suas histogramas. Dividimos as densidades das alternativas pela densidade do nulo: isso “é o que você chamou de ” razão de probabilidade. ” Para fazer um bom teste, devo escolher um pequeno número como 10% ou o que for suficiente para abalar um cético. Em seguida, devo encontrar valores onde a razão de verossimilhança é a mais alta possível e colori-los até que 10% (ou qualquer outro) tenha sido colorido.

Professor : E como você usaria aquela coloração?

Aluno : Como você me lembrou antes, a coloração deve estar entre as linhas verticais. Os valores (no eixo horizontal) que ficam sob a coloração são evidências contra a hipótese nula. Outros valores – bem, é difícil dizer o que eles podem significar sem dar uma olhada mais detalhada em todos os histogramas envolvidos.

Professor : Voltando ao valor de $ 0.1 $ no manuscrito, o que você concluiria?

Aluno : Isso está dentro da última área que pintei , então acho que o cientista provavelmente estava certo e o aparelho realmente foi melhorado.

Professor : Uma última coisa. Sua conclusão foi baseada na escolha de 10% como critério ou ” tamanho ” do teste. Muitas pessoas preferem usar 5%. Alguns preferem 1%. O que você poderia dizer a eles?

Aluno : Não pude fazer todos aqueles testes de uma vez! Bem, talvez eu pudesse de alguma forma. Posso ver que não importa o tamanho o teste deve ser, devo começar a colorir a partir de $ 0 $ , que é, neste sentido, o ” mais extremo ” valor, e trabalhar para fora em ambas as direções a partir daí. Se eu parasse em $ 0,1 $ – o valor realmente observado –Acho que teria pintado em uma área em algum lugar entre $ 0,05 $ e $ 0,1 $ , digamos $ 0,08 $ . As pessoas de 5% e 1% perceberam imediatamente que eu pintei demais: se quisessem colorir apenas 5% ou 1%, poderiam, mas não fariam “t ir tão longe quanto $ 0,1 $ . Eles não chegariam à mesma conclusão que eu: eles diriam que não há evidências suficientes de que uma mudança realmente ocorreu.

Professor : Você acabou de me dizer o que todos essas citações no início realmente significam.Deve ser óbvio a partir deste exemplo que eles não podem ter a intenção ” mais extrema ” ou ” maior ou igual ” ou ” pelo menos tão grande ” no sentido de tendo um valor maior ou mesmo tendo um valor onde a densidade nula é pequena. Eles realmente significam essas coisas no sentido de altas taxas de probabilidade que você descreveu. A propósito, o número em torno de $ 0,08 $ que você calculou é chamado de ” valor p. ” Só pode ser entendido corretamente da maneira que você descreveu: com relação a uma análise das alturas relativas do histograma – as razões de probabilidade.

Aluno : Obrigado. Não tenho certeza se entendi totalmente tudo isso ainda, mas você me deu muito em que pensar.

Professor : Se você gostaria de ir mais longe, dê uma veja o Lema de Neyman-Pearson . Você provavelmente está pronto para entendê-lo agora.


Sinopse

Muitos testes baseados em uma única estatística como a da caixa de diálogo a chamarão de ” $ z $ ” ou ” $ t $ “. Essas são maneiras de sugerir a aparência do histograma nulo, mas são apenas dicas: o que nomeamos esse número não importa realmente. A construção resumida pelo aluno, conforme ilustrado aqui, mostra como ela se relaciona com o valor p. O valor p é o menor tamanho de teste que faria com que uma observação de $ t = 0,1 $ levasse a uma rejeição da hipótese nula.

Figura 11: valor p como uma área.

Nesta figura, que é ampliada para mostrar detalhes, a hipótese nula é plotada em azul sólido e duas alternativas típicas são plotadas com linhas tracejadas. A região onde essas alternativas tendem a ser muito maiores do que o nulo está sombreada. O sombreamento começa onde as probabilidades relativas das alternativas são maiores (em $ 0 $ ). O sombreamento para quando a observação $ t = 0.1 $ é alcançada. O valor p é a área da região sombreada sob o histograma nulo: é a chance, supondo que o nulo seja verdadeiro, de observar um resultado cujas razões de verossimilhança tendem a ser grandes, independentemente de qual alternativa seja verdadeira. Em particular, essa construção depende intimamente da hipótese alternativa. Não pode ser realizado sem especificar as alternativas possíveis.


Para dois exemplos práticos do teste descrito aqui – um publicado, o outro hipotético – consulte https://stats.stackexchange.com/a/5408/919 .

Comentários

  • Isso tem tratou de forma excelente com meu comentário sobre outra resposta, que nenhuma das respostas anteriores a esta pergunta abordou, em geral, o comumente ouvido ” ou mais extremo ” aspecto de um valor p . (Embora a ” teste de chá ” resposta incluísse uma boa exemplo específico.) Eu particularmente admiro a maneira como este exemplo foi deliberadamente construído para destacar que ” mais extremo ” pode significar exatamente o contrário de ” maior ” ou ” mais longe de zero “.
  • Desejo que professores e livros didáticos não ‘ usem a frase ” ou algo mais extremo “, realmente. Duas variantes que ouvi podem ser parafraseadas como ” mais favoráveis a $ H_1 $ ” ou ” mais persuasivo de $ H_1 $ “. Nesse caso, valores próximos a zero seriam de fato mais convincentes de que o telescópio se tornou mais confiável, mas requer algumas acrobacias linguísticas (argumentadas de forma plausível, mas potencialmente confusas) para descrevê-los como ” mais extremo “.
  • Excepcionalmente perspicaz como sempre, obrigado por reservar um tempo para escrever essas respostas incrivelmente úteis. Eu realmente me pergunto por que os livros didáticos nunca são escritos de uma forma que ofereça perto desses níveis de clareza e intuição.
  • É ‘ perigoso usar sarcasmo em um comentário , @baxx, porque ‘ s não há espaço suficiente nos permitiu fazê-lo com educação e elegância. Portanto, ‘ geralmente não é uma boa ideia supor que um comentário está sendo sarcástico, a menos que ele explicitamente o diga.Suponha que os comentários têm como objetivo ajudá-lo. Se você simplesmente seguir o primeiro hit na pesquisa que forneci, acho que suas perguntas serão respondidas.
  • Simplesmente fantástico! Obrigado @whuber!

Resposta

Antes de tocar neste tópico, sempre me certifico de que os alunos ficam felizes movendo-se entre porcentagens, decimais, probabilidades e frações. Se eles não estiverem completamente satisfeitos com isso, eles podem se confundir muito rapidamente.

Eu gosto de explicar o teste de hipótese pela primeira vez (e, portanto, os valores p e as estatísticas de teste) por meio de Fisher ” s experimento clássico do chá. Tenho vários motivos para isso:

(i) Acho que fazer um experimento e definir os termos à medida que avançamos faz mais sentido do que definir todos esses termos para começar. (ii) Você não precisa contar explicitamente com distribuições de probabilidade, áreas sob a curva, etc. para superar os pontos-chave do teste de hipótese. (iii) Isso explica esta noção ridícula de “tão ou mais extrema do que aqueles observados” de uma maneira bastante sensata (iv) Eu acho que os alunos gostam de entender a história, as origens e a história de fundo do que estão estudando, pois torna isso mais real do que algumas teorias abstratas. (v) Não importa de qual disciplina ou assunto os alunos vêm, eles podem se relacionar com o exemplo do chá (NB: Alguns alunos internacionais têm dificuldade com esta instituição peculiarmente britânica do chá com leite.)

[Observação: originalmente tirei essa ideia do maravilhoso artigo de Dennis Lindley “A análise de dados experimentais: a apreciação do chá & Vinho”, no qual ele demonstra por que os métodos bayesianos são superiores métodos clássicos.]

A história por trás é que Muriel Bristol visita Fisher numa tarde da década de 1920 na Estação Experimental de Rothamsted para uma xícara de chá. Quando Fisher colocou o leite pela última vez, ela reclamou dizendo que podia diga também se o leite foi servido primeiro (ou por último) e se ela preferiu o primeiro. Para testar, ele projetou seu experimento clássico de chá, em que Muriel é presenteada com um par de xícaras de chá e ela deve identificar qual delas contém o leite adicionado primeiro. Isso é repetido com seis pares de xícaras de chá. Os gelos estão corretos (R) ou errados (W) e seus resultados são: RRRRRW.

Suponha que Muriel esteja apenas adivinhando e não tenha capacidade de discriminar qualquer coisa. Isso é chamado de Hipótese Nula . De acordo com Fisher, o objetivo do experimento é desacreditar essa hipótese nula. Se Muriel está adivinhando, ela identificará a xícara de chá corretamente com probabilidade 0,5 em cada turno e, como são independentes, o resultado observado é 0,5 $ ^ 6 $ = 0,016 (ou 1/64). Fisher então argumenta que:

(a) a hipótese nula (Muriel está supondo) é verdadeira e um evento de pequena probabilidade ocorreu ou,

(b) a hipótese nula é falsa e Muriel tem poderes discriminatórios.

O valor p (ou valor de probabilidade) é a probabilidade de observar este resultado (RRRRRW) dada a hipótese nula ser verdadeira – é a pequena probabilidade referida em (a) , acima. Neste caso, é 0,016. Uma vez que eventos com pequenas probabilidades ocorrem raramente (por definição), a situação (b) pode ser uma explicação mais preferível do que ocorreu do que a situação (a). Quando rejeitamos a hipótese nula, “estamos de fato aceitando a hipótese oposta que chamamos de hipótese alternativa. Neste exemplo, Muriel tem poderes discriminatórios é a hipótese alternativa.

Uma consideração importante é o que nós como uma “pequena” probabilidade? Qual é o ponto de corte no qual estamos dispostos a dizer que um evento é improvável? O benchmark padrão é 5% (0,05) e isso é chamado de nível de significância. Quando o valor p é menor do que o nível de significância, rejeitamos a hipótese nula como sendo falsa e aceitamos nossa hipótese alternativa. É comum afirmar que um resultado é “significativo” quando o valor p é menor do que o nível de significância, ou seja, quando a probabilidade do que nós a ocorrência observada dado que a hipótese nula é verdadeira é menor do que nosso ponto de corte. É importante deixar claro que usar 5% é totalmente subjetivo (assim como usar os outros níveis de significância comuns de 1% e 10%).

Fisher percebeu que isso não trabalhar; cada resultado possível com um par errado era igualmente sugestivo de poderes discriminatórios. A probabilidade relevante para a situação (a), acima, é, portanto, 6 (0,5) ^ 6 = 0,094 (ou 6/64) que agora é não significativa a um nível de significância de 5%. Para superar isso, Fisher argumentou que, se 1 erro em 6 é considerado evidência de poderes discriminatórios, então não há erros, ou seja,os resultados que indicam mais fortemente poderes discriminatórios do que o observado devem ser incluídos no cálculo do valor de p. Isso resultou na seguinte alteração do raciocínio:

(a) a hipótese nula (Muriel está supondo) é verdadeira e a probabilidade de eventos como, ou mais, extrema do que a observada é pequena, ou

(b) a hipótese nula é falsa e Muriel tem poderes discriminatórios.

De volta ao nosso experimento do chá, descobrimos que o valor p sob esta configuração é 7 (0,5 ) ^ 6 = 0,109 que ainda não é significativo no limite de 5%.

Em seguida, faço os alunos trabalharem com alguns outros exemplos, como o lançamento de uma moeda, para descobrir se uma moeda é justa ou não. Isso explica os conceitos de hipótese nula / alternativa, valores p e níveis de significância. Em seguida, passamos ao caso de uma variável contínua e introduzimos a noção de uma estatística de teste. Como já cobrimos a distribuição normal, a distribuição normal padrão e a transformação z em profundidade, é apenas uma questão de juntar vários conceitos.

Além de calcular estatísticas de teste, valores p e tomando uma decisão (significativa / não significativa) Eu faço os alunos trabalharem através de artigos publicados em um jogo de preenchimento dos espaços em branco que faltam.

Comentários

  • I sei que ‘ estou revivendo um tópico muito antigo, mas aqui vai … Eu estava gostando muito da sua resposta, mas sinto falta da parte do valor t 🙁 por favor, use os exemplos fornecidos para falar sobre isso? Ninguém respondeu sobre a parte do teste t
  • @sosi It ‘ s provavelmente porque os valores-p são muito mais geral do que valores t. É ‘ como fazer uma pergunta sobre carros e, em seguida, sobre os freios de um Ford Fiesta.
  • A resposta é muito interessante (+ 1), mas algumas coisas são confundidas no final. 1. W hat significa que $ p $ -value seja ” significativo no nível de 5% “? O valor $ p $ está abaixo de 5% ou não. Não ‘ não vejo sentido em usar uma frase tão obscura, deixando ” significância ” indefinido. 2. O que significa ” decidir ” se um valor $ p $ é ou não significativo? Não parece justificado incluir a teoria da decisão dessa forma (especialmente porque Fisher era um forte oponente da aplicação da estrutura de teste de Neyman-Pearson nas ciências).

Resposta

Nenhuma quantidade de explicação verbal ou cálculos realmente me ajudaram a entender em um nível instintivo o que eram os p-valores, mas realmente entrou em foco para mim quando fiz um curso que envolvia simulação. Isso me deu a capacidade de realmente ver os dados gerados pela hipótese nula e traçar os meios / etc. de amostras simuladas e, em seguida, observe onde a estatística de minha amostra caiu nessa distribuição.

Acho que a principal vantagem disso é que permite que os alunos esqueçam a matemática e as distribuições de estatísticas de teste por um minuto e focar nos conceitos em mãos. É verdade que eu aprendi como simular essas coisas, o que causará problemas para um grupo totalmente diferente de alunos. Mas funcionou para mim e já usei simulação inúmeras vezes para ajudar a explicar as estatísticas para outras pessoas com grande sucesso (por exemplo, “Esta é a aparência de seus dados; é assim que uma distribuição de Poisson se parece sobreposta. Tem CERTEZA de que deseja fazer uma regressão de Poisson?”).

Isso não responde exatamente às perguntas que você fez, mas, pelo menos para mim, tornou-as triviais.

Comentários

  • Concordo plenamente sobre o uso da simulação para explicar isso. Mas apenas uma pequena observação sobre o exemplo no final: acho que as pessoas (não apenas os alunos) acham que é diferente difícil de distinguir para qualquer suposição de distribuição particular, por ex. o poisson, entre ser marginalmente distribuído por poisson e ser condicionalmente distribuído por poisson. Uma vez que apenas o último importa para um modelo de regressão, um monte de valores de variáveis dependentes que não são ‘ t poisson não precisam necessariamente ser motivo de preocupação.
  • Eu tenho confessar que não ‘ sabia disso. Eu ‘ agradeço muito seus comentários sobre este site nos últimos dias de sua associação – espero que você ‘ continue.
  • @MattParker você conhece algum recurso de aprendizagem voltado para o uso de simulação para desenvolver a compreensão? Ou é apenas o caso de colocar alguns scripts python / R juntos e executar um monte de testes?
  • @baxx O [site da Teoria da Visão de Daniel Kunin] (students.brown.edu/seeing-theory/ ) tem algumas ferramentas interessantes para isso, mas ‘ ainda está em construção.Caso contrário, sim, ‘ acabo de experimentar amplamente as ferramentas integradas de R ‘ para simulação – usando-as para provar a mim mesmo como algum método funciona, ou para ver o que aconteceria se um preditor fosse substituído por uma variável aleatória, etc. Desculpe, gostaria de saber de recursos melhores para isso!
  • @MattParker, muito obrigado. Sim – um pouco de ovo e galinha nisso, para construir os experimentos que você (eu presumo?) Precisa pelo menos ter o suficiente para escrevê-los. Não se preocupe, entretanto … Basta verificar o site que você vinculou, ‘ é bom, obrigado

Resposta

Uma boa definição de p-valor é “a probabilidade de observar uma estatística de teste pelo menos tão grande quanto aquela calculada assumindo que a hipótese nula é verdadeira”.

O problema com isso é que requer um entendimento de “estatística de teste” e “hipótese nula”. Mas, isso é fácil de entender. Se a hipótese nula for verdadeira, geralmente algo como “parâmetro da população A é igual ao parâmetro da população B”, e você calcula estatísticas para estimar esses parâmetros, qual é a probabilidade de ver um estatística de teste que diz: “eles” são tão diferentes “?

Por exemplo, se a moeda for justa, qual é a probabilidade de eu ver 60 caras em 100 lançamentos? Isso é testar a hipótese nula , “a moeda é justa” ou “p = 0,5” onde p é a probabilidade de cara.

A estatística de teste nesse caso seria o número de cara.

Agora, presumo que o que você está chamando de “valor t” é uma “estatística de teste” genérica, não um valor de uma distribuição “t”. Eles são não é a mesma coisa, e o termo “valor t” não é (necessariamente) amplamente usado e pode ser confuso.

O que você está chamando de “valor t” é provavelmente o que estou chamando “estatística de teste”. Para calcular um valor p (lembre-se, é apenas uma probabilidade), você precisa de uma distribuição e de um valor para inserir nessa distribuição que retornará uma probabilidade. Depois de fazer isso, a probabilidade de você retornar é o seu valor p. Você pode ver que eles estão relacionados porque sob a mesma distribuição, diferentes estatísticas de teste retornarão diferentes valores de p. Estatísticas de teste mais extremas retornarão valores p mais baixos, dando maior indicação de que a hipótese nula é falsa.

Ignorei o problema dos valores p unilaterais e bilaterais aqui.

Resposta

Imagine que você tem uma bolsa contendo 900 bolinhas pretas e 100 brancas, ou seja, 10% das bolinhas são brancas. Agora imagine que você retira 1 bolinha, olha para ela e registra sua cor, retira outra, registra sua cor etc. . e faça isso 100 vezes. No final deste processo, você terá um número para bolinhas brancas que, idealmente, esperaríamos ser 10, ou seja, 10% de 100, mas na verdade pode ser 8 ou 13 ou qualquer outro simplesmente devido à aleatoriedade. Se você repetir este experimento de retirada de 100 bolas de gude muitas e muitas vezes e, em seguida, plotar um histograma do número de bolas de gude brancas sorteadas por experimento, você verá que terá uma curva de sino centrada em torno de 10.

Isso representa a sua hipótese de 10%: com qualquer saco contendo 1000 bolinhas de gude, das quais 10% são brancas, se você tirar 100 bolinhas aleatoriamente, encontrará 10 bolinhas brancas na seleção, mais ou menos 4 ou mais. O valor p tem tudo a ver com “mais ou menos 4 ou mais.” Digamos que, referindo-se à curva de sino criada anteriormente, você possa determinar que menos de 5% das vezes você obteria 5 ou menos bolinhas brancas e outra < 5% das vezes é responsável por 15 ou mais berlindes brancos, ou seja, em 90% do tempo, sua seleção de 100 berlindes conterá entre 6 a 14 berlindes brancos.

Agora, supondo que alguém jogue um saco de 1.000 berlindes com um número desconhecido de bolas brancas nele, temos as ferramentas para responder a essas perguntas

i) Existem menos de 100 bolas de gude brancas?

ii) Existem mais de 100 bolas de gude brancas?

iii) A sacola contém 100 bolinhas brancas?

Simplesmente tire 100 bolinhas da sacola e conte quantas desta amostra são brancas.

a) Se houver são 6 a 14 brancos na amostra, você não pode rejeitar a hipótese de que existem 100 bolinhas brancas no saco e os valores p correspondentes de 6 a 14 serão> 0,05.

b) Se houver 5 ou menos brancos na amostra você pode rejeitar ct a hipótese de que existem 100 bolinhas brancas no saco e os valores p correspondentes para 5 ou menos serão < 0,05. Você esperaria que o saco contivesse < 10% de bolinhas brancas.

c) Se houver 15 ou mais brancos na amostra, você pode rejeitar a hipótese de que há 100 bolinhas brancas no saco e os valores p correspondentes para 15 ou mais serão < 0,05. Você esperaria que a sacola contivesse mais de 10% de bolinhas brancas.

Em resposta ao comentário de Baltimark

Dado o exemplo acima, há um aproximadamente : –

4.8% de chance de obter 5 bolas brancas ou menos

1,85% de chance de 4 ou menos

0,55% de chance de 3 ou menos

0,1% de chance de 2 ou menos

6,25% chance de 15 ou mais

3,25% chance de 16 ou mais

1,5% chance de 17 ou mais

0,65% de chance de 18 ou mais

0,25% de chance de 19 ou mais

0,1% de chance de 20 ou mais

0,05% de chance de 21 ou mais

Esses números foram estimados a partir de uma distribuição empírica gerada por uma rotina simples de Monte Carlo executada em R e os quantis resultantes da distribuição de amostragem.

Para o propósito de responder à pergunta original, suponha que você desenhe 5 bolas brancas, há apenas cerca de 4,8% de chance de que se a bolsa de 1000 bolas de gude realmente contiver 10% de bolas brancas você puxaria apenas 5 brancos em uma amostra de 100. Isso equivale a um valor de p < 0,05. Agora você tem que escolher entre

i) Há realmente 10% de bolas brancas na sacola e eu apenas tive “azar” de tirar tão poucas

ou

ii) Desenhei tão poucas bolas brancas que não pode haver realmente 10% bolas brancas (rejeite a hipótese de 10% bolas brancas)

Comentários

  • Em primeiro lugar, este é apenas um grande exemplo e não ‘ realmente explica o conceito de valor p e estatística de teste. Em segundo lugar, você ‘ estamos apenas alegando que se você obtiver menos de 5 ou mais de 15 bolinhas brancas, você rejeita a hipótese nula. Qual ‘ é a sua distribuição que você ‘ recalculando essas probabilidades de? Isso pode ser aproximado com uma dist. normal centrada em 10, com um desvio padrão de 3. Seu critério de rejeição não é quase rigoroso o suficiente.
  • Eu concordaria que este é apenas um exemplo, e é verdade que acabei de escolher os números 5 e 15 de um ir para fins ilustrativos. Quando tiver tempo, postarei uma segunda resposta, que espero que seja mais completa.

Resposta

O que o valor p não diz é a probabilidade de a hipótese nula ser verdadeira. Sob a estrutura de teste de significância convencional (Fisher), primeiro calculamos a probabilidade de observar os dados assumindo que a hipótese nula é verdadeira. valor p. Parece intuitivamente razoável supor que a hipótese nula é provavelmente falsa se os dados forem suficientemente improváveis de serem observados sob a hipótese nula. Isso é totalmente razoável. Os estatísticos tradicionalmente usam um limite e “rejeitam a hipótese nula em 95 % de nível de significância “se (1 – p)> 0,95; no entanto, esta é apenas uma convenção que se provou razoável na prática – não significa que haja menos de 5% de probabilidade de que a hipótese nula seja falsa (e, portanto, 95 % de probabilidade de que a hipótese alternativa seja verdadeira). Uma razão pela qual não podemos dizer isso é que ainda não examinamos a hipótese alternativa.

Imaginando uma função f () que mapeia o valor p na probabilidade de que a hipótese alternativa seja verdadeira. Seria razoável afirmar que esta função é estritamente decrescente (de modo que quanto mais prováveis as observações sob a hipótese nula, menos provável a hipótese alternativa ser verdadeira), e que ela dá valores entre 0 e 1 (como dá uma estimativa de probabilidade). No entanto, isso é tudo o que sabemos sobre f (), portanto, embora haja uma relação entre pe a probabilidade de que a hipótese alternativa seja verdadeira, ela não está calibrada. Isso significa que não podemos usar o valor p para fazer afirmações quantitativas sobre a plausibilidade das hipóteses nula e alternativa.

Advertência: Não está realmente dentro da estrutura frequentista falar da probabilidade de que uma hipótese seja verdadeira, uma vez que não é uma variável aleatória – é verdade ou não é. Portanto, onde falei da probabilidade da verdade de uma hipótese, mudei implicitamente para uma interpretação bayesiana. É incorreto misturar bayesiano e frequentista, porém sempre há a tentação de fazer isso, pois o que realmente queremos é uma indicação quantitativa da plausibilidade / probabilidade relativa das hipóteses. Mas não é isso que o valor p fornece.

Resposta

Nas estatísticas, você nunca pode dizer que algo é absolutamente certo, então os estatísticos usam outra abordagem para avaliar se uma hipótese é verdadeira ou não. Eles tentam rejeitar todas as outras hipóteses que não são suportadas pelos dados.

Para fazer isso, os testes estatísticos têm uma hipótese nula e uma hipótese alternativa. O valor de p relatado por um teste estatístico é a probabilidade do resultado, visto que a hipótese nula estava correta. É por isso que queremos valores p pequenos. Quanto menores eles são, menos provável o resultado seria se a hipótese nula fosse correta. Se o valor p for pequeno o suficiente (ou seja, é muito improvável que o resultado tenha ocorrido se a hipótese nula estiver correta), então a hipótese nula é rejeitada.

Dessa forma, hipóteses nulas podem ser formuladas e posteriormente rejeitadas. Se a hipótese nula for rejeitada, você aceita a hipótese alternativa como a melhor explicação. Porém, lembre-se de que a hipótese alternativa nunca é certa, pois a hipótese nula poderia ter, por acaso, gerado os resultados.

Comentários

  • a p -valor é a probabilidade de um resultado tão ou mais ” extremo ” do que o resultado fornecido, não do resultado real. o valor p é $ Pr (T \ geq t | H_0) $ e não $ Pr (T = t | H_0) $ (T é estatística de teste e t é seu valor observado).

Resposta

Estou um pouco tímido em retomar o antigo tópico, mas saltei aqui , então eu posto isso como uma resposta à pergunta no link.

O p-valor é um termo concreto, não deve haver espaço para mal-entendidos. Mas, é de alguma forma místico que as traduções coloquiais da definição de p-valor levem a muitos erros de interpretação diferentes. Acho que a raiz do problema está no uso das frases “pelo menos tão adverso à hipótese nula” ou “pelo menos tão extremo quanto aquele em seus dados de amostra” etc.

Por exemplo, Wikipedia diz

… o valor p é a probabilidade de obter os resultados da amostra observada (ou um resultado mais extremo) quando a hipótese nula for realmente verdadeira .

O significado de $ p $ -valor é borrado quando as pessoas topam com “(ou um resultado mais extremo)” e começam a pensar “ mais extreeeme ? “.

Acho que é melhor deixar o” resultado mais extremo “para algo como ato de fala indireta . Então, minha opinião é

O valor p é a probabilidade de ver o que você vê em um “mundo imaginário” onde a hipótese nula é verdadeira.

Para tornar a ideia concreta, suponha que você tenha uma amostra x consistindo em 10 observações e sua hipótese de que a população a média é $ \ mu_0 = 20 $. Portanto, em seu mundo hipotético, a distribuição da população é $ N (20,1) $.

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

Você calcula t-stat como $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, e descobrir que

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

Então, qual é a probabilidade de observar $ | t_0 | $ tão grande quanto 2,97 (“mais extremo” vem aqui) no mundo imaginário? No mundo imaginário $ t_0 \ sim t (9) $, portanto, o p-valor deve ser $$ p-value = Pr (| t_0 | \ geq 2,97) = 0,01559054 $$

2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

Visto que o valor p é pequeno, é muito improvável que a amostra x tivesse sido desenhada no mundo hipotético. Portanto, concluímos que é muito improvável que o mundo hipotético fosse de fato o mundo real.

Comentários

  • +1, mas quando você escreve ” probabilidade de ver o que você vê ” e omitir a ” mais extrema ” parte, esta frase torna-se estritamente falsa (e potencialmente enganosa, mesmo se talvez menos confusa). Não é a probabilidade de ver o que você vê (geralmente é zero). É a probabilidade de ver o que você vê ” ou mais extremo “. Mesmo que isso possa ser um pouco confuso para muitos, ainda é crucial (e pode-se argumentar interminavelmente sobre o grau de subjetividade que se esconde por trás disso ” mais extremo ” redação).
  • @amoeba Eu pensei que, quando um exemplo adequado fornecido, ele poderia servir como um proxy para ” obter os resultados da amostra observada (ou um resultado mais extremo) “. Talvez seja necessário um texto melhor.
  • Eu ia fazer a mesma observação que @amoeba; a parte ” ou mais extrema ” é tratada bem por exemplo nas respostas de altura do aluno e festa do chá, mas eu não ‘ não acho que qualquer resposta neste tópico tenha chegado a uma explicação geral clara, particularmente uma que cobre diferentes hipóteses alternativas. Concordo com esta resposta, sugerindo que a parte ” ou mais extrema ” é um ponto de impasse conceitual para muitos alunos.
  • @Silverfish: e não apenas alunos. Quantos discursos Bayesianos vs frequentistas li que discutem a questão da subjetividade / objetividade deste bit ” mais extremo “!
  • @Silver Concordo com sua crítica e postei uma resposta tentando solucioná-la. ” Ou mais extremo ” é o ponto crucial da questão.

Resposta

Também descobri que as simulações são úteis no ensino.

Aqui está uma simulação para o caso indiscutivelmente mais básico em que amostramos $ n $ vezes de $ N (\ mu, 1) $ (portanto, $ \ sigma ^ 2 = 1 $ é conhecido pela simplicidade ) e teste $ H_0: \ mu = \ mu_0 $ contra uma alternativa do lado esquerdo.

Então, a $ t $ -statistic $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ é $ N (0,1) $ sob $ H_0 $, de forma que o valor $ p $ seja simplesmente $ \ Phi (\ text {tstat}) $ ou pnorm(tstat) em R.

Na simulação , é a fração de vezes que os dados gerados sob o $ N nulo (\ mu_0,1) $ (aqui, $ \ mu_0 = 2 $) fornecem meios de amostra armazenados em nullMeans que são menos (ou seja, “ mais extremos “” neste teste do lado esquerdo) do que aquele calculado a partir dos dados observados.

# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

Resposta

Acho útil seguir uma sequência na qual você explica os conceitos na seguinte ordem: (1) A pontuação z e as proporções acima e abaixo da pontuação z, assumindo um curva normal. (2) A noção de uma distribuição amostral e o escore z para uma determinada média da amostra quando o desvio padrão da população é conhecido (e daí o teste z para uma amostra) (3) O teste t para uma amostra e a probabilidade de um média da amostra quando o desvio padrão da população é desconhecido (repleto de histórias sobre a identidade secreta de um determinado estatístico industrial e por que o Guinness é bom para estatísticas). (4) O teste t de duas amostras e a distribuição amostral das diferenças médias. A facilidade com que os alunos introdutórios realizam o teste t tem muito a ver com o trabalho de base estabelecido na preparação para este tópico.

/ * instrutor do modo de alunos aterrorizados desligado * /

Resposta

O que significa um “valor p” em relação à hipótese que está sendo testada?

Em um sentido ontológico (o que é verdade?), significa nada . Qualquer teste de hipótese é baseado em suposições não testadas . Normalmente, isso faz parte do próprio teste, mas também faz parte de qualquer modelo que você esteja usando (por exemplo, em um modelo de regressão). Uma vez que estamos apenas assumindo isso, não podemos saber se a razão pela qual o valor p está abaixo do nosso limite é porque o nulo é falso. É um non sequitur deduzir incondicionalmente que, devido a um valor de p baixo, devemos rejeitar o nulo. Por exemplo, algo no modelo pode estar errado.

Em um sentido epistemológico (o que podemos aprender?), significa algo . Você ganha conhecimento condicional sobre as premissas não testadas serem verdadeiras. Visto que (pelo menos até agora) não podemos provar todos os edifícios da realidade, todo o nosso conhecimento será necessariamente condicional. Nunca chegaremos à “verdade”.

Resposta

Ainda tenho que provar o seguinte argumento, então ele pode conter erros , mas eu realmente quero jogar meus dois centavos (espero atualizá-lo com uma prova rigorosa em breve). Outra maneira de olhar para o $ p $ – o valor é

$ p $ -value – Uma estatística $ X $ tal que $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ onde $ F_ {X | H_0} $ é a função de distribuição de $ X $ em $ H_0 $ .

Especificamente, se $ X $ tiver um contínuo distribuição e você não está usando aproximação, então

  1. A cada $ p $ -value é uma estatística com uma distribuição uniforme em $ [0, 1] $ e
  2. Cada estatística com uma distribuição uniforme em $ [0, 1] $ é um $ p $ -value.

Você pode considerar esta uma descrição generalizada dos $ p $ -values.

Comentários

  • Esta definição faz sentido apenas para distribuições discretas (e então não é correta), porque a segunda aparência de ” $ P $ ” deixa claro que se refere a probabilidades, não a densidades de probabilidade. Além disso, existem extremamente poucas distribuições (se houver) que têm a propriedade declarada, sugerindo que deve haver erros tipográficos na declaração. No que diz respeito às suas afirmações subsequentes, (1) é idealmente verdadeiro, mas (2) não é, a menos que você permita que a hipótese nula dependa da estatística!
  • @whuber Obrigado pela entrada. Eu editei a definição e ela deve fazer mais sentido agora!
  • Faz sentido, obrigado: se eu ‘ estou lendo corretamente, ele afirma que a distribuição nula de $ X $ é uniforme em $ [0, 1]. $ No entanto, isso captura apenas parte das propriedades dos valores-p; não caracteriza valores de p; e não diz nada sobre o que significam ou como interpretá-los. Considere estudar algumas das outras respostas neste tópico para obter informações sobre o que está faltando.
  • Aqui está um exemplo que você pode achar interessante. A família de distribuição é Uniforme $ (\ theta, \ theta + 1) $ para $ \ theta \ in \ mathbb {R}, $ a hipótese nula é $ \ theta = 0, $ e a alternativa é seu complemento. Considere uma amostra aleatória $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Defina a estatística $ X (\ mathbf {X}) = X_1. $ Obviamente, isso tem uma distribuição uniforme em $ [0,1] $ sob $ H_0: $ mas em que sentido é um valor p? Qual é o teste de hipótese correspondente? Suponha que pegamos uma amostra de tamanho $ n = 1 $ e observamos o valor $ X_1 = -2: $ você afirma que o valor p é $ -2 $ ??

Resposta

Acho que exemplos envolvendo bolinhas de gude, moedas ou medição de altura podem ser bons para praticar matemática, mas não são bons para desenvolver a intuição. Estudantes universitários gostaria de questionar a sociedade, certo? Que tal usar um exemplo político?

Digamos que um candidato político fez uma campanha prometendo que alguma política ajudaria a economia. Ela foi eleita, conseguiu a política aprovada e 2 anos mais tarde, a economia está crescendo. Ela está pronta para a reeleição e afirma que sua política é a razão da prosperidade de todos. Você deveria reelegê-la?

O cidadão atencioso deveria dizer ” bem, é verdade que a economia está indo bem, mas podemos realmente atribuir isso à sua política? ” Para realmente responder a isso, devemos considerar a pergunta “a economia teria se saído bem nos últimos 2 anos sem ele?” Se a resposta for sim (por exemplo, a economia está crescendo devido a algum novo desenvolvimento tecnológico não relacionado), então rejeitamos a explicação dos dados pelos políticos.

Ou seja, examinar uma hipótese (a política ajudou a economia ), devemos construir um modelo do mundo em que essa hipótese seja nula (a política nunca foi promulgada). Em seguida, fazemos uma previsão sob esse modelo. Chamamos de probabilidade de observar esses dados naquele mundo alternativo, o valor p . Se o valor p for muito alto, não estamos convencidos pela hipótese – a política não fez diferença. Se o valor p for baixo, então confiamos na hipótese – a política era essencial.

Comentários

  • Eu discordo com o p sendo definido como ” Chamamos a probabilidade de observar esses dados naquele mundo alternativo de valor p ” e também a força da conclusão sendo tirada ( especialmente a falha em rejeitar o nulo).
  • @Silverfish Você poderia explicar? Provavelmente, seria mais correto chamar o valor de p de probabilidade de fazer essa observação OU uma observação mais extrema. Mas parece que você tem uma crítica mais profunda.
  • Como a pergunta original é perguntar o que é um valor p, pensei que era importante transmitir essa definição com clareza. Apenas dizer ” mais extremo ” não ‘ por si só é muito útil sem explicar o que ” mais extremo ” pode significar – que ‘ é uma fraqueza da maioria das respostas neste tópico I acho. Apenas whuber ‘ a resposta e o ” teste de chá ” um parece realmente explicar por que o ” mais extremo ” também é importante.
  • Também achei que suas conclusões são formulado com muita força. Se rejeitarmos o nulo, teremos evidências significativas contra ele, mas não ‘ t saber que ele ‘ é falso. Quando falhamos em rejeitar o nulo, isso certamente não ‘ significa que o nulo é verdadeiro (embora possa muito bem ser). Como um comentário mais geral, tenho a sensação de que o teste que você ‘ re-descrevendo, em termos bastante abstratos, provavelmente não será claro para um aluno que está aprendendo a fazer um teste . A falta de uma estatística de teste claramente definida não ‘ se coaduna com a pergunta original que pergunta como interpretar a t -statística também.
  • Uma característica desta resposta que eu gosto muito é a explicação clara de que os valores-p são calculados usando um modelo nulo, mesmo se não ‘ t (subjetivamente) acreditarmos que o modelo nulo é realmente verdade. Acho que as estatísticas do teste de fato são calculadas sob um modelo é um ponto-chave com o qual muitos alunos lutam.

Resposta

O valor p não é tão misterioso quanto muitos analistas fazem parecer.É uma forma de não ter que calcular o intervalo de confiança para um teste t, mas simplesmente determinar o nível de confiança com o qual a hipótese nula pode ser rejeitada.

ILUSTRAÇÃO. Você executa um teste. O valor p surge como 0,1866 para a variável Q, 0,0023 para a variável R. (Eles são expressos em%).

Se você estiver testando com um nível de confiança de 95% para rejeitar o hipo nulo;

para Q: 100-18,66 = 81,34%

para R: 100-0,23 = 99,77%.

A um nível de confiança de 95%, Q fornece uma confiança de 81,34% para rejeitar. Isso cai abaixo de 95% e é inaceitável. ACEITAR NULL.

R fornece uma confiança de 99,77% para rejeitar nulo. Claramente acima dos 95% desejados. Assim, rejeitamos o nulo.

Acabei de ilustrar a leitura do valor p por meio de uma “maneira reversa” de medi-lo até o nível de confiança em que rejeitamos a hipo nula. h3> Comentários

  • Bem-vindo ao site. O que você quer dizer com $ Q $ -variável e $ R $ -variável? Por favor, esclareça. Além disso, o uso da frase ” aceitar nulo ” é geralmente considerado bastante indesejável, até mesmo enganoso.
  • @cardinal aponta um ponto importante. Você ‘ não vai aceitar o nulo.

Resposta

****** O valor de p no teste de hipótese mede a sensibilidade do teste. Quanto menor o valor de p, maior é a sensibilidade. se o nível de significância for definido em 0,05, o valor p de 0,0001 indica uma alta probabilidade de os resultados do teste estarem corretos ******

Comentários h3>

  • -1 Isso está claramente errado. Você pode querer ler as respostas com maior votação primeiro.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *