Dopo aver seguito un corso di statistica e aver cercato di aiutare gli altri studenti, ho notato che un argomento che ispira molti colpi sulla testa è interpretare i risultati dei test di ipotesi statistiche . Sembra che gli studenti imparino facilmente come eseguire i calcoli richiesti da un determinato test, ma si bloccano nellinterpretare i risultati. Molti strumenti computerizzati riportano i risultati dei test in termini di “valori p” o “valori t”.
Come spiegheresti i seguenti punti agli studenti universitari che frequentano il loro primo corso di statistica:
-
Cosa significa un “valore p” in relazione allipotesi in esame? Ci sono casi in cui si dovrebbe cercare un valore p alto o un valore p basso?
-
Qual è la relazione tra un valore p e un valore t?
Commenti
- Una buona parte di questo è fondamentalmente coperta dalla prima frase dellarticolo di wikipedia su valori p , che definisce correttamente un valore p. Se questo ‘ è compreso, molto è chiaro.
- Prendi il libro: Statistiche senza lacrime. Potrebbe salvarti la sanità mentale !!
- @ user48700 Potresti riassumere come Statistics Without Tears spiega questo?
- Qualcuno dovrebbe disegnare un grafico relativo al valore p domande nel tempo e scommetto che ‘ vedremo la stagionalità e la correlazione con i calendari accademici nelle università o nei corsi di scienza dei dati di Coursera
- Oltre ad altri libri belli e pertinenti consigli nelle risposte e nei commenti, vorrei suggerire un altro libro, appropriatamente chiamato ” Che cosè un valore p comunque? ” .
Risposta
Comprensione $ p $ -value
Supponi di voler testare lipotesi che laltezza media degli studenti maschi nella tua università sia $ 5 $ ft $ 7 $ pollici. Raccogli le altezze di $ 100 $ studenti selezionati a caso e calcoli la media del campione (supponiamo che risulti essere $ 5 $ ft $ 9 $ pollici). Utilizzando una formula / routine statistica appropriata, calcoli il valore $ p $ per la tua ipotesi e affermi che risulta essere $ 0,06 $ .
Per interpretare $ p = 0.06 $ in modo appropriato, dovremmo tenere a mente diverse cose:
-
Il primo passo nella verifica delle ipotesi classiche è lipotesi che lipotesi in esame sia vera. (Nel nostro contesto, supponiamo che laltezza media true sia $ 5 $ ft $ 7 $ pollici.)
-
Immagina di fare il seguente calcolo: calcola la probabilità che il campione medio è maggiore di $ 5 $ ft $ 9 $ pollici assumendo che la nostra ipotesi sia effettivamente corretta (vedi punto 1) .
In altre parole, vogliamo sapere $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {pollici} \: | \: \ mathrm {Vero \: valore} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { pollici}). $$
Il calcolo nel passaggio 2 è quello che viene chiamato il valore $ p $ . Pertanto, un $ p $ -value di $ 0,06 $ significherebbe che se dovessimo ripetere il nostro esperimento molti , molte volte (ogni volta che selezioniamo $ 100 $ studenti a caso e calcoliamo la media del campione) quindi $ 6 $ volte su $ 100 $ possiamo aspettarci di vedere una media campione maggiore o uguale a $ 5 $ ft $ 9 $ pollici.
Data la comprensione di cui sopra, dovremmo comunque mantenere la nostra ipotesi che la nostra ipotesi sia vera (vedere il passaggio 1)? Bene, un $ p = 0,06 $ indica che una di due cose è accaduta:
- (A) O la nostra ipotesi è corretta e si è verificato un evento estremamente improbabile (ad esempio, tutti gli $ 100 $ studenti sono studenti atleti)
o
- (B) La nostra supposizione non è corretta e il campione che abbiamo ottenuto non è così insolito.
Il modo tradizionale di scegliere tra (A) e (B) è scegliere un arbitrario interruzione per $ p $ . Scegliamo (A) se $ p > 0.05 $ e (B) if $ p < 0,05 $ .
Commenti
- Prenditi il tuo tempo! ‘ non penserò di selezionare una ” migliore risposta ” per una settimana o così.
- Ora che ‘ ho avuto la possibilità di tornare indietro e leggere lintera risposta: un grande +1 per lesempio dellaltezza dello studente. Molto chiaro e ben strutturato.
- Bel lavoro … ma dobbiamo aggiungere (C) il nostro modello (incorporato nella formula / routine statistica) è sbagliato.
- A t -value (o qualsiasi altra statistica di test) è principalmente un passaggio intermedio. ‘ è fondamentalmente una statistica che ha dimostrato, sotto alcune ipotesi, di avere una distribuzione ben nota. Poiché conosciamo la distribuzione della statistica del test sotto il valore null, possiamo quindi utilizzare tabelle standard (oggi principalmente software) per derivare un valore p.
- Isn ‘ t il valore p derivato come risultato del test del chi quadrato e quindi dalla tabella del chi quadrato? Mi chiedo come mai la probabilità calcolata sopra abbia indicato il valore p stesso ?!
Risposta
Una finestra di dialogo tra un insegnante e uno studente premuroso
sottomesso umilmente nella convinzione che finora non siano stati usati abbastanza pastelli in questo thread. Alla fine viene visualizzata una breve sinossi illustrata.
Studente : Cosa significa un valore p? Molte persone sembrano concordare sul fatto che ” vedremo una media campione maggiore o uguale a ” una statistica o “è ” la probabilità di osservare questo risultato. .. data lipotesi nulla è vera ” o dove ” la statistica del mio campione ricadeva sulla distribuzione [simulata] ” e persino su ” la probabilità di osservare una statistica test grande almeno quanto quella calcolata assumendo che lipotesi nulla sia vera ” .
Insegnante : Comprese correttamente, tutte queste affermazioni sono corrette in molte circostanze.
Studente : Non vedo quanto la maggior parte di esse sia rilevante. Non ci hai insegnato che dobbiamo dichiarare unipotesi nulla $ H_0 $ e unipotesi alternativa $ H_A $ ? Come vengono coinvolti in queste idee di ” maggiore o uguale a ” o ” almeno altrettanto grande ” o il molto popolare ” più estremo “?
Insegnante : Poiché in generale può sembrare complicato, ci aiuterebbe esplorare un esempio concreto?
Studente : Certo. Ma per favore rendila realistica ma semplice se puoi.
Insegnante : Questa teoria della verifica delle ipotesi storicamente è iniziata con la necessità degli astronomi di analizzare gli errori di osservazione, quindi che ne dici di iniziare da lì. Un giorno stavo esaminando alcuni vecchi documenti in cui uno scienziato descriveva i suoi sforzi per ridurre lerrore di misurazione nel suo apparato. Aveva preso molte misurazioni rements di una stella in una posizione nota e ha registrato i loro spostamenti davanti o dietro quella posizione. Per visualizzare questi spostamenti, ha disegnato un istogramma che, se levigato un po , assomiglia a questo.
Studente : ricordo come funzionano gli istogrammi: lasse verticale è etichettato ” Densità ” per ricordarmi che le frequenze relative delle misurazioni sono rappresentate da area invece che altezza.
Insegnante : Esatto. Un ” insolito ” o ” extreme ” essere situato in una regione con unarea piuttosto piccola. Ecco “un pastello. Pensi di poter colorare una regione la cui area è solo un decimo del totale?
Studente : Sicuro; è facile. [Colori nella figura.]
Insegnante : Molto bene! Mi sembra circa il 10% dellarea. Ricorda, però, che le uniche aree nellistogramma che contano sono quelle tra le linee verticali: rappresentano la possibilità o probabilità che lo spostamento si troverebbe tra quelle linee sullasse orizzontale. Ciò significa che dovevi colorare fino in fondo e che sarebbe più della metà dellarea, non “vero?
Studente : Oh, capisco. Fammi riprovare. Voglio colorare dove la curva è veramente bassa, non è vero? È il più basso alle due estremità.Devo colorare solo unarea o sarebbe giusto suddividerla in più parti?
Insegnante : Usare più parti è unidea intelligente. Dove sarebbero?
Studente (indicando): qui e qui. Poiché questo pastello non è molto nitido, ho usato una penna per mostrarti le linee che sto usando.
Insegnante : molto gentile! Lascia che ti racconti il resto della storia. Lo scienziato ha apportato alcuni miglioramenti al suo dispositivo e poi ha preso ulteriori misurazioni. Ha scritto che lo spostamento del primo era di solo $ 0,1 $ , che pensava fosse un buon segno, ma essendo uno scienziato attento ha proceduto a prendere più misurazioni come controllo . Sfortunatamente, quelle altre misurazioni sono andate perse – il manoscritto si interrompe a questo punto – e tutto ciò che abbiamo è quel singolo numero, $ 0,1 $ .
Studente : Peccato. Ma non è molto meglio dellampia diffusione di spostamenti nella tua figura?
Insegnante : Quello “è la domanda a cui vorrei che tu rispondessi. Per cominciare, cosa dovremmo postulare come $ H_0 $ ?
Studente : Beh, uno scettico si chiederebbe se i miglioramenti apportati al dispositivo abbiano avuto alcun effetto. Lonere della prova è sullo scienziato: vorrebbe dimostrare che lo scettico ha torto. Questo mi fa pensare che lipotesi nulla è un po dannoso per lo scienziato: dice che tutte le nuove misurazioni – incluso il valore di $ 0,1 $ di cui siamo a conoscenza – dovrebbero comportarsi come descritto dal primo istogramma. O forse anche peggio: potrebbero essere ancora più distribuiti.
Insegnante : G o su, stai andando bene.
Studente : E quindi lalternativa è che le nuove misurazioni sarebbero meno distribuite, giusto?
Insegnante : Molto bene! Potresti disegnarmi unimmagine di come sarebbe un istogramma con meno diffusione? Ecco unaltra copia del primo istogramma; puoi disegnarci sopra come riferimento.
Studente (disegno): Sto usando una penna per delineare il nuovo istogramma e sto colorando larea sottostante. Lho fatto in modo che la maggior parte della curva sia vicina allo zero sullasse orizzontale e quindi la maggior parte della sua area sia vicina a un valore (orizzontale) pari a zero: ecco cosè significa essere meno diffusi o più precisi.
Insegnante : “È un buon inizio. Ma ricorda che un istogramma che mostra possibilità dovrebbe avere unarea totale di $ 1 $ . Larea totale del primo istogramma quindi è $ 1 $ . Quanta area cè nel tuo nuovo istogramma?
Studente : Meno della metà, credo . Vedo che “è un problema, ma non so come risolverlo. Cosa devo fare?
Insegnante : il trucco è creare il nuovo istogramma più alto del vecchio in modo che sia tota l area è $ 1 $ . Qui, ti mostrerò una versione generata dal computer per illustrare.
Studente : Capisco: lhai allungato verticalmente in modo che la sua forma non sia cambiata davvero, ma ora larea rossa e larea grigia (inclusa la parte sotto il rosso) hanno la stessa quantità.
Insegnante : Esatto. Stai guardando unimmagine dellipotesi nulla (in blu, distesa) e parte dellipotesi alternativa (in rosso, con meno dispersione).
Studente : cosa intendi per ” parte ” dellalternativa? Non è solo l ipotesi alternativa?
Insegnante : Gli statistici e la grammatica non sembrano mescolarsi. 🙂 Scherzi a parte, ciò che intendono per ” ipotesi ” di solito è un intero insieme di possibilità. Qui, lalternativa (come hai affermato molto bene prima) è che le misurazioni sono ” meno distribuite ” rispetto a prima. Ma quanto meno ? Ci sono molte possibilità. Ecco, lascia che te ne mostri un altro. Lho disegnato con trattini gialli. È tra i due precedenti.
Studente : Capisco: puoi avere diverse quantità di spread ma non sai in anticipo quanto sarà realmente lo spread. Ma perché hai creato lombreggiatura divertente in questa immagine?
Insegnante : volevo evidenziare dove e come differiscono gli istogrammi. Le ho ombreggiate in grigio dove gli istogrammi alternativi sono inferiori rispetto a zero e in rosso dove le alternative sono più alte .
Student : Perché dovrebbe importare?
Insegnante : Ricordi come hai colorato il primo istogramma in entrambe le code? [Guardando i giornali.] Ah, eccolo.Coloriamo questa immagine allo stesso modo.
Studente : Ricordo: quelli sono i valori estremi. Ho trovato i punti in cui la densità nulla era la più piccola possibile e colorata nel 10% dellarea.
Insegnante : Parlami delle alternative in quelle aree estreme.
Studente : È “difficile da vedere, perché il pastello lo ha coperto, ma sembra lì” Non cè quasi alcuna possibilità che unalternativa si trovi nelle aree che ho colorato. I loro istogrammi sono esattamente in basso rispetto allasse dei valori e non cè spazio per nessuna area sottostante.
Insegnante : Continuiamo con questo pensiero. Se ti dicessi, ipoteticamente, che una misurazione ha uno spostamento di $ – 2 $ e ti chiedessi di scegliere quale di queste tre istogrammi era quello da cui proveniva molto probabilmente, quale sarebbe?
Studente : Il primo, quello blu. È il più diffuso a e “è lunico in cui $ – 2 $ sembra avere qualche possibilità di verificarsi.
Insegnante : E che dire del valore di $ 0,1 $ nel manoscritto?
Studente : Hmmm … quello “è diverso storia. Tutti e tre gli istogrammi sono abbastanza alti dal suolo a $ 0,1 $ .
Insegnante : OK, abbastanza giusto. Ma supponiamo di averti detto che il valore era da qualche parte vicino a $ 0,1 $ , come tra $ 0 $ e $ 0,2 $ . Questo ti aiuta a leggere alcune probabilità da questi grafici?
Studente : Certo, perché posso usare le aree. Devo solo stimare le aree al di sotto di ogni curva tra $ 0 $ e $ 0,2 $ . Ma sembra piuttosto difficile.
Insegnante : Non hai bisogno di andare così lontano. Puoi solo dire qual è larea più grande?
Studente : quella sotto la curva più alta, ovviamente. Tutte e tre le aree hanno la stessa base, quindi più alta è la curva, più area cè sotto di essa e la base. Ciò significa che listogramma più alto: quello che ho disegnato, con i trattini rossi – è il più probabile per uno spostamento di $ 0,1 $ . Penso di vedere dove stai andando con questo, ma io “ma un po preoccupato: non devo guardare tutti gli istogrammi per tutte le alternative, non solo una o due mostrate qui? Come potrei farlo?
Insegnante : Sei bravo a cogliere schemi, quindi dimmi: man mano che lapparato di misurazione è reso sempre più preciso, cosa succede a il suo istogramma?
Studente : si restringe – oh, e deve anche diventare più alto, quindi la sua area totale rimane la stessa. Ciò rende piuttosto difficile il confronto gli istogrammi. Quelli alternativi sono tutti più alti del nullo a destra di $ 0 $ , questo è ovvio. Ma ad altri valori a volte le alternative sono più alte ea volte sono più basse! Ad esempio, [indicando un valore vicino a $ 3/4 $ ], proprio qui mio istogramma rosso è il più basso, listogramma giallo è il il più alto e listogramma nullo originale si trova tra di loro. Ma a destra il valore nullo è il più alto.
Insegnante : In generale, confrontare gli istogrammi è unattività complicata. Per aiutarci a farlo, ho chiesto al computer di creare un altro grafico: ha diviso ciascuna delle altezze alternative dellistogramma (o ” densità “) dallaltezza dellistogramma nulla, creando valori noti come ” rapporti di verosimiglianza. ” Di conseguenza , un valore maggiore di $ 1 $ significa che lalternativa è più probabile, mentre un valore minore di $ 1 $ significa lalternativa è meno probabile. Ha disegnato ancora unaltra alternativa: è più estesa delle altre due, ma comunque meno estesa rispetto allapparato originale.
Insegnante (continua): Potrebbe mostrarmi dove le alternative tendono ad essere più probabili rispetto allo zero?
Studente (colorazione): qui nel mezzo, ovviamente. E poiché questi non sono più istogrammi, immagino che dovremmo guardare alle altezze piuttosto che alle aree, quindi sto solo segnando un intervallo di valori sullasse orizzontale. Ma come faccio a sapere quanta parte della metà da colorare? Dove smetto di colorare?
Insegnante : Non esiste una regola precisa. Tutto dipende da come intendiamo utilizzare le nostre conclusioni e da quanto sono feroci gli scettici.Ma siediti e pensa a ciò che hai realizzato: ora ti rendi conto che i risultati con rapporti di probabilità elevati sono una prova per lalternativa e i risultati con rapporti di probabilità piccoli sono una prova contro lalternativa . Quello che ti chiederò di fare è colorare unarea che, per quanto possibile, ha una piccola possibilità di verificarsi con lipotesi nulla e una probabilità relativamente grande di verificarsi con le alternative. Tornando al primo diagramma che hai colorato, allinizio della nostra conversazione, hai colorato le due code del null perché erano ” estremi. ” Farebbero comunque un buon lavoro?
Studente : Non credo. Anche se erano piuttosto estremi e rari sotto lipotesi nulla, sono praticamente impossibili per qualsiasi alternativa. Se la mia nuova misurazione fosse, diciamo $ 3.0 $ , penso che mi schiererei con lo scettico e negherei che si sia verificato un miglioramento, anche se $ 3.0 $ è stato un risultato insolito in ogni caso. Voglio cambiare quel colore. Ecco, fammi prendere un altro pastello.
Insegnante : cosa rappresenta?
Studente : Abbiamo iniziato chiedendomi di disegnare solo il 10% dellarea sotto listogramma originale, quello che descrive il nullo. Quindi ora Ho disegnato nel 10% dellarea in cui le alternative sembrano più probabili. Penso che quando una nuova misurazione è in quellarea, ci sta dicendo che dovremmo credere allalternativa.
Insegnante : E come dovrebbe reagire lo scettico a questo?
Studente : uno scettico non deve mai ammettere di avere torto, vero? Ma penso che la sua fede dovrebbe essere un po scossa. Dopotutto, labbiamo organizzato in modo che, sebbene una misurazione potesse essere allinterno dellarea che ho appena disegnato, ha solo il 10% di possibilità di essere lì quando il valore nullo è vero. E ha maggiori possibilità di essere lì quando lalternativa è vera. Non posso proprio dirti quanto sia maggiore questa possibilità, perché dipenderebbe da quanto lo scienziato ha migliorato lapparato. So solo che è più grande. Quindi le prove sarebbero contro lo scettico.
Insegnante : Va bene. Ti dispiacerebbe riassumere la tua comprensione in modo da “essere perfettamente chiari su ciò che hai imparato?
Studente : Ho imparato che per confrontare ipotesi alternative con ipotesi nulle, dovremmo confrontare le loro istogrammi. Dividiamo le densità delle alternative per la densità del valore nullo: è quello che hai chiamato ” rapporto di verosimiglianza. ” Per fare un buon test, dovrei scegliere un piccolo numero come il 10% o qualsiasi altra cosa potrebbe essere sufficiente per scuotere uno scettico. Quindi dovrei trovare valori in cui il rapporto di verosimiglianza è il più alto possibile e colorarli fino a quando il 10% (o qualsiasi altra cosa) è stato colorato.
Insegnante : E come useresti quella colorazione?
Studente : Come mi hai ricordato prima, la colorazione deve essere tra le linee verticali. I valori (sullasse orizzontale) che giacciono sotto la colorazione sono prove contro lipotesi nulla. Altri valori: beh, è difficile dire cosa potrebbero significare senza dare uno sguardo più dettagliato a tutti gli istogrammi coinvolti.
Insegnante : tornando al valore di $ 0,1 $ nel manoscritto, cosa concluderesti?
Studente : si trova nellarea che ho colorato lultima volta , quindi penso che lo scienziato probabilmente avesse ragione e lapparato fosse davvero migliorato.
Insegnante : Unultima cosa. La tua conclusione si è basata sulla scelta del 10% come criterio o ” size ” del test. A molte persone piace invece usare il 5%. Alcuni preferiscono l1%. Cosa potresti dire loro?
Studente : Non potrei fare tutti quei test in una volta! Beh, forse potrei in un certo senso. Posso vedere che non importa quale sia la dimensione il test dovrebbe essere, dovrei iniziare a colorare da $ 0 $ , che in questo senso è il ” più estremo ” valore e da lì procedo verso lesterno in entrambe le direzioni. Se mi fermassi a $ 0,1 $ , il valore effettivamente osservato – Penso che avrei colorato unarea tra $ 0,05 $ e $ 0,1 $ , ad esempio $ 0,08 $ . Il 5% e l1% delle persone hanno capito subito che ho colorato troppo: se volevano colorare solo il 5% o l1%, potrebbero, ma non lo farebbero “Per arrivare fino a $ 0,1 $ . Non sarebbero arrivati alla stessa conclusione che ho fatto io: direbbero che non ci sono prove sufficienti che un cambiamento sia effettivamente avvenuto.
Insegnante : Mi hai appena detto tutto quelle citazioni allinizio significano veramente .Dovrebbe essere ovvio da questo esempio che non è possibile intendere ” più estremo ” o ” maggiore o uguale a ” o ” almeno altrettanto grande ” nel senso di avere un valore più grande o addirittura avere un valore in cui la densità nulla è piccola. Intendono davvero queste cose nel senso di grandi rapporti di probabilità che hai descritto. A proposito, il numero intorno a $ 0,08 $ che hai calcolato è chiamato ” valore p. ” Può essere compreso correttamente solo nel modo che hai descritto: rispetto a unanalisi delle altezze relative dellistogramma – i rapporti di verosimiglianza.
Studente : Grazie. Non sono sicuro di aver ancora compreso appieno tutto questo, ma mi hai dato molto su cui riflettere.
Insegnante : Se vuoi andare oltre, prendi un guarda il Neyman-Pearson Lemma . Probabilmente sei pronto per capirlo adesso.
Sinossi
Molti test basati su una singola statistica come quella nella finestra di dialogo la chiameranno ” $ z $ ” o ” $ t $ “. Questi sono modi per suggerire laspetto dellistogramma nullo, ma sono solo suggerimenti: ciò che chiamiamo questo numero non ha molta importanza. La costruzione riassunta dallo studente, come illustrato qui, mostra come è correlata al valore p. Il valore p è la dimensione del test più piccola che farebbe sì che unosservazione di $ t = 0.1 $ porti a un rifiuto dellipotesi nulla.
In questa figura, ingrandita per mostrare i dettagli, lipotesi nulla è tracciata in blu fisso e due alternative tipiche sono tracciate con linee tratteggiate. La regione in cui queste alternative tendono ad essere molto più grandi del valore nullo è ombreggiata. Lombreggiatura inizia dove le probabilità relative delle alternative sono maggiori (a $ 0 $ ). Lombreggiatura si interrompe quando viene raggiunta losservazione $ t = 0.1 $ . Il valore p è larea della regione ombreggiata sotto listogramma nullo: è la possibilità, assumendo che nullo sia vero, di osservare un risultato i cui rapporti di verosimiglianza tendono ad essere grandi indipendentemente da quale alternativa sia vera. In particolare, questa costruzione dipende intimamente dallipotesi alternativa. Non può essere eseguito senza specificare le possibili alternative.
Per due esempi pratici del test qui descritto – uno pubblicato, laltro ipotetico – vedere https://stats.stackexchange.com/a/5408/919 .
Commenti
- Questo ha ha gestito in modo eccellente il mio commento su unaltra risposta, che nessuna delle risposte precedenti a questa domanda aveva affrontato, in generale, il ” o più estremo aspetto di un valore p . (Sebbene la ” tea-testing ” risposta includesse un buon esempio specifico.) Ammiro in particolare il modo in cui questo esempio è stato deliberatamente costruito per evidenziare che ” più estremo ” può significare esattamente il contrario di ” più grande ” o ” più lontano da zero “.
- Vorrei che insegnanti e libri di testo non ‘ usassero la frase ” o più estremi “, davvero. Due varianti che ho sentito potrebbero essere parafrasate come ” più favorevoli nei confronti di $ H_1 $ ” o ” più persuasivo di $ H_1 $ “. In questo caso, valori più vicini allo zero sarebbero effettivamente più convincenti che il telescopio è diventato più affidabile, ma richiede alcune acrobazie linguistiche (argomentate in modo plausibile, ma potenzialmente confuse) per descriverli come ” più estremo “.
- Univocamente perspicace come sempre, grazie per aver dedicato del tempo a scrivere queste risposte incredibilmente utili. Mi chiedo davvero perché i libri di testo non siano mai scritti in un modo che offra nulla vicino a questi livelli di chiarezza e intuizione.
- È ‘ pericoloso usare il sarcasmo in un commento , @baxx, perché ‘ spazio insufficiente ci ha permesso di farlo in modo educato ed elegante. Quindi ‘ di solito non è una buona idea supporre che un commento sia sarcastico a meno che non te lo dica esplicitamente.Presumi solo che i commenti abbiano lo scopo di aiutarti. Se seguissi semplicemente il primo risultato nella ricerca che ho fornito, penso che le tue domande avrebbero una risposta.
- Semplicemente fantastico! Grazie @whuber!
Risposta
Prima di toccare questo argomento, mi assicuro sempre che gli studenti sono felici di spostarsi tra percentuali, decimali, quote e frazioni. Se non sono completamente soddisfatti di questo, possono confondersi molto rapidamente.
Mi piace spiegare il test di ipotesi per la prima volta (e quindi i valori p e le statistiche dei test) tramite Fisher ” s classico esperimento del tè. Ho diverse ragioni per questo:
(i) Penso che lavorare attraverso un esperimento e definire i termini mentre procediamo abbia più senso che definire tutti questi termini per cominciare. (ii) Non è necessario fare affidamento esplicito su distribuzioni di probabilità, aree sotto la curva, ecc. per superare i punti chiave della verifica delle ipotesi. (iii) Spiega questa ridicola nozione di “come o più estremi di quelli osservati” in un modo abbastanza ragionevole (iv) Trovo che agli studenti piace capire la storia, le origini e la storia di ciò che stanno studiando in quanto lo rende più reale di alcune teorie astratte. (v) Non importa da quale disciplina o materia provengano gli studenti, possono riferirsi allesempio del tè (NB Alcuni studenti internazionali hanno difficoltà con questa istituzione tipicamente britannica del tè con il latte.)
[Nota: originariamente ho avuto questa idea dal meraviglioso articolo di Dennis Lindley “The Analysis of Experimental Data: The Appreciation of Tea & Wine” in cui dimostra perché i metodi bayesiani sono superiori a metodi classici.]
La storia di fondo è che Muriel Bristol fa visita a Fisher un pomeriggio negli anni 20 alla Rothamsted Experimental Station per una tazza di tè. Quando Fisher ha messo il latte per ultima, si è lamentata dicendo che poteva dire anche se il latte è stato versato per primo (o per ultimo) e che lei ha preferito il primo. Per metterlo alla prova ha progettato il suo classico esperimento del tè in cui Muriel si presenta con un paio di tazze da tè e lei deve identificare quale aveva il latte aggiunto per primo. Questo si ripete con sei paia di tazze da tè ices è giusto (R) o sbagliato (W) e i suoi risultati sono: RRRRRW.
Supponi che Muriel stia effettivamente solo indovinando e non abbia la capacità di discriminare in alcun modo. Questa è chiamata Ipotesi nulla . Secondo Fisher lo scopo dellesperimento è screditare questa ipotesi nulla. Se Muriel sta indovinando, identificherà correttamente la tazza da tè con probabilità 0,5 ad ogni turno e poiché sono indipendenti il risultato osservato è 0,5 $ ^ 6 $ = 0,016 (o 1/64). Fisher sostiene quindi che:
(a) lipotesi nulla (Muriel sta indovinando) è vera e si è verificato un evento di piccola probabilità oppure,
(b) lipotesi nulla è falsa e Muriel ha poteri discriminatori.
Il valore p (o valore di probabilità) è la probabilità di osservare questo risultato (RRRRRW) dato che lipotesi nulla è vera – è la piccola probabilità a cui si fa riferimento in (a) , sopra. In questo caso è 0,016. Poiché eventi con piccole probabilità si verificano solo raramente (per definizione) la situazione (b) potrebbe essere una spiegazione più preferibile di ciò che è accaduto rispetto alla situazione (a). Quando rifiutiamo lipotesi nulla, stiamo di fatto accettando lipotesi opposta che chiamiamo ipotesi alternativa. In questo esempio, Muriel ha poteri discriminatori è lipotesi alternativa.
Una considerazione importante è cosa facciamo classe come probabilità “piccola”? Qual è il punto limite in cui siamo disposti a dire che un evento è improbabile? Il benchmark standard è del 5% (0,05) e questo è chiamato livello di significatività. Quando il valore p è inferiore al livello di significatività rifiutiamo lipotesi nulla in quanto falsa e accettiamo la nostra ipotesi alternativa. È un linguaggio comune affermare che un risultato è “significativo” quando il valore p è inferiore al livello di significatività, cioè quando la probabilità di ciò che noi loccorrenza osservata data lipotesi nulla è vera è inferiore al nostro punto di cutoff. È importante essere chiaro che luso del 5% è completamente soggettivo (così come lutilizzo degli altri livelli di significatività comuni dell1% e del 10%).
Fisher si rese conto che questo non “t opera; ogni possibile risultato con una coppia sbagliata era ugualmente indicativo di poteri discriminatori. La probabilità pertinente per la situazione (a), sopra, è quindi 6 (0,5) ^ 6 = 0,094 (o 6/64) che ora è non significativa a un livello di significatività del 5%. Per ovviare a questo problema, Fisher ha affermato che se 1 errore su 6 è considerato prova di poteri discriminatori, allora non lo sono errori, ad es.i risultati che indicano più fortemente poteri discriminatori rispetto a quello osservato dovrebbero essere inclusi nel calcolo del valore p. Ciò ha portato al seguente emendamento al ragionamento:
(a) lipotesi nulla (Muriel sta indovinando) è vera e la probabilità di eventi come, o più, estremi di quella osservata è piccola, o
(b) lipotesi nulla è falsa e Muriel ha poteri discriminatori.
Tornando al nostro esperimento sul tè, troviamo che il valore p in questa configurazione è 7 (0,5 ) ^ 6 = 0,109 che ancora non è significativo alla soglia del 5%.
Quindi convinco gli studenti a lavorare con altri esempi come il lancio di monete per capire se una moneta è giusta o meno. Questo trapana a casa i concetti dellipotesi nulla / alternativa, dei valori p e dei livelli di significatività. Passiamo quindi al caso di una variabile continua e introduciamo la nozione di statistica test. Poiché abbiamo già trattato la distribuzione normale, la distribuzione normale standard e la trasformazione z in profondità, è semplicemente una questione di riunire insieme diversi concetti.
Oltre a calcolare statistiche di test, valori p e prendere una decisione (significativa / non significativa) convinco gli studenti a lavorare su documenti pubblicati in un gioco di riempimento degli spazi vuoti.
Commenti
- I so che ‘ sto in qualche modo rianimando un thread molto vecchio, ma eccolo qui … Mi è piaciuto molto la tua risposta, ma mi manca la parte del valore t 🙁 Potresti per favore usa gli esempi forniti per parlarne? Nessuno ha risposto sulla parte del test t
- @sosi È ‘ probabilmente perché i valori p sono molto di più generale rispetto ai valori t. ‘ è come fare una domanda sulle auto e poi sui freni di una Ford Fiesta.
- La risposta è molto interessante (+ 1), ma alla fine alcune cose si confondono insieme 1. W cosa significa che un $ p $ -value è ” significativo al livello del 5% “? O il valore $ p $ è inferiore al 5% o non lo è. Non ‘ il motivo di usare una frase così oscura, lasciando ” significato ” indefinito. 2. Che cosa significa ” decidere ” se un valore $ p $ è significativo o meno? Non sembra giustificato introdurre la teoria delle decisioni nel mix in questo modo (soprattutto perché Fisher era un forte oppositore dellapplicazione del framework di test Neyman-Pearson nelle scienze).
Risposta
Nessuna spiegazione verbale o calcoli mi ha veramente aiutato a capire a livello istintivo quali fossero i valori p, ma per me è stato davvero messo a fuoco una volta che ho seguito un corso che prevedeva la simulazione. Questo mi ha dato la possibilità di vedere effettivamente i dati generati dallipotesi nulla e di tracciare i mezzi / ecc. di campioni simulati, quindi guarda dove si trova la statistica del mio campione su quella distribuzione.
Penso che il vantaggio principale di questo sia che consente agli studenti di dimenticare per un minuto la matematica e le distribuzioni delle statistiche dei concentrarsi sui concetti a portata di mano. Certo, è necessario che imparassi come simulare quelle cose, il che causerà problemi a un gruppo di studenti completamente diverso. Ma ha funzionato per me, e ho usato simulazione innumerevoli volte per aiutare a spiegare le statistiche ad altri con grande successo (ad esempio, “Questo è laspetto dei tuoi dati; questo è laspetto di una distribuzione di Poisson sovrapposta. Sei SICURO di voler fare una regressione di Poisson?”).
Questo non risponde esattamente alle domande che hai posto, ma almeno per me le ha rese banali.
Commenti
- Sono pienamente daccordo sulluso della simulazione per spiegare questo. Ma solo una piccola nota sullesempio alla fine: trovo che le persone (non solo gli studenti) lo trovano difficile da distinguere per qualsiasi particolare assunto distributivo, ad es. il poisson, tra lessere distribuito marginalmente poisson e lessere distribuito poisson condizionatamente . Poiché solo questultimo è importante per un modello di regressione, un gruppo di valori di variabili dipendenti che non sono ‘ t poisson non devono necessariamente essere motivo di preoccupazione.
- Ho confessare che ‘ non lo sapevo. ‘ ho davvero apprezzato i tuoi commenti su questo sito negli ultimi giorni della tua iscrizione. Spero che ‘ rimarrai.
- @MattParker conosci qualche risorsa di apprendimento incentrata sulluso della simulazione per sviluppare la comprensione? O è solo un caso di mettere insieme alcuni script python / R e di eseguire una serie di test?
- @baxx Il [sito web di Seeing Theory di Daniel Kunin] (students.brown.edu/seeing-theory/ ) ha alcuni strumenti interessanti per questo, ma ‘ è ancora in costruzione.Altrimenti, sì, ‘ ho in gran parte solo sperimentato con gli strumenti integrati di R ‘ per la simulazione, utilizzandoli per dimostrare a me stesso come qualche metodo funziona, o per vedere cosa succederebbe se un predittore fosse sostituito con una variabile casuale, ecc. Scusa, vorrei conoscere risorse migliori per questo!
- @MattParker cool grazie. Sì – un po di pollo e uovo in quello, per costruire gli esperimenti (presumo?) Devi almeno averne abbastanza per scriverli. Nessun problema però ….. Ho appena controllato il sito che hai collegato, ‘ è gentile, grazie
Risposta
Una bella definizione di valore p è “la probabilità di osservare una statistica test grande almeno quanto quella calcolata assumendo che lipotesi nulla sia vera”.
Il problema è che richiede una comprensione della “statistica del test” e dell “ipotesi nulla”. Ma è facile da capire. Se lipotesi nulla è vera, di solito qualcosa come “il parametro della popolazione A è uguale al parametro della popolazione B”, e calcoli le statistiche per stimare quei parametri, qual è la probabilità di vedere un statistica del test che dice “sono” così diversi “?
Ad esempio, se la moneta è giusta, qual è la probabilità che io” vedrei 60 teste su 100 lanci? Questo sta verificando lipotesi nulla , “la moneta è giusta” o “p = 0,5” dove p è la probabilità di testa.
La statistica del test in quel caso sarebbe il numero di teste.
Ora, presumo che ciò che “chiami” valore-t “sia una” statistica test “generica, non un valore di una” distribuzione t “. non è la stessa cosa, e il termine “valore t” non è “t (necessariamente) ampiamente utilizzato e potrebbe creare confusione.
Ciò che” chiami “valore t” è probabilmente quello che io chiamo “statistica di prova”. Per calcolare un valore p (ricorda, è solo una probabilità) hai bisogno di una distribuzione e di un valore da collegare a quella distribuzione che restituirà una probabilità. Una volta che lo fai, la probabilità che ritorni è il tuo valore p. Puoi vedere che sono correlati perché sotto la stessa distribuzione, diverse statistiche di test restituiranno valori p diversi. Statistiche di test più estreme restituiranno valori di p più bassi dando maggiore indicazione che lipotesi nulla è falsa.
Ho “ignorato il problema dei valori p unilaterali e bilaterali qui.
Risposta
Immagina di avere una borsa contenente 900 biglie nere e 100 bianche, ovvero il 10% delle biglie sono bianche. Ora immagina di estrarre 1 biglia, guardarla e registrarne il colore, estrarne unaltra, registrarne il colore ecc. . e fallo 100 volte. Alla fine di questo processo avrai un numero per le biglie bianche che, idealmente, ci aspetteremmo essere 10, cioè il 10% di 100, ma in realtà potrebbe essere 8, o 13 o qualsiasi altra cosa semplicemente per casualità. Se ripeti questo esperimento di estrazione di 100 biglie molte, molte volte e poi traccia un istogramma del numero di biglie bianche disegnate per esperimento, scoprirai che avrai una curva a campana centrata su 10.
Questo rappresenta la tua ipotesi del 10%: con qualsiasi borsa contenente 1000 biglie di cui il 10% bianche, se tiri fuori 100 biglie a caso troverai 10 biglie bianche nella selezione, dai o prendi 4 circa. Il valore p è tutto su questo “dare o prendere 4 o giù di lì”. Diciamo che facendo riferimento alla curva a campana creata in precedenza puoi determinare che meno del 5% delle volte otterrai 5 o meno biglie bianche e un altro < il 5% delle volte rappresenta 15 o più biglie bianche, vale a dire> 90% delle volte la tua selezione di 100 biglie conterrà da 6 a 14 biglie bianche incluse.
Ora supponendo che qualcuno metta giù un sacchetto di 1000 biglie con un numero sconosciuto di ci sono biglie bianche, abbiamo gli strumenti per rispondere a queste domande
i) Ci sono meno di 100 biglie bianche?
ii) Ci sono più di 100 biglie bianche?
iii) La borsa contiene 100 biglie bianche?
Basta estrarre 100 biglie dalla borsa e contare quante di questo campione sono bianche.
a) Se ci sono sono da 6 a 14 bianchi nel campione non si può rifiutare lipotesi che ci siano 100 biglie bianche nella borsa e i corrispondenti valori di p da 6 a 14 saranno> 0,05.
b) Se ci sono 5 o meno bianchi nel campione che puoi reje ct lipotesi che ci siano 100 biglie bianche nel sacchetto e i corrispondenti valori di p per 5 o meno saranno < 0,05. Ti aspetteresti che il sacchetto contenga < 10% di biglie bianche.
c) Se ci sono 15 o più bianchi nel campione puoi rifiutare lipotesi che ci ci sono 100 biglie bianche nel sacchetto e i valori p corrispondenti per 15 o più saranno < 0,05. Ti aspetteresti che la borsa contenga> 10% di biglie bianche.
In risposta al commento di Baltimark
Dato lesempio sopra, cè un : –
4.8% di possibilità di ottenere 5 palline bianche o meno
1,85% di possibilità di 4 o meno
0,55% di possibilità di 3 o meno
0,1% di possibilità di 2 o meno
6,25% di probabilità di almeno 15
3,25% di possibilità di 16 o più
1,5% di possibilità di 17 o più
0,65% di probabilità di 18 o più
0,25% di possibilità di 19 o più
0,1% di possibilità di 20 o più
0,05% di 21 o più
Questi numeri sono stati stimati da una distribuzione empirica generata da una semplice routine Monte Carlo eseguita in R e dai quantili risultanti della distribuzione di campionamento.
Per rispondere alla domanda originale, supponi di disegnare 5 palline bianche, cè solo una probabilità approssimativa del 4,8% che se la borsa da 1000 biglie contiene davvero il 10% di palline bianche, ne tireresti fuori solo 5 bianchi in un campione di 100. Ciò equivale a un valore p < 0,05. Ora devi scegliere tra
i) Ci sono davvero il 10% di palline bianche nella borsa e sono stato “sfortunato” a pescarne così poche
o
ii) Ho disegnato così poche palline bianche che non possono esserci palline bianche al 10% (rifiuta lipotesi del 10% di palline bianche)
Commenti
- Prima di tutto, questo è solo un grande esempio e ‘ non spiega davvero il concetto di valore p e statistica test. In secondo luogo, ‘ stai solo sostenendo che se ottieni meno di 5 o più di 15 biglie bianche, rifiuti lipotesi nulla. Qual è ‘ la tua distribuzione che tu ‘ ricalcolare quelle probabilità da? Questo può essere approssimato con una distanza normale centrata su 10, con una deviazione standard di 3. I tuoi criteri di rifiuto non sono abbastanza rigidi.
- Sono daccordo che questo sia solo un esempio, ed è vero che ho appena scelto i numeri 5 e 15 dalla a ir a scopo illustrativo. Quando avrò tempo, posterò una seconda risposta, che spero sarà più completa.
Risposta
Ciò che il valore p non ti dice è quanto sia probabile che lipotesi nulla sia vera. Nel quadro del test di significatività convenzionale (Fisher) calcoliamo prima la probabilità di osservare i dati assumendo che lipotesi nulla sia vera, questa è la Valore p. Sembra quindi intuitivamente ragionevole presumere che lipotesi nulla sia probabilmente falsa se i dati sono sufficientemente improbabili da essere osservati sotto lipotesi nulla. Questo è del tutto ragionevole. Gli statistici usano trandizionalmente una soglia e “rifiutano lipotesi nulla al 95 % livello di significatività “se (1 – p)> 0,95; tuttavia questa è solo una convenzione che si è dimostrata ragionevole in pratica – non” significa che ci sia meno del 5% di probabilità che lipotesi nulla sia falsa (e quindi un 95 % di probabilità che lipotesi alternativa sia vera). Una ragione per cui non possiamo dirlo è che non abbiamo ancora esaminato lipotesi alternativa.
Immaginando una funzione f () che mappa il valore p sulla probabilità che lipotesi alternativa sia vera. Sarebbe ragionevole affermare che questa funzione è strettamente decrescente (in modo tale che più probabili sono le osservazioni sotto lipotesi nulla, meno probabile che lipotesi alternativa sia vera) e che dia valori compresi tra 0 e 1 (poiché fornisce una stima di probabilità). Tuttavia, questo è tutto ciò che sappiamo di f (), quindi mentre esiste una relazione tra p e la probabilità che lipotesi alternativa sia vera, non è calibrata. Ciò significa che non possiamo usare il valore p per rendere affermazioni quantitative sulla plausibilità delle ipotesi nulll e alternative.
Avvertimento: non è proprio nel quadro frequentista parlare della probabilità che unipotesi sia vera, in quanto non è “una variabile casuale – o è vero o non lo è. Quindi, quando ho parlato della probabilità della verità di unipotesi, sono passato implicitamente a uninterpretazione bayesiana. Non è corretto mescolare bayesiano e frequentista, tuttavia cè sempre la tentazione di farlo poiché ciò che vogliamo veramente è unindicazione quantitativa della relativa plausibilità / probabilità delle ipotesi. Ma questo non è ciò che fornisce il valore p.
Risposta
Nelle statistiche non puoi mai dire che qualcosa è assolutamente certo, quindi gli statistici utilizzano un altro approccio per valutare se unipotesi è vera o meno. Tentano di rifiutare tutte le altre ipotesi che non sono supportate dai dati.
Per fare ciò, i test statistici hanno unipotesi nulla e unipotesi alternativa. Il valore p riportato da un test statistico è la probabilità del risultato dato che lipotesi nulla era corretta. Questo è il motivo per cui vogliamo valori p piccoli. Più piccoli sono, meno probabile sarebbe il risultato se lipotesi nulla fosse corretta. Se il valore p è abbastanza piccolo (cioè, è molto improbabile che il risultato abbia si è verificato se lipotesi nulla era corretta), lipotesi nulla viene rifiutata.
In questo modo, ipotesi nulle possono essere formulate e successivamente rifiutate. Se lipotesi nulla viene rifiutata, accetti lipotesi alternativa come la migliore spiegazione. Ricorda però che lipotesi alternativa non è mai certa, poiché lipotesi nulla potrebbe aver generato, per caso, i risultati.
Commenti
- a p -valore è la probabilità di un risultato pari o superiore a ” extreme ” del risultato fornito, non del risultato effettivo. Il valore p è $ Pr (T \ geq t | H_0) $ e non $ Pr (T = t | H_0) $ (T è la statistica del test e t è il suo valore osservato).
Risposta
Sono un po diffidente nel far rivivere il vecchio argomento, ma sono saltato da qui , quindi pubblico questo come risposta alla domanda nel link.
Il valore p è un termine concreto, non dovrebbe esserci spazio per incomprensioni. Ma è in qualche modo mistico che le traduzioni colloquiali della definizione di valore p conducano a molte interpretazioni errate differenti. Penso che la radice del problema sia nelluso delle frasi “almeno altrettanto avverse allipotesi nulla” o “almeno altrettanto estreme di quella nei tuoi dati di esempio” ecc.
Ad esempio, Wikipedia dice
… il valore p è la probabilità di ottenere i risultati del campione osservato (o un risultato più estremo) quando lipotesi nulla è effettivamente vera .
Il significato di $ p $ -value è sfocato quando le persone si imbattono per la prima volta in “(o in un risultato più estremo)” e iniziano a pensare “ più estremo ? “.
Penso che sia meglio lasciare il” risultato più estremo “a qualcosa come atto vocale indiretto . Quindi, la mia opinione è
Il valore p è la probabilità di vedere ciò che vedi in un “mondo immaginario” in cui lipotesi nulla è vera.
Per rendere lidea concreta, supponi di avere un campione x
composto da 10 osservazioni e ipotizzi che la popolazione la media è $ \ mu_0 = 20 $. Quindi, nel tuo mondo ipotizzato, la distribuzione della popolazione è $ N (20,1) $.
x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633
Calcoli t-stat come $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, e scopri che
sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405
Quindi, qual è la probabilità di osservare $ | t_0 | $ fino a 2,97 (“più estremo” viene qui) nel mondo immaginario? Nel mondo immaginario $ t_0 \ sim t (9) $, quindi, il valore p deve essere $$ valore p = Pr (| t_0 | \ geq 2.97) = 0,01559054 $$
2*(1 - pt(2.974405, 9)) #[1] 0.01559054
Dato che p-value è piccolo, è molto improbabile che il campione x
sarebbe stato disegnato nel mondo ipotizzato. Pertanto, concludiamo che è molto improbabile che il mondo ipotizzato fosse in realtà il mondo reale.
Commenti
- +1, ma quando scrivi ” probabilità di vedere ciò che vedi ” e ometti il ” più estremo “, questa frase diventa in senso stretto falsa (e potenzialmente fuorviante, anche se forse meno confusa). Non è la probabilità di vedere ciò che vedi (di solito è zero). È la probabilità di vedere ciò che vedi ” o più estremo “. Anche se questo potrebbe creare confusione per molti, è comunque cruciale (e si può discutere allinfinito sul grado di soggettività che si nasconde dietro questo ” più estremo ” formulazione).
- @amoeba Ho pensato che, se fornito un esempio adeguato, potrebbe servire da proxy per ” ottenere i risultati campione osservati (o un risultato più estremo) “. Forse è necessaria una formulazione migliore.
- Stavo per fare la stessa osservazione di @amoeba; la parte ” o più estrema ” è gestita bene dagli esempi nelle risposte Student Heights e Tea Party, ma io non ‘ Penso che nessuna risposta in questo thread abbia trovato una spiegazione generale chiara, in particolare una che copre diverse ipotesi alternative. Sono daccordo con questa risposta che suggerisce che la parte ” o più estrema ” sia un punto critico per molti studenti.
- @Silverfish: e non solo studenti. Quante insulti bayesiani contro frequentatori ho letto che discutono la questione soggettività / oggettività di questo ” più estremo ” bit!
- @Silver Sono daccordo con le tue critiche e ho postato una risposta cercando di affrontarle. ” O più estremo ” è il nocciolo della questione.
Risposta
Ho anche scoperto che le simulazioni sono utili nellinsegnamento.
Ecco una simulazione per il caso probabilmente più semplice in cui campioniamo $ n $ volte da $ N (\ mu, 1) $ (quindi, $ \ sigma ^ 2 = 1 $ è noto per semplicità ) e prova $ H_0: \ mu = \ mu_0 $ contro unalternativa di sinistra.
Quindi, $ t $ -statistic $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ $ è $ N (0,1) $ sotto $ H_0 $, in modo tale che il valore $ p $ sia semplicemente $ \ Phi (\ text {tstat}) $ o pnorm(tstat)
in R.
Nella simulazione , è la frazione di volte in cui i dati generati sotto $ N (\ mu_0,1) $ nullo (qui, $ \ mu_0 = 2 $) restituiscono mezzi campione memorizzati in nullMeans
che sono inferiori (ovvero “più estremi” “in questo test sul lato sinistro) di quelli calcolati dai dati osservati.
# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat)
Risposta
Trovo utile seguire una sequenza in cui spieghi i concetti nel seguente ordine: (1) Il punteggio z e le proporzioni sopra e sotto il punteggio z assumendo un curva normale. (2) La nozione di distribuzione campionaria e il punteggio z per un dato campione significano quando la deviazione standard della popolazione è nota (e quindi il test z per un campione) (3) Il test t per un campione e la probabilità di un media campionaria quando la deviazione standard della popolazione è sconosciuta (piena di storie sullidentità segreta di un certo statistico industriale e sul perché la Guinness è buona per le statistiche). (4) Il test t su due campioni e la distribuzione campionaria delle differenze medie. La facilità con cui gli studenti introduttivi afferrano il test t ha molto a che fare con le basi preparate per questo argomento.
/ * modalità istruttore studenti terrorizzati disattivata * /
Risposta
Che cosa significa un “valore p” in relazione allipotesi in esame?
In senso ontologico (cosè la verità?), significa niente . Qualsiasi verifica delle ipotesi si basa su presupposti non testati . Questo fa normalmente parte del test stesso, ma fa anche parte del modello che stai utilizzando (ad esempio in un modello di regressione). Poiché stiamo semplicemente assumendo questi, non possiamo sapere se il motivo per cui il valore p è inferiore alla nostra soglia è perché il valore nullo è falso. È un non sequitur dedurre incondizionatamente che a causa di un valore p basso dobbiamo rifiutare il valore nullo. Ad esempio, qualcosa nel modello potrebbe essere sbagliato.
In senso epistemologico (cosa possiamo imparare?), significa qualcosa . Acquisisci conoscenza condizionale sul fatto che le premesse non testate siano vere. Poiché (almeno fino ad ora) non possiamo provare ogni edificio della realtà, tutta la nostra conoscenza sarà necessariamente condizionata. Non arriveremo mai alla “verità”.
Risposta
Devo ancora dimostrare il seguente argomento, quindi potrebbe contenere errori , ma voglio davvero buttare i miei due centesimi (si spera di aggiornarlo presto con una prova rigorosa). Un altro modo di guardare al $ p $ – il valore è
$ p $ -value – Una statistica $ X $ tale che $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ dove $ F_ {X | H_0} $ è la funzione di distribuzione di $ X $ in $ H_0 $ .
In particolare, se $ X $ ha un distribuzione e non stai usando lapprossimazione, quindi
- Every
$ p $ -value è una statistica con una distribuzione uniforme su $ [0, 1] $ e - Ogni statistica con una distribuzione uniforme su $ [0, 1] $ è un $ p $ -value.
Potresti considerare questa una descrizione generalizzata dei valori $ p $ .
Commenti
- Questa definizione ha senso solo per distribuzioni discrete (e quindi non è corretta), perché la seconda apparizione di ” $ P $ ” chiarisce che si riferisce a probabilità non a densità di probabilità. Inoltre, ci sono pochissime distribuzioni (se ce ne sono) che hanno la proprietà dichiarata, suggerendo che ci devono essere errori tipografici nellistruzione. Per quanto riguarda le tue affermazioni successive, (1) è idealmente vero ma (2) non lo è, a meno che tu non permetta che lipotesi nulla dipenda dalla statistica!
- @whuber Grazie per linput. Ho modificato la definizione e ora dovrebbe avere più senso!
- Ha senso, grazie: se ‘ lo leggo correttamente, si afferma che la distribuzione nulla di $ X $ è uniforme su $ [0, 1]. $ Tuttavia, ciò cattura solo una parte delle proprietà dei valori p; non caratterizza i valori p; e non dice nulla su cosa significano o come interpretarli. Considera lidea di studiare alcune delle altre risposte in questo thread per informazioni su ciò che manca.
- Ecco un esempio che potresti trovare interessante. La famiglia di distribuzione è Uniforme $ (\ theta, \ theta + 1) $ per $ \ theta \ in \ mathbb {R}, $ lipotesi nulla è $ \ theta = 0, $ e lalternativa è il suo complemento. Considera un campione casuale $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Definisci la statistica $ X (\ mathbf {X}) = X_1. $ Ovviamente questo ha una distribuzione uniforme su $ [0,1] $ sotto $ H_0: $ ma in che senso è un valore p? Qual è il corrispondente test di ipotesi? Supponiamo di prendere un campione di dimensione $ n = 1 $ e di osservare il valore $ X_1 = -2: $ stai affermando che il valore p è $ -2 $ ??
Risposta
Penso che gli esempi che coinvolgono biglie o monete o la misurazione dellaltezza possano andare bene per esercitarsi in matematica, ma non sono buoni per costruire lintuizione. Studenti universitari ti piace mettere in discussione la società, giusto? Che ne dici di usare un esempio politico?
Supponiamo che un candidato politico abbia condotto una campagna promettendo che alcune politiche aiuteranno leconomia. È stata eletta, ha ottenuto lapprovazione della politica e 2 anni in seguito, leconomia è in forte espansione. Lei è pronta per la rielezione e afferma che la sua politica è la ragione della prosperità di tutti. Dovresti rieleggerla?
Il cittadino premuroso dovrebbe dire ” beh, è vero che leconomia sta andando bene, ma possiamo davvero attribuirlo alla tua politica? ” Per rispondere veramente a questa domanda, dobbiamo considerare la domanda “leconomia avrebbe fatto bene negli ultimi 2 anni senza di essa?” Se la risposta è sì (ad es. Leconomia è in forte espansione a causa di qualche nuovo sviluppo tecnologico non correlato), rifiutiamo la spiegazione dei dati da parte del politico.
Cioè, per esaminare unipotesi (la politica ha aiutato leconomia ), dobbiamo costruire un modello del mondo in cui tale ipotesi è nulla (la politica non è mai stata adottata). Quindi facciamo una previsione in base a quel modello. Chiamiamo probabilità di osservare questi dati in quel mondo alternativo il valore p . Se il valore p è troppo alto, non siamo convinti dellipotesi: la politica non ha fatto differenza. Se il valore p è basso, allora ci fidiamo dellipotesi: la politica era essenziale.
Commenti
- Non sono daccordo con la definizione di p come ” Chiamiamo la probabilità di osservare questi dati in quel mondo alternativo il valore p ” e anche la forza della conclusione da trarre ( soprattutto il mancato rifiuto del null).
- @Silverfish Potresti approfondire? Probabilmente sarebbe più corretto chiamare il valore p la probabilità di fare quellosservazione OPPURE unosservazione più estrema. Ma sembra che tu abbia una critica più profonda.
- Dato che la domanda originale è chiedersi cosè un valore p, ho pensato che fosse importante trasmettere quella definizione chiaramente. Il solo dire ” più estremo ” non è ‘ di per sé molto utile senza spiegare cosa ” più estremo ” potrebbe significare che ‘ è un punto debole della maggior parte delle risposte in questo thread I pensare. Solo la risposta ‘ e il ” tea test ” sembra spiegare davvero perché anche il ” più estremo ” è importante.
- Ho anche sentito che le tue conclusioni sono formulato con troppa forza. Se rifiutiamo il null, abbiamo prove significative contro di esso, ma non ‘ sappiate che ‘ è falso. Quando non riusciamo a rifiutare il valore nullo, questo certamente non ‘ significa che il nullo è vero (anche se potrebbe essere). Come commento più generale, ho la sensazione che il test che ‘ stai descrivendo, in termini abbastanza astratti, non sia chiaro per uno studente che sta solo imparando a eseguire un test . La mancanza di una statistica di test chiaramente definita non ‘ si accorda bene con la domanda originale che chiedeva come interpretare anche t -statistic.
- Una caratteristica di questa risposta che mi piace molto è la chiara spiegazione che i valori p vengono calcolati utilizzando un modello nullo, anche se non ‘ t (soggettivamente) crediamo che il modello nullo sia in realtà vero. Penso che le statistiche dei test dei fatti siano calcolate in base a un modello è un punto chiave con cui molti studenti hanno difficoltà.
Risposta
Il valore p non è così misterioso come la maggior parte degli analisti pensa che sia.È un modo per non dover calcolare lintervallo di confidenza per un test t ma semplicemente determinare il livello di confidenza con cui lipotesi nulla può essere rifiutata.
ILLUSTRAZIONE. Esegui un test. Il valore p risulta come 0,1866 per la variabile Q, 0,0023 per la variabile R. (Questi sono espressi in%).
Se stai testando con un livello di confidenza del 95% per rifiutare lipo nullo;
per Q: 100-18,66 = 81,34%
per R: 100-0,23 = 99,77%.
A un livello di confidenza del 95%, Q fornisce una confidenza dell81,34% per il rifiuto. Questo scende al di sotto del 95% ed è inaccettabile. ACCEPT NULL.
R fornisce una sicurezza del 99,77% per rifiutare null. Chiaramente al di sopra del 95% desiderato. Rifiutiamo quindi il valore nullo.
Ho appena illustrato la lettura del valore p attraverso un “modo inverso” per misurarlo fino al livello di confidenza al quale rifiutiamo lipo nullo.
Commenti
- Benvenuto nel sito. Cosa intendi per $ Q $ -variabile e $ R $ -variabile? Si prega di precisare. Inoltre, luso della frase ” accept null ” è generalmente considerato del tutto indesiderabile, persino fuorviante.
- @cardinal sottolinea un punto importante. ‘ non accetti il valore nullo.
Risposta
****** Il valore p nella verifica delle ipotesi misura la sensibilità del test. Più basso è il valore p maggiore è la sensibilità. se il livello di significatività è impostato a 0,05, il valore p di 0,0001 indica unalta probabilità che i risultati del test siano corretti ******
Commenti
- -1 Questo è chiaramente sbagliato. Puoi leggere prima le risposte con il voto più alto.