Care este semnificația valorilor p și a valorilor t în testele statistice?

După ce am urmat un curs de statistici și apoi am încercat să-i ajut pe colegii de studenți, am observat că un subiect care inspiră multă lovitură la birou este interpretarea rezultatelor testelor de ipoteze statistice . Se pare că elevii învață cu ușurință cum să efectueze calculele cerute de un anumit test, dar se închid de interpretarea rezultatelor. Multe instrumente computerizate raportează rezultatele testelor în termeni de „valori p” sau „valori t”.

Cum ați explica următoarele puncte studenților care urmează primul lor curs de statistici:

  • Ce înseamnă o „valoare p” în raport cu ipoteza testată? Există cazuri când cineva ar trebui să caute o valoare p ridicată sau o valoare p scăzută?

  • Care este relația dintre o valoare p și o valoare t?

Comentarii

  • O parte din acest lucru este acoperită, în principiu, de prima frază a articolului de pe Wikipedia de pe valori p , care definește corect o valoare p. Dacă ‘ este înțeles, multe sunt clarificate.
  • Obțineți cartea: Statistici fără lacrimi. S-ar putea să vă salvați sănătatea!
  • @ user48700 Ați putea rezuma modul în care Statistici fără lacrimi explică acest lucru?
  • Cineva ar trebui să deseneze un grafic al valorii p întrebări de-a lungul timpului și pun pariu că ‘ vom vedea sezonalitatea și corelația cu calendarele academice din colegii sau cursurile de științe ale datelor Coursera
  • În plus față de alte cărți frumoase și relevante recomandări în răspunsuri și comentarii, aș dori să sugerez o altă carte, numită în mod corespunzător ” Ce este o valoare p oricum? ” .

Răspuns

Înțelegere $ p $ -value

Să presupunem că doriți să testați ipoteza că înălțimea medie a studenților de sex masculin de la Universitatea dvs. este $ 5 $ ft $ 7 $ inch. Adunați înălțimi de 100 $ $ studenți selectați la întâmplare și calculați media eșantionului (să spunem că se dovedește a fi 5 $ $ ft 9 $ $ inch). Folosind o formulă / rutină statistică adecvată, calculați $ p $ -valoarea ipotezei dvs. și spuneți că se dovedește a fi 0,06 $ $ .

Pentru a interpreta în mod adecvat $ p = 0.06 $ , ar trebui să avem în vedere mai multe lucruri:

  1. Primul pas al testării clasice a ipotezelor este presupunerea că ipoteza luată în considerare este adevărată. (În contextul nostru, presupunem că adevărat înălțimea medie este 5 $ $ ft $ 7 $ inch.)

  2. Imaginați-vă că faceți următorul calcul: Calculați probabilitatea ca eșantionul să fie semnificativ este mai mare de $ 5 $ ft $ 9 $ inch presupunând că ipoteza noastră este de fapt corectă (a se vedea punctul 1) .

Cu alte cuvinte, vrem să știm $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {inches} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { inch}). $$

Calculul din pasul 2 este ceea ce se numește $ p $ -value. Prin urmare, o $ p $ -valor de $ 0,06 $ ar însemna că, dacă ar fi să repetăm experimentul nostru, multe , de multe ori (de fiecare dată când selectăm 100 $ $ elevi la întâmplare și calculăm media eșantionului) apoi 6 $ $ ori din $ 100 $ ne putem aștepta să vedem un eșantion mediu mai mare sau egal cu $ 5 $ ft $ 9 $ inch.

Având în vedere înțelegerea de mai sus, ar trebui să ne păstrăm în continuare ipoteza că ipoteza noastră este adevărată (vezi pasul 1)? Ei bine, un $ p = 0.06 $ indică faptul că unul dintre cele două lucruri s-au întâmplat:

  • (A) Fie ipoteza noastră este corectă și a avut loc un eveniment extrem de puțin probabil (de exemplu, toți $ 100 $ sunt studenți sportivi)

sau

  • (B) Presupunerea noastră este incorectă și eșantionul pe care l-am obținut nu este atât de neobișnuit.

Modul tradițional de a alege între (A) și (B) este de a alege un arbitrar tăiere pentru $ p $ . Alegem (A) dacă $ p > 0.05 $ și (B) dacă $ p < 0.05 $ .

Comentarii

  • Ia-ți timp! ‘ nu m-am gândit să selectez un ” Cel mai bun răspuns ” timp de o săptămână sau deci.
  • Acum că am ‘ am avut șansa să revin și să citesc întregul răspuns – un mare +1 pentru exemplul înălțimii elevului. Foarte clar și bine așezat.
  • Lucrare frumoasă … dar trebuie să adăugăm (C) modelul nostru (încorporat în formulă / rutină statistică) este greșit.
  • A t -valoarea (sau orice altă statistică de testare) este în mare parte o etapă intermediară. ‘ este practic o statistică care s-a dovedit, sub unele ipoteze, că are o distribuție bine cunoscută. Deoarece cunoaștem distribuția statisticii de testare sub valoarea nulă, putem folosi tabele standard (astăzi în principal software) pentru a obține o valoare p.
  • Isn ‘ t valoarea p derivată ca rezultat al efectuării testului chi-pătrat și apoi din tabelul chi-pătrat? Mă întreb cum probabil probabilitatea calculată mai sus a indicat valoarea p în sine ?!

Răspuns

Un dialog între un profesor și un student gânditor

Cu umilință s-au supus credinței că nu s-au folosit suficiente creioane până acum în acest fir. O scurtă sinopsis ilustrată apare la sfârșit.


Student : Ce înseamnă o valoare p? Mulți oameni par să fie de acord că este șansa ca ” să vedem o probă medie mai mare sau egală cu ” o statistică sau „este ” probabilitatea de a observa acest rezultat. .. dat fiind ipoteza nulă este adevărată ” sau unde ” statistica eșantionului meu a căzut pe o distribuție [simulată] ” și chiar ” probabilitatea de a observa o statistică de test cel puțin la fel de mare ca cea calculată presupunând că ipoteza nulă este adevărată ” .

Profesor : Înțeles corect, toate aceste afirmații sunt corecte în multe circumstanțe.

Student : Nu văd cât de relevante sunt cele mai multe dintre ele. Nu ne-ați învățat că trebuie să afirmăm o ipoteză nulă $ H_0 $ și o ipoteză alternativă $ H_A $ ? Cum sunt implicați în aceste idei de ” mai mare sau egală cu ” sau ” cel puțin la fel de mare ” sau foarte popular ” mai extrem „?

Profesor : Deoarece poate părea complicat în general, ne-ar ajuta să explorăm un exemplu concret?

Student : Sigur. Dar vă rugăm să faceți una realistă, dar simplă, dacă puteți.

Profesor : Această teorie a testării ipotezelor a început istoric cu necesitatea astronomilor de a analiza erorile de observație, deci ce-ar fi să începem de acolo. Treceam prin câteva documente vechi într-o zi în care un om de știință și-a descris eforturile de a reduce eroarea de măsurare din aparatul său. Luase o mulțime de măsuri rementele unei stele într-o poziție cunoscută și și-au înregistrat deplasările în fața sau în spatele acelei poziții. Pentru a vizualiza acele deplasări, a desenat o histogramă care – când a fost netezită puțin – arăta ca aceasta.

Figura 1: Histograma deplasărilor

Student : îmi amintesc cum funcționează histogramele: axa verticală este etichetată ” Densitate ” pentru a-mi reaminti că frecvențele relative ale măsurătorilor sunt reprezentate mai degrabă de zonă decât de înălțime.

Profesor : Așa este. Un ” neobișnuit ” sau ” valoare extremă ” să fie situat într-o regiune cu o zonă destul de mică. Aici este un creion. Credeți că ați putea colora într-o regiune a cărei zonă este doar o zecime din total?

Student : Sigur; este ușor. [Culorile din figură.]

Figura 2: Elevul

Profesorul : Foarte bine! Asta arată aproximativ 10% din suprafața mea. Amintiți-vă, totuși, că singurele zone din histogramă care contează sunt cele dintre liniile verticale: reprezintă șansa sau probabilitate ca deplasarea să fie localizată între acele linii pe axa orizontală. Asta înseamnă că trebuie să colorați până la fund și care ar fi peste jumătate din zonă, nu „nu-i așa?

Student : Oh, înțeleg. Lasă-mă să mai încerc o dată. Vreau să colorez acolo unde curba este foarte scăzută, nu-i așa? Este cel mai jos la cele două capete.Trebuie să colorez într-o singură zonă sau ar fi bine să o împărțim în mai multe părți?

Profesor : Utilizarea mai multor părți este o idee inteligentă. Unde ar fi ei?

Student (arătând): aici și aici. Deoarece acest creion nu este foarte ascuțit, am folosit un stilou pentru a vă arăta liniile pe care le folosesc.

Figura 3: Elevul

Profesor : Foarte frumos! Lasă-mă să-ți spun restul poveștii. Omul de știință a adus câteva îmbunătățiri dispozitivului său și apoi a făcut măsurători suplimentare. El a scris că deplasarea primului a fost de numai 0,1 $ $ , ceea ce a considerat că este un semn bun, dar fiind un om de știință atent a procedat la mai multe măsurători ca verificare . Din păcate, celelalte măsurători sunt pierdute – manuscrisul se întrerupe în acest moment – și tot ce avem este acel număr unic, 0,1 $ $ .

Student : E prea rău. Dar nu este mult mai bine decât răspândirea largă a deplasărilor din figura ta?

Profesor : Asta „Este întrebarea la care aș dori să răspundeți. Pentru început, ce ar trebui să afirmăm ca $ H_0 $ ?

Student : Ei bine, un sceptic s-ar întreba dacă îmbunătățirile aduse dispozitivului au avut vreun efect. Sarcina probei este asupra omului de știință: el ar dori să arate că scepticul este greșit. este cam rău pentru omul de știință: spune că toate noile măsurători – inclusiv valoarea 0,1 $ $ despre care știm – ar trebui să se comporte așa cum este descris de prima histogramă. Sau poate chiar mai rău de atât: s-ar putea să fie și mai răspândite.

Profesor : G înainte, te descurci bine.

Student : Deci, alternativa este că noile măsurători ar fi mai puțin răspândite, nu?

Profesor : Foarte bine! Ai putea să-mi faci o imagine despre cum ar arăta o histogramă cu o răspândire mai mică? Iată o altă copie a primei histograme; o puteți desena deasupra ca referință.

Student (desen): folosesc un stilou pentru a contura noul histogramă și „colorez în zona de sub ea. Am făcut-o astfel încât cea mai mare parte a curbei să fie aproape de zero pe axa orizontală și astfel cea mai mare parte a zonei sale este aproape de o valoare (orizontală) de zero: asta este ceea ce înseamnă a fi mai puțin răspândit sau mai precis.

Figura 4: Student

Profesorul : „Este un început bun. Dar amintiți-vă că o histogramă care prezintă șanse ar trebui să aibă o suprafață totală de $ 1 $ . Suprafața totală a primei histograme prin urmare este $ 1 $ . Câtă suprafață este în noua dvs. histogramă?

Student : Mai puțin de jumătate, cred . Văd că „este o problemă, dar nu știu cum să o rezolv. Ce ar trebui să fac?

Profesor : Trucul este să faci noua histogramă mai mare decât vechiul, astfel încât tot Zona este $ 1 $ . Aici vă voi arăta o versiune generată de computer pentru a ilustra.

Figura 5: Profesorul

Student : Văd: l-ați întins vertical, astfel încât forma sa nu s-a schimbat cu adevărat, dar acum zona roșie și zona gri (inclusiv partea de sub roșu) sunt aceleași cantități.

Profesor : Corect. Vă uitați la o imagine a ipotezei nule (în albastru, întinsă) și parte a ipotezei alternative (în roșu, cu mai puțină răspândire).

Student : Ce vrei să spui prin ” partea ” din alternativă? Nu este doar ipoteza alternativă ?

Profesor : Statisticienii și gramatica nu par să se amestece. 🙂 Serios, ceea ce înseamnă prin ” ipoteză ” este de obicei un set complet mare de posibilități. Aici, alternativa (așa cum ați spus atât de bine înainte) este aceea că măsurătorile sunt ” mai puțin răspândite ” decât înainte. Dar cu cât mai puțin ? Există multe posibilități. Aici, permiteți-mi să vă arăt altul. L-am desenat cu liniuțe galbene. Se află între cele două precedente.

Figura 6: Nul împreună cu două elemente ale alternativei

Student : Înțeleg: puteți avea diferite cantități de spread, dar nu știți în prealabil cât de mult va fi spread-ul. Dar de ce ați făcut umbrirea amuzantă din această imagine?

Profesor : Am vrut să evidențiez unde și cum diferă histogramele. Le-am umbrit în gri în cazul în care histogramele alternative sunt mai mici decât nulul și în roșu în cazul în care alternativele sunt mai mari .

Student : De ce ar conta asta?

Profesor : Îți amintești cum ai colorat prima histogramă în ambele cozi? [Privind prin hârtii.] Ah, iată-l.Să colorăm această imagine în același mod.

Figura 7: Nul și alternativa, colorate.

Student : Îmi amintesc: acestea sunt valorile extreme. Am găsit locurile în care densitatea nulă era cât mai mică și colorată în 10% din suprafața de acolo.

Profesor : Spune-mi despre alternativele din acele zone extreme.

Student : „Este greu de văzut, deoarece creionul l-a acoperit, dar se pare că acolo” Nu există aproape nicio șansă ca vreo alternativă să fie în zonele pe care le-am colorat. Histogramele lor sunt chiar în jos față de axa valorii și „nu există loc pentru nicio zonă sub ele.

Profesor : Să continuăm acest gând. Dacă ți-aș spune, ipotetic, că o măsurătoare are o deplasare de $ – 2 $ și ți-aș cere să alegi care dintre aceste trei histogramele a fost cea din care a venit cel mai probabil, care ar fi?

Student : Prima – cea albastră. Este cea mai răspândită nd este singurul în care $ – 2 $ pare să aibă vreo șansă să apară.

Profesor : Și ce zici de valoarea 0,1 $ $ din manuscris?

Student : Hmmm … că „este diferit poveste. Toate cele trei histograme sunt destul de sus deasupra solului la $ 0,1 $ .

Profesor : OK, destul de corect. Dar să presupunem că v-am spus că valoarea este undeva aproape de $ 0.1 $ , ca între $ 0 $ și 0,2 $ $ . Vă ajută asta să citiți câteva probabilități din aceste grafice?

Student : Sigur, pentru că pot folosi zone. Trebuie doar să estimez suprafețele de sub fiecare curbă între $ 0 $ și $ 0.2 $ . Dar asta pare destul de greu.

Profesor : Nu trebuie să mergi atât de departe. Poți să-ți dai seama care zonă este cea mai mare?

Student : Cel de sub cea mai înaltă curbă, bineînțeles. Toate cele trei zone au aceeași bază, deci cu cât curba este mai înaltă, cu atât mai multă zonă este sub ea și baza. Asta înseamnă cea mai înaltă histogramă – cel pe care l-am desenat, cu liniuțe roșii – este cel mai probabil pentru o deplasare de 0,1 $ $ . Cred că văd unde mergeți cu asta, dar eu „Sunt puțin îngrijorat: nu trebuie să mă uit la toate histogramele pentru toate alternativele, nu doar la una sau două afișate aici? Cum aș putea face asta?

Profesor : Sunteți priceput să alegeți tipare, așa că spuneți-mi: pe măsură ce aparatul de măsurare este din ce în ce mai precis, ce se întâmplă cu histograma ei?

Student : devine mai îngustă – oh, și trebuie să devină și mai înaltă, așa că suprafața sa totală rămâne aceeași. Asta face destul de greu de comparat histogramele. Cele alternative sunt toate mai mari decât valoarea nulă la $ 0 $ , ceea ce este evident. Dar la alte valori, uneori alternativele sunt mai mari și alteori sunt mai mici! De exemplu, [indicând o valoare apropiată de $ 3/4 $ ], chiar aici my histograma roșie este cea mai mică, histograma galbenă este cel mai înalt, iar histograma nulă originală este între ele. Dar, în partea dreaptă, nulul este cel mai mare.

Profesor : În general, compararea histogramelor este o afacere complicată. Pentru a ne ajuta să o facem, am cerut computerului să facă un alt grafic: a împărțit fiecare dintre înălțimile alternative ale histogramei (sau ” densități „) de înălțimea nulă a histogramei, creând valori cunoscute sub numele de ” raporturi de probabilitate. ” Ca rezultat , o valoare mai mare de $ 1 $ înseamnă că alternativa este mai probabilă, în timp ce o valoare mai mică de $ 1 $ înseamnă alternativa este mai puțin probabilă. A mai trasat o alternativă: este „mai răspândit decât celelalte două, dar mai puțin întins decât aparatul original.

Figura 8: Raporturi de probabilitate

Profesor (continuare): Ați putea să-mi arătați unde alternativele tind să fie mai probabil decât nulul?

Student (colorare): Aici la mijloc, evident. Și pentru că acestea nu mai sunt histograme, cred că ar trebui să ne uităm mai degrabă la înălțimi decât la zone, așa că „Marc doar o gamă de valori pe axa orizontală. Dar de unde știu cât din mijloc să colorez? Unde opresc colorarea?

Figura 9: Graficele raportului de probabilitate marcat

Profesor : Nu există o regulă fermă. Totul depinde de modul în care intenționăm să ne folosim concluziile și de cât de acerbi sunt scepticii.Dar stai pe loc și gândește-te la ceea ce ai realizat: acum îți dai seama că rezultatele cu rapoarte de probabilitate mari sunt dovezi pentru alternativă și rezultatele cu rapoarte de probabilitate mici sunt dovezi împotriva alternativei . Ceea ce vă voi cere să faceți este să colorați într-o zonă care, în măsura în care este posibil, are șanse mici să apară sub ipoteza nulă și o șansă relativ mare de a apărea sub alternative. Revenind la prima diagramă pe care ați colorat-o, înapoi la începutul conversației noastre, v-ați colorat în cele două cozi ale nulului deoarece erau ” extreme. ” Ar mai face o treabă bună?

Student : nu cred. Chiar dacă erau destul de extreme și rare sub ipoteza nulă, sunt practic imposibile pentru oricare dintre alternative. Dacă noua mea măsurătoare ar fi, să spunem $ 3.0 $ , cred că aș lua parte la sceptic și aș nega că s-ar fi produs orice îmbunătățire, chiar dacă $ 3.0 $ a fost în orice caz un rezultat neobișnuit. Vreau să schimb acea culoare. Aici – permiteți-mi să am un alt creion.

Figura 10: Marcaj îmbunătățit

Profesor : Ce reprezintă asta?

Student : Am început cu tine rugându-mă să desenez doar 10% din suprafața de sub histograma originală – cea care descrie nulul. Deci acum Am atras 10% din zona în care alternativele par să fie mai susceptibile să apară. Cred că atunci când o nouă măsurare se află în acea zonă, ne spune că ar trebui să credem alternativa.

Profesor : Și cum ar trebui să reacționeze scepticul la asta?

Student : Un sceptic nu trebuie să recunoască niciodată că greșește, nu-i așa? Dar cred că credința lui ar trebui să fie puțin zdruncinată. La urma urmei, am aranjat-o astfel încât, deși o măsură ar putea să fie în interiorul zonei pe care tocmai am desenat-o, are doar 10% șanse să fie acolo atunci când valoarea nulă este adevărată. Și are șanse mai mari să fie acolo atunci când alternativa este adevărată. Nu pot să vă spun cât este mult mai mare această șansă, pentru că ar depinde de cât de mult omul de știință a îmbunătățit aparatul. Știu doar că este mai mare. Deci dovezile ar fi împotriva scepticului.

Profesor : Bine. V-ar deranja să vă rezumați înțelegerea astfel încât să fim „foarte clari despre ceea ce ați învățat?

Student : Am aflat că, pentru a compara ipoteze alternative cu ipoteze nule, ar trebui să le comparăm histograme. Împărțim densitățile alternativelor la densitatea nulului: asta este ceea ce ați numit ” raport de probabilitate. ” Pentru a face un test bun, ar trebui să aleg un număr mic, cum ar fi 10% sau orice ar putea fi suficient pentru a scutura un sceptic. Apoi ar trebui să găsesc valori în care raportul de probabilitate este cât mai mare posibil și să le colorez până când 10% (sau orice altceva) a fost colorat.

Profesor : Și cum ați folosi acea colorare?

Student : După cum mi-ai amintit mai devreme, colorarea trebuie să fie între linii verticale. Valorile (pe axa orizontală) care se află sub colorare sunt dovezi împotriva ipotezei nule. Alte valori – bine, este greu să spui ce ar putea însemna fără a arunca o privire mai detaliată asupra tuturor histogramelor implicate.

Profesor : Revenind la valoarea 0,1 $ $ în manuscris, ce ați concluziona?

Student : Asta se află în zona pe care am colorat-o ultima dată , deci cred că omul de știință probabil a avut dreptate și aparatul a fost într-adevăr îmbunătățit.

Profesor : Un ultim lucru. Concluzia dvs. s-a bazat pe alegerea a 10% ca criteriu sau ” dimensiunea ” a testului. Multor oameni le place să folosească în schimb 5%. Unii preferă 1%. Ce le-ai putea spune?

Student : Nu puteam să fac toate testele simultan! Ei bine, poate aș putea într-un fel. Văd că indiferent de dimensiune testul ar trebui să fie, ar trebui să încep să colorez din $ 0 $ , care este în acest sens ” cel mai extrem ” valoare și lucrează în exterior în ambele direcții de acolo. Dacă ar trebui să mă opresc chiar la 0,1 $ $ – valoarea observată efectiv –Cred că aș fi colorat într-o zonă undeva între $ 0,05 $ și $ 0,1 $ , să zicem 0,08 $ $ . Cei de 5% și 1% ar putea spune imediat că am colorat prea mult: dacă ar dori să coloreze doar 5% sau 1%, ar putea, dar nu ar „Nu ieși la fel de departe ca 0,1 $ $ . Nu ar ajunge la aceeași concluzie pe care am făcut-o: ar spune că nu există suficiente dovezi că s-a produs o schimbare.

Profesor : Tocmai mi-ați spus ce acele citate de la început chiar înseamnă.Ar trebui să fie evident din acest exemplu că nu pot intenționa ” mai extreme ” sau ” mai mare sau egal ” sau ” cel puțin la fel de mare ” în sensul având o valoare mai mare sau chiar având o valoare în care densitatea nulă este mică. Într-adevăr înseamnă aceste lucruri în sensul rapoartelor mari de probabilitate pe care le-ați descris. Apropo, numărul din jurul 0,08 $ $ pe care l-ați calculat se numește ” valoare p. ” Acesta poate fi înțeles în mod corespunzător doar în modul în care ați descris: în ceea ce privește o analiză a înălțimilor relative ale histogramei – raporturile de probabilitate.

Student : Mulțumesc. Nu sunt încrezător că înțeleg pe deplin toate acestea, dar mi-ați dat multe de gândit.

Profesor : Dacă doriți să mergeți mai departe, luați un uitați-vă la Lema Neyman-Pearson . Probabil că sunteți gata să o înțelegeți acum.


Sinopsis

Multe teste care se bazează pe o singură statistică precum cea din casetă de dialog îl vor numi ” $ z $ ” sau ” $ t $ $ t = 0,1 $ pentru a duce la respingerea ipotezei nule.

Figura 11: valoarea p ca zonă.

În această figură, care este mărită pentru a arăta detaliile, ipoteza nulă este trasată în albastru continuu și două alternative tipice sunt reprezentate cu linii punctate. Regiunea în care alternativele respective tind să fie mult mai mari decât nulul este umbrită. Umbrirea începe acolo unde probabilitățile relative ale alternativelor sunt mai mari (la $ 0 $ ). Umbrirea se oprește când se atinge observația $ t = 0,1 $ . Valoarea p este zona regiunii umbrite sub histograma nulă: este șansa, presupunând că valoarea nulă este adevărată, de a observa un rezultat ale cărui raporturi de probabilitate tind să fie mari, indiferent de ce alternativă se întâmplă să fie adevărată. În special, această construcție depinde intim de ipoteza alternativă. Nu poate fi realizat fără a specifica alternativele posibile.


Pentru două exemple practice ale testului descris aici – unul publicat, celălalt ipotetic – vezi https://stats.stackexchange.com/a/5408/919 .

Comentarii

  • Acest lucru are am tratat excelent comentariul meu la un alt răspuns, că niciunul dintre răspunsurile anterioare la această întrebare nu abordase, în general, ” sau mai extrem de ” aspect al unei valori p . (Deși răspunsul ” testarea ceaiului ” a inclus un răspuns bun exemplu specific.) Admir în mod deosebit modul în care acest exemplu a fost construit în mod deliberat pentru a evidenția că ” mai extrem ” poate însemna cu totul contrariul ” mai mare ” sau ” mai departe de zero „.
  • Aș dori ca profesorii și manualele să nu ‘ să nu folosească expresia ” sau să fie mai extrem „, într-adevăr. Două variante pe care le-am auzit ar putea fi parafrazate ca ” mai favorabile față de $ H_1 $ ” sau ” mai convingător de $ H_1 $ „. În acest caz, valorile mai apropiate de zero ar fi într-adevăr mai convingătoare că telescopul a devenit mai fiabil, dar necesită unele acrobații lingvistice (argumentate plauzibil, dar potențial confuze) pentru a le descrie ca ” mai extrem „.
  • Înțelegător unic ca întotdeauna, vă mulțumim că ați acordat timp pentru a scrie acele răspunsuri incredibil de utile. Mă întreb cu adevărat de ce manualele nu sunt scrise niciodată într-un mod care să ofere aproape de aceste niveluri de claritate și intuiție.
  • Este periculos să folosești sarcasmul într-un comentariu. , @baxx, deoarece ‘ spațiu insuficient ne-a permis să facem acest lucru politicos și elegant. Prin urmare, ‘ nu este de obicei o idee bună să presupunem că un comentariu este sarcastic, cu excepția cazului în care vă spune în mod explicit acest lucru.Presupune doar că comentariile sunt destinate să te ajute. Dacă urmați pur și simplu primul acces din căutarea pe care am furnizat-o, cred că întrebările dvs. ar primi un răspuns.
  • Pur și simplu fantastic! Mulțumesc @whuber!

Răspunde

Înainte de a atinge acest subiect, mă asigur întotdeauna că elevii sunt fericiți deplasându-se între procente, zecimale, cote și fracții. Dacă nu sunt complet mulțumiți de acest lucru, atunci se pot confunda foarte repede.

Îmi place să explic pentru prima dată testarea ipotezelor (și, prin urmare, valorile p și statisticile de testare) prin Fisher ” Experimentul clasic de ceai. Am mai multe motive pentru acest lucru:

(i) Cred că lucrul printr-un experiment și definirea termenilor pe măsură ce mergem de-a lungul timpului are mai mult sens decât definirea tuturor acestor termeni pentru început. (ii) Nu trebuie să vă bazați în mod explicit pe distribuții de probabilitate, zone sub curbă etc. pentru a trece peste punctele cheie ale testării ipotezelor. (iii) Acesta explică această noțiune ridicolă de „la fel de sau mai extremă decât cele observate” într-un mod destul de sensibil (iv) consider că studenților le place să înțeleagă istoria, originile și povestea din spate a ceea ce studiază, întrucât o face mai reală decât unele teorii abstracte. (v) Nu contează din ce disciplină sau subiect provin elevii, aceștia se pot referi la exemplul ceaiului (NB Unii studenți internaționali au dificultăți în această instituție specific britanică a ceaiului cu lapte.)

[Notă: am primit inițial această idee din minunatul articol al lui Dennis Lindley „Analiza datelor experimentale: aprecierea ceaiului & Wine” în care demonstrează de ce metodele bayesiene sunt superioare metode clasice.]

Povestea din spate este că Muriel Bristol îl vizitează pe Fisher într-o după-amiază, în anii 1920, la stația experimentală Rothamsted, pentru o ceașcă de ceai. spune, de asemenea, dacă laptele a fost turnat primul (sau ultimul) și că ea l-a preferat pe primul. Pentru a pune acest lucru la încercare, el a proiectat experimentul său clasic de ceai în care Muriel este prezentată cu o pereche de căni de ceai și ea trebuie să identifice care dintre ele a avut laptele. adăugat mai întâi. Acest lucru se repetă cu șase perechi de căni de ceai înghețurile sunt fie corecte (R), fie greșite (W), iar rezultatele ei sunt: RRRRRW.

Să presupunem că Muriel doar ghicește și nu are nicio capacitate de discriminare. Aceasta se numește Ipoteză nulă . Potrivit lui Fisher, scopul experimentului este de a discredita această ipoteză nulă. Dacă Muriel presupune că va identifica corect ceașca de ceai cu probabilitatea 0,5 la fiecare tură și, deoarece acestea sunt independente, rezultatul observat are 0,5 $ ^ 6 $ = 0,016 (sau 1/64). Fisher susține că fie:

(a) ipoteza nulă (Muriel presupune) este adevărată și a avut loc un eveniment de probabilitate mică sau,

(b) ipoteza nulă este falsă și Muriel are puteri discriminatorii.

Valoarea p (sau valoarea probabilității) este probabilitatea de a observa acest rezultat (RRRRRW), având în vedere că ipoteza nulă este adevărată – este „probabilitatea mică menționată la (a) , de mai sus. În acest caz este „0,016. Deoarece evenimentele cu probabilități mici apar rar (prin definiție) situația (b) ar putea fi o explicație mai preferabilă a ceea ce a avut loc decât situația (a). Când respingem ipoteza nulă, acceptăm de fapt ipoteza opusă, numită ipoteză alternativă. În acest exemplu, Muriel are puteri discriminatorii este ipoteza alternativă.

O considerație importantă este ceea ce facem clasa ca o probabilitate „mică”? Care este punctul limită la care suntem dispuși să spunem că un eveniment este puțin probabil? Punctul de referință standard este 5% (0,05) și acest lucru se numește nivelul de semnificație. Când valoarea p este mai mic decât nivelul de semnificație respingem ipoteza nulă ca fiind falsă și acceptăm ipoteza noastră alternativă. Este o limbă obișnuită să pretindem că un rezultat este „semnificativ” atunci când valoarea p este mai mică decât nivelul de semnificație, adică atunci când probabilitatea a ceea ce am observată, având în vedere că ipoteza nulă este adevărată, este mai mică decât punctul nostru de limită. Este important să fie clar că utilizarea a 5% este complet subiectivă (la fel ca și utilizarea celorlalte niveluri comune de semnificație de 1% și 10%).

isher a realizat că acest lucru nu este muncă; fiecare rezultat posibil cu o pereche greșită a fost la fel de sugestiv pentru puteri discriminatorii. Probabilitatea relevantă pentru situația (a), de mai sus, este deci 6 (0,5) ^ 6 = 0,094 (sau 6/64), care acum este nesemnificativă la un nivel de semnificație de 5%. Pentru a depăși acest lucru, Fisher a susținut că, dacă o eroare din 6 este considerată o dovadă a puterilor discriminatorii, atunci nu există erori, adicărezultatele care indică mai puternic puteri discriminatorii decât cea observată ar trebui incluse la calcularea valorii p. Acest lucru a dus la următoarea modificare a raționamentului, fie:

(a) ipoteza nulă (Muriel presupune) este adevărată și probabilitatea unor evenimente, sau mai mult, extreme decât cele observate este mică sau

(b) ipoteza nulă este falsă și Muriel are puteri discriminatorii.

Înapoi la experimentul nostru de ceai și constatăm că valoarea p din această setare este de 7 (0,5 ) ^ 6 = 0,109 care încă nu este semnificativ la pragul de 5%.

Apoi îi fac pe elevi să lucreze cu alte exemple, cum ar fi aruncarea de monede pentru a afla dacă o monedă este sau nu corectă. Acest lucru analizează conceptele de ipoteză nulă / alternativă, valorile p și nivelurile de semnificație. Trecem apoi la cazul unei variabile continue și introducem noțiunea de statistică-test. Deoarece am acoperit deja distribuția normală, distribuția normală standard și transformarea z în profunzime, este doar o chestiune de îmbinare a mai multor concepte.

Pe lângă calculul statisticilor de testare, valorilor p și luând o decizie (semnificativă / nesemnificativă) îi fac pe studenți să lucreze prin lucrări publicate într-o completare a jocului lipsă.

Comentarii

  • I știu că ‘ reînvie oarecum un fir foarte vechi, dar iată că … M-am bucurat cu adevărat de răspunsul tău, dar îmi lipsește partea t-value din acesta 🙁 Ai putea vă rugăm să folosiți exemplele date pentru a vorbi despre asta? Nimeni nu a răspuns despre partea t-test
  • @sosi Este ‘ probabil pentru că valorile p sunt mult mai multe general decât valorile t. ‘ este ca și cum ai pune o întrebare despre mașini și apoi despre frânele unui Ford Fiesta.
  • Răspunsul este foarte interesant (+ 1), dar câteva lucruri sunt confundate la sfârșit 1. W pălărie înseamnă că o valoare $ p $ este ” semnificativă la nivelul de 5% „? Fie valoarea $ p $ este sub 5%, fie nu este. Nu ‘ nu văd rostul folosirii unei astfel de propoziții obscure, lăsând ” semnificație ” nedefinit. 2. Ce înseamnă să ” decide ” dacă o valoare $ p $ este semnificativă sau nu? Nu pare justificat să aducă teoria deciziei în amestec în acest mod (mai ales că Fisher a fost un puternic adversar al aplicării cadrului de testare Neyman-Pearson în științe).

Răspuns

Nici o explicație verbală sau calcule nu m-au ajutat să înțeleg la nivel intestinal ce erau valorile p, dar a intrat într-adevăr în centrul atenției pentru mine odată ce am urmat un curs care presupunea simulare. Asta mi-a dat capacitatea de a vedea efectiv datele generate de ipoteza nulă și de a trasa mijloacele / etc. de eșantioane simulate, apoi uitați-vă unde statistica eșantionului meu a căzut pe această distribuție.

Cred că avantajul esențial al acestui lucru este acela că le permite elevilor să uite de matematică și distribuțiile statistice ale testului pentru un minut și Concentrați-vă asupra conceptelor la îndemână. Acordat, mi-a fost necesar să învăț cum să simulez acele lucruri, ceea ce va provoca probleme unui set complet diferit de studenți. simulare de nenumărate ori pentru a ajuta statisticile să explice altora cu mare succes (de exemplu, „Așa arată datele tale; așa arată o distribuție Poisson suprapusă. Ești SIGURĂ că vrei să faci o regresie Poisson?”).

Acest lucru nu răspunde exact la întrebările pe care le-ai pus, dar pentru mine, cel puțin, le-a făcut banale.

Comentarii

  • Sunt de acord din toată inima cu privire la utilizarea simulării pentru a explica acest lucru. Dar doar o mică notă asupra exemplului de la sfârșit: consider că oamenii (nu doar studenții) o găsesc di dificil de distins pentru orice presupunere distribuțională particulară, de ex. poisson, între a fi marginal poisson distribuit și a fi condiționat poisson distribuit. Deoarece numai acesta din urmă contează pentru un model de regresie, o grămadă de valori variabile dependente care nu sunt ‘ t poisson nu trebuie să fie neapărat un motiv de îngrijorare.
  • Am să mărturisesc că nu ‘ am știut asta. ‘ Ți-am apreciat într-adevăr comentariile despre acest site în ultimele zile de membru – sper să ‘ să rămâi în jur.
  • @MattParker știți de resurse de învățare axate pe utilizarea simulării pentru a dezvolta înțelegerea? Sau este doar un caz de a pune împreună niște scripturi python / R și de a rula o grămadă de teste?
  • @baxx The [Seeing Theory website by Daniel Kunin] (students.brown.edu/seeing-theory/ ) are câteva instrumente interesante pentru acest lucru, dar ‘ este încă în construcție.În caz contrar, da, am ‘ în mare parte tocmai am experimentat cu instrumentele încorporate R ‘ pentru simulare – folosindu-le pentru a-mi demonstra unele metode funcționează sau pentru a vedea ce s-ar întâmpla dacă un predictor ar fi înlocuit cu o variabilă aleatorie etc. Ne pare rău, aș vrea să știu resurse mai bune pentru asta!
  • @MattParker, mulțumesc. Da, un pic de pui și ou în asta, pentru a construi experimentele, (presupun?) Trebuie să obțineți cel puțin suficient pentru a le scrie. Nu vă faceți griji ….. Doar ați verificat site-ul pe care l-ați conectat, ‘ este frumos, mulțumesc

Răspundeți

O definiție frumoasă a valorii p este „probabilitatea de a observa o statistică de test cel puțin la fel de mare ca cea calculată presupunând că ipoteza nulă este adevărată”.

Problema este că necesită o înțelegere a „statisticii de testare” și „ipoteză nulă”. Dar acest lucru este ușor de trecut. Dacă ipoteza nulă este adevărată, de obicei ceva de genul „parametru din populația A este egal cu parametrul din populația B” și calculați statistici pentru a estima acești parametri, care este probabilitatea de a vedea un statistica testului care spune „sunt atât de diferiți”?

De exemplu, dacă moneda este corectă, care este probabilitatea să văd 60 de capete din 100 de aruncări? Aceasta testează ipoteza nulă , „moneda este corectă” sau „p = .5” unde p este probabilitatea de capete.

Statistica testului în acest caz ar fi numărul de capete.

Acum, presupun că ceea ce „numiți„ valoare t ”este o„ statistică de testare ”generică, nu o valoare dintr-o„ distribuție t ”. nu același lucru, iar termenul „valoare t” nu este „neapărat) utilizat pe scară largă și ar putea fi confuz.

Ceea ce sunteți„ valoare t ”este probabil ceea ce„ numesc ” „statistică de testare”. Pentru a calcula o valoare p (amintiți-vă, este doar o probabilitate) aveți nevoie de o distribuție și de o valoare care să se conecteze la acea distribuție care va returna o probabilitate. Odată ce faceți acest lucru, probabilitatea de a reveni este valoarea dvs. p. Puteți vedea că acestea sunt corelate, deoarece în aceeași distribuție, statistici de test diferite vor returna valori p diferite. Statisticile de testare mai extreme vor întoarce valori p mai mici, dând indicii mai mari că ipoteza nulă este falsă.

Am „ignorat aici problema valorilor p unilaterale și față-verso.

Răspuns

Imaginați-vă că aveți o pungă care conține 900 de marmură neagră și 100 de alb, adică 10% din marmură sunt albe. Acum imaginați-vă că scoateți 1 marmură, o priviți și înregistrați culoarea, scoateți alta, înregistrați culoarea etc. . și faceți acest lucru de 100 de ori. La sfârșitul acestui proces, veți avea un număr pentru marmură albă care, în mod ideal, ne-am aștepta să fie 10, adică 10% din 100, dar de fapt poate fi 8, sau 13 sau orice altceva pur și simplu din cauza aleatoriei. Dacă repetați acest experiment de 100 de marmură de mai multe ori de multe ori și apoi trageți o histogramă a numărului de marmuri albe trase pentru fiecare experiment, veți descoperi că veți avea o Curbă a clopotului centrată pe aproximativ 10.

Aceasta reprezintă ipoteza dvs. de 10%: cu orice pungă care conține 1000 de bile, dintre care 10% sunt albe, dacă scoateți aleator 100 de bile, veți găsi 10 bile albe în selecție, dați sau luați aproximativ 4. Valoarea p este legată de acest „dă sau ia 4 sau cam așa”. Să spunem, referindu-ne la Curba clopotului creată mai devreme, puteți stabili că mai puțin de 5% din timp veți obține 5 sau mai puține marmuri albe și un alt < 5% din timp reprezintă 15 sau mai multe baloane albe, adică> 90% din timp selecția dvs. de 100 de marmură va conține între 6 și 14 baloane albe inclusiv.

Acum, presupunând că cineva aruncă o pungă de 1000 de baloane cu un număr necunoscut de marmuri albe în ea, avem instrumentele pentru a răspunde la aceste întrebări

i) Există mai puțin de 100 de marmuri albe?

ii) Există mai mult de 100 de marmuri albe?

iii) Punga conține 100 de bile albe?

Pur și simplu scoateți 100 de bile din pungă și numărați câte dintre aceste probe sunt albe.

a) Dacă există sunt 6 până la 14 albi în eșantion, nu puteți respinge ipoteza că există 100 de bile albe în pungă și valorile p corespunzătoare pentru 6 până la 14 vor fi> 0,05.

b) Dacă sunt 5 sau mai puțini albi din eșantion puteți repeta ct ipoteza că există 100 de marmuri albe în pungă și valorile p corespunzătoare pentru 5 sau mai puține vor fi < 0.05. Vă așteptați ca punga să conțină < 10% marmură albă.

c) Dacă există 15 sau mai mulți albi în eșantion, puteți respinge ipoteza că există sunt 100 de marmuri albe în pungă și valorile p corespunzătoare pentru 15 sau mai multe vor fi < 0,05. Vă așteptați ca punga să conțină> 10% marmură albă.

Ca răspuns la comentariul lui Baltimark

Având în vedere exemplul de mai sus, există o : –

4.8% șanse de a obține 5 bile albe sau mai puțin

1,85% șanse de 4 sau mai puține

0,55% șanse de 3 sau mai puține

0,1% șanse de 2 sau mai puțin

6,25% șanse de 15 sau mai multe

3,25% șanse de 16 sau mai multe

1,5% șanse de 17 sau mai multe

0,65% șanse de 18 sau mai multe

0,25% șanse de 19 sau mai multe

0,1% șanse de 20 sau mai multe

0,05% șanse de 21 sau mai multe

Aceste numere au fost estimate dintr-o distribuție empirică generată de o rutină simplă de rutină Monte Carlo în R și cuantilele rezultate ale distribuției de eșantionare.

Pentru a răspunde la întrebarea inițială, să presupunem că desenați 5 bile albe, există doar o șansă aproximativă de 4,8% ca, dacă punga de 1000 de marmură să conțină cu adevărat 10% bile albe, să scoateți doar 5 albi într-un eșantion de 100. Aceasta echivalează cu valoarea ap < 0,05. Acum trebuie să alegeți între

i) Într-adevăr sunt 10% bile albe în geantă și tocmai am avut „ghinion” să desenez atât de puține

sau

ii) Am desenat atât de puține bile albe încât nu pot fi cu adevărat 10% bile albe (resping ipoteza 10% bile albe)

Comentarii

  • În primul rând, acesta este doar un exemplu mare și ‘ nu explică cu adevărat conceptul de valoare p și statistică de testare. În al doilea rând, tu ‘ tocmai susține că, dacă primești mai puțin de 5 sau mai mult de 15 marmuri albe, respingi ipoteza nulă. Care este ‘ distribuția ta pe care o ai ‘ re calculați probabilitățile de la? Acest lucru poate fi aproximat cu o distanță normală centrată la 10, cu o abatere standard de 3. Criteriile dvs. de respingere nu sunt suficient de stricte.
  • Aș fi de acord că acesta este doar un exemplu și este adevărat că tocmai am ales numerele 5 și 15 din a ir cu scop ilustrativ. Când voi avea timp, voi posta un al doilea răspuns, care sper să fie mai complet.

Răspuns

Ceea ce nu vă spune valoarea p este cât de probabil este că ipoteza nulă este adevărată. Conform cadrului convențional de testare a semnificației (Fisher), calculăm mai întâi probabilitatea de a observa datele presupunând că ipoteza nulă este adevărată, aceasta este Valoarea p. Pare intuitiv rezonabil atunci să presupunem că ipoteza nulă este probabil falsă dacă datele sunt suficient de puțin probabil să fie observate în ipoteza nulă. Acest lucru este în întregime rezonabil. Statisticienii folosesc în mod tradițional un prag și „resping ipoteza nulă la 95 % nivel de semnificație „dacă (1 – p)> 0,95; totuși aceasta este doar o convenție care sa dovedit rezonabilă în practică – nu înseamnă că există mai puțin de 5% probabilitate ca ipoteza nulă să fie falsă (și, prin urmare, o 95 % probabilitate ca ipoteza alternativă să fie adevărată). Un motiv pentru care nu putem spune acest lucru este că nu ne-am uitat încă la ipoteza alternativă.

Imaginarea unei funcții f () care mapează valoarea p la probabilitatea ca ipoteza alternativă să fie adevărată. Ar fi rezonabil să afirmăm că această funcție este strict descrescătoare (astfel încât cu cât sunt mai probabile observațiile sub ipoteza nulă, cu atât este mai puțin probabilă ipoteza alternativă), și că dă valori între 0 și 1 (deoarece oferă o estimare Cu toate acestea, asta este tot ceea ce știm despre f (), așa că, deși există o relație între p și probabilitatea ca ipoteza alternativă să fie adevărată, aceasta este necalibrată. Aceasta înseamnă că nu putem folosi valoarea p pentru a face enunțuri cantitative despre plauzibilitatea ipotezelor nulll și alternative.

Lector de avertisment: nu este într-adevăr în cadrul frecvențist să vorbim despre probabilitatea ca o ipoteză să fie adevărată, deoarece nu este o variabilă aleatorie – fie este adevărat, fie nu este. Deci, acolo unde am vorbit despre probabilitatea adevărului unei ipoteze, m-am mutat implicit la o interpretare bayesiană. Este incorect să amestecăm bayesian și frecventist, totuși există întotdeauna o tentație de a face acest lucru, deoarece ceea ce vrem cu adevărat este o indicație cuantitativă a plauzibilității / probabilității relative a ipotezelor. Dar aceasta nu este ceea ce oferă valoarea p.

Răspuns

În statistici nu puteți spune niciodată că ceva este absolut sigur, deci statisticienii folosesc o altă abordare pentru a evalua dacă o ipoteză este adevărată sau nu. Ei încearcă să respingă toate celelalte ipoteze care nu sunt susținute de date.

Pentru a face acest lucru, testele statistice au o ipoteză nulă și o ipoteză alternativă. Valoarea p raportată dintr-un test statistic este probabilitatea rezultatului, având în vedere că ipoteza nulă a fost corectă. De aceea vrem valori p mici. Cu cât sunt mai mici, cu atât rezultatul este mai puțin probabil dacă ipoteza nulă ar fi corectă. Dacă valoarea p este suficient de mică (adică este foarte puțin probabil ca rezultatul să aibă a apărut dacă ipoteza nulă a fost corectă), atunci ipoteza nulă este respinsă.

În acest mod, ipoteze nule pot fi formulate și ulterior respinse. Dacă ipoteza nulă este respinsă, acceptați ipoteza alternativă ca fiind cea mai bună explicație. Amintiți-vă totuși că ipoteza alternativă nu este niciodată sigură, deoarece ipoteza nulă ar fi putut, din întâmplare, să genereze rezultatele.

Comentarii

  • a p -value este probabilitatea unui rezultat ca sau mai mult ” extrem ” decât rezultatul dat, nu al rezultatului real. valoarea p este $ Pr (T \ geq t | H_0) $ și nu $ Pr (T = t | H_0) $ (T este statistică de testare și t este valoarea sa observată).

Răspuns

Sunt puțin diferit pentru a revigora vechiul subiect, dar am sărit de la aici , așa că postez acest lucru ca răspuns la întrebarea din link.

Valoarea p este un termen concret, nu ar trebui să existe spațiu pentru neînțelegere. Dar, este cumva mistic faptul că traducerile colocviale ale definiției valorii p duc la multe interpretări greșite diferite. Cred că rădăcina problemei constă în utilizarea frazelor „cel puțin la fel de adversă pentru ipoteza nulă” sau „cel puțin la fel de extremă ca cea din eșantionul de date” etc.

De exemplu, Wikipedia spune

… valoarea p este probabilitatea de a obține rezultatele eșantionului observat (sau un rezultat mai extrem) atunci când ipoteza nulă este de fapt adevărată .

Înțelesul valorii $ p $ este estompat atunci când oamenii se împiedică pentru prima dată de „(sau un rezultat mai extrem)” și încep să gândească „ mai extreeeme ? „.

Cred că este mai bine să lăsați„ rezultatul mai extrem ”la ceva de genul act de vorbire indirectă . Deci, ideea mea este

Valoarea p este probabilitatea de a vedea ceea ce vedeți într-o „lume imaginară” în care ipoteza nulă este adevărată.

Pentru a concretiza ideea, să presupunem că aveți un eșantion x format din 10 observații și ați făcut ipoteza că populația media este $ \ mu_0 = 20 $. Deci, în lumea dvs. ipotetică, distribuția populației este de $ N (20,1) $.

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

Calculați t-stat ca $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, și aflați că

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

Deci, care este probabilitatea de a observa $ | t_0 | $ la fel de mare ca 2,97 („mai extrem” vine aici) în lume imaginară? În lumea imaginară $ t_0 \ sim t (9) $, astfel, valoarea p trebuie să fie $$ valoarea p = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$

2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

Deoarece valoarea p este mică, este foarte puțin probabil ca eșantionul x să fi fost extras în lumea ipotetică. Prin urmare, concluzionăm că este foarte puțin probabil ca lumea ipotetică să fie de fapt lumea reală.

Comentarii

  • +1, dar când scrieți ” probabilitatea de a vedea ceea ce vedeți ” și omiteți ” ” parte, această propoziție devine strict falsă (și potențial înșelătoare, chiar dacă poate mai puțin confuză). Nu este probabilitatea de a vedea ceea ce vedeți (aceasta este de obicei zero). Este probabilitatea de a vedea ceea ce vedeți ” sau mai extrem „. Chiar dacă acest lucru ar putea fi un pic confuz pentru mulți, este totuși crucial (și se poate argumenta la nesfârșit despre gradul de subiectivitate care se ascunde în spatele acestui ” mai extrem ” formulare).
  • @amoeba Am crezut că, atunci când este furnizat un exemplu adecvat, ar putea servi drept proxy pentru ” obținerea rezultatelor eșantionului observate (sau un rezultat mai extrem) „. Poate că este nevoie de o formulare mai bună.
  • Aveam să fac aceeași observație ca @amoeba; partea ” sau mai extremă ” este tratată bine prin exemplu în înălțimile studenților și în răspunsurile la petrecerea ceaiului, dar eu nu nu cred că orice răspuns din acest fir a lovit o explicație clară generală a acestuia, în special una care acoperă diferite ipoteze alternative. Sunt de acord cu acest răspuns care sugerează că partea ” sau mai extremă ” este un punct conceptual pentru mulți studenți.
  • @Silverfish: și nu numai studenți. Câte ranturi Bayesian-vs-frecventiste am citit care discută problema subiectivității / obiectivității acestui ” mai extrem ” bit!
  • @Silver Sunt de acord cu criticile dvs. și am postat un răspuns încercând să-l abordez. ” Sau mai extrem ” este chiar esența problemei.

Răspuns

De asemenea, am găsit că simulările sunt utile în predare.

Iată o simulare pentru cel mai simplu caz probabil în care eșantionăm $ n $ ori de la $ N (\ mu, 1) $ (prin urmare, $ \ sigma ^ 2 = 1 $ este cunoscut pentru simplitate ) și testați $ H_0: \ mu = \ mu_0 $ împotriva unei alternative din partea stângă.

Apoi, $ t $ -statistic $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ este $ N (0,1) $ sub $ H_0 $, astfel încât valoarea $ p $ este pur și simplu $ \ Phi (\ text {tstat}) $ sau pnorm(tstat) în R.

În simulare , este fracția de ori în care datele generate sub valoarea nulă $ N (\ mu_0,1) $ (aici, $ \ mu_0 = 2 $) produc eșantioane stocate în nullMeans sunt mai puține (adică „mai extreme” în acest test din partea stângă) decât cel calculat din datele observate.

# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

Răspuns

Mi se pare util să urmez o secvență în care explicați conceptele în următoarea ordine: (1) Scorul z și proporțiile deasupra și sub scorul z presupunând că curba normală. (2) Noțiunea unei distribuții de eșantionare și scorul z pentru un eșantion dat înseamnă atunci când se cunoaște abaterea standard a populației (și de aici testul cu un singur eșantion) (3) Testul cu un eșantion t și eșantion înseamnă când deviația standard a populației este necunoscută (plină de povești despre identitatea secretă a unui anumit statistic industrial și de ce Guinness este bun pentru statistici). (4) Testul t cu două eșantioane și distribuția prin eșantionare a diferențelor medii. Ușurința cu care studenții introductivi înțeleg testul t are mult de-a face cu bazele pregătite pentru pregătirea acestui subiect.

/ * instructor pentru modul de studenți îngroziți oprit * /

Răspuns

Ce înseamnă o „valoare p” în raport cu ipoteza testată?

În sens ontologic (ce este adevărul?), înseamnă nimic . Orice testare a ipotezelor se bazează pe ipoteze netestate . Acestea fac în mod normal parte din testul în sine, dar fac parte, de asemenea, din orice model pe care îl utilizați (de exemplu, într-un model de regresie). Deoarece doar presupunem acestea, nu putem ști dacă motivul pentru care valoarea p este sub pragul nostru este pentru că nulul este fals. Este o non sequitur pentru a deduce necondiționat că, din cauza unei valori p scăzute, trebuie să respingem nulul. De exemplu, ceva din model ar putea fi greșit.

În sens epistemologic (ce putem învăța?), înseamnă ceva . Obțineți cunoștințe condiționate în premisele netestate fiind adevărate. Deoarece (cel puțin până acum) nu putem dovedi fiecare edificiu al realității, toate cunoștințele noastre vor fi în mod necesar condiționate. Nu vom ajunge niciodată la „adevăr”.

Răspuns

Încă nu am dovedit următorul argument, așa că ar putea conține erori , dar chiar vreau să îmi arunc cei doi cenți (Sperăm că îl voi actualiza în curând cu o dovadă riguroasă). Un alt mod de a privi $ p $ – valoarea este

$ p $ -value – O statistică $ X $ astfel încât $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ unde $ F_ {X | H_0} $ este funcția de distribuție a $ X $ în $ H_0 $ .

Mai exact, dacă $ X $ are un continuu distribuție și nu folosiți aproximarea, apoi

  1. La fiecare $ p $ -value este o statistică cu o distribuție uniformă pe $ [0, 1] $ și
  2. Fiecare statistică cu o distribuție uniformă pe $ [0, 1] $ este un $ p $ -value.

Puteți considera aceasta o descriere generalizată a $ p $ -values.

Comentarii

  • Această definiție are sens numai pentru distribuții discrete (și apoi nu este corectă), deoarece a doua apariție a ” $ P $ ” arată clar că se referă la probabilități, nu la densități de probabilitate. Mai mult, există extrem de puține distribuții (dacă există) care au proprietatea declarată, ceea ce sugerează că trebuie să existe erori tipografice în enunț. În ceea ce privește revendicările ulterioare, (1) este în mod ideal adevărat, dar (2) nu, cu excepția cazului în care permiteți ca ipoteza nulă să depindă de statistică!
  • @whuber Vă mulțumim pentru intrare. Am modificat definiția și ar trebui să aibă mai mult sens acum!
  • Are sens, mulțumesc: dacă ‘ îl citesc corect, afirmă că distribuția nulă a $ X $ este uniformă pe $ [0, 1]. $ Cu toate acestea, aceasta captează doar o parte din proprietățile valorilor p; nu caracterizează valorile p; și nu spune nimic despre ce înseamnă sau cum să le interpreteze. Luați în considerare studierea unora dintre celelalte răspunsuri din acest fir pentru informații despre ceea ce lipsește.
  • Iată un exemplu pe care l-ați putea găsi interesant. Familia de distribuție este Uniform $ (\ theta, \ theta + 1) $ pentru $ \ theta \ în \ mathbb {R}, $ ipoteza nulă este $ \ theta = 0, $ și alternativa este complementul său. Luați în considerare un eșantion aleatoriu $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Definiți statistica $ X (\ mathbf {X}) = X_1. $ Evident, aceasta are o distribuție uniformă la $ [0,1] $ sub $ H_0: $ dar în ce sens este o valoare p? Care este testul de ipoteză corespunzător? Să presupunem că luăm un eșantion de mărime $ n = 1 $ și observăm valoarea $ X_1 = -2: $ pretindeți că valoarea p este $ -2 $ ??

Răspuns

Cred că exemplele care implică marmură sau monede sau măsurarea înălțimii pot fi bune pentru practicarea matematicii, dar nu sunt bune pentru construirea intuiției. Studenți Îmi place să pun la îndoială societatea, nu? Ce zici de folosirea unui exemplu politic?

Spuneți că un candidat politic a organizat o campanie promițând că unele politici vor ajuta economia. mai târziu, economia este în plină expansiune. Ea „este realegătoare și susține că politica ei este motivul prosperității tuturor. Ar trebui să o alegi din nou?

Cetățeanul atent ar trebui să spună” Ei bine, este adevărat că economia merge bine, dar o putem atribui cu adevărat politicii tale? ” Pentru a răspunde cu adevărat la acest lucru, trebuie să ne gândim la întrebarea „s-ar fi descurcat bine economia în ultimii 2 ani fără ea?” Dacă răspunsul este da (de exemplu, economia este în plină expansiune din cauza unor noi dezvoltări tehnologice fără legătură), atunci respingem explicația datelor politicianului asupra datelor.

Adică să examinăm o ipoteză (politica a ajutat economia ), trebuie să construim un model al lumii în care acea ipoteză este nulă (politica nu a fost niciodată adoptată). Apoi facem o predicție sub acel model. Numim probabilitatea de a observa aceste date în acea lume alternativă valoarea p . Dacă valoarea p este prea mare, atunci nu suntem convinși de ipoteză – politica nu a făcut nicio diferență. Dacă valoarea p este mică, atunci avem încredere în ipoteza – politica a fost esențială.

Comentarii

  • Nu sunt de acord cu faptul că p este definit ca ” Numim probabilitatea de a observa aceste date în acea lume alternativă valoarea p ” și, de asemenea, puterea concluziei care se trage ( mai ales eșecul de a respinge nulul).
  • @Silverfish Ați putea detalia? Probabil ar fi mai corect să numim valoarea p probabilitatea de a face acea observație SAU o observație mai extremă. Dar se pare că ai o critică mai profundă.
  • Întrucât întrebarea inițială se întreabă ce este valoarea p, am crezut că transpunerea clară a acestei definiții era importantă. Doar spunând ” mai extrem ” nu este ‘ în sine foarte util fără a explica ce ” mai extrem ” ar putea însemna – că ‘ este o slăbiciune a majorității răspunsurilor din acest subiect I gândi. Numai răspunsul whuber ‘ și răspunsul ” ceai ” pare să explice cu adevărat de ce contează și ” mai extrem de „.
  • De asemenea, am considerat că concluziile tale sunt formulat prea puternic. Dacă respingem nulul, avem dovezi semnificative împotriva acestuia, dar nu ‘ nu știm că este ‘ fals. Când nu reușim să respingem nulul, acest lucru nu înseamnă ‘ că înseamnă că nulul este adevărat (deși ar putea fi bine). Ca un comentariu mai general, am sentimentul că testul pe care ‘ îl descrieți, în termeni destul de abstracte, nu este probabil să fie clar pentru un cursant care tocmai învață cum să efectueze un test . Lipsa unei statistici de test clar definite nu ‘ nu se potrivește bine cu întrebarea inițială care întreabă cum să interpretăm și t -statistic.
  • O caracteristică a acestui răspuns care îmi place mult este explicația clară că valorile p sunt calculate utilizând un model nul, chiar dacă nu ‘ credem (subiectiv) că modelul nul este de fapt adevărat. Cred că statisticile testelor de fapt sunt calculate în baza unui model este un punct cheie cu care se luptă mulți studenți.

Răspuns

Valoarea p nu este la fel de misterioasă pe cât o fac majoritatea analiștilor.Este o modalitate de a nu trebuie să calculați intervalul de încredere pentru un test t, ci pur și simplu de a determina nivelul de încredere cu care ipoteza nulă poate fi respinsă.

ILUSTRARE. Rulați un test. Valoarea p apare ca 0,1866 pentru variabila Q, 0,0023 pentru variabila R. (Acestea sunt exprimate în%).

Dacă testați la un nivel de încredere de 95% pentru a respinge hipo nula;

pentru Q: 100-18,66 = 81,34%

pentru R: 100-0,23 = 99,77%.

La un nivel de încredere de 95%, Q oferă o încredere de 81,34% de respins. Aceasta scade sub 95% și este inacceptabilă. ACCEPT NULL.

R oferă o încredere de 99,77% pentru a respinge nul. Clar peste 95% dorit. Respingem astfel valoarea nulă.

Tocmai am ilustrat citirea valorii p printr-un „mod invers” de măsurare până la nivelul de încredere la care respingem hipotensiunea nulă.

Comentarii

  • Bun venit pe site. Ce vrei să spui cu variabila $ Q $ și $ R $ -variabilă? Clarifica. De asemenea, utilizarea expresiei ” accept null ” este de obicei considerată destul de nedorită, chiar înșelătoare.
  • @cardinal subliniază un punct important. ‘ nu veți accepta nulitatea.

Răspundeți

****** valoarea p în testarea ipotezei măsoară sensibilitatea testului. Cu cât valoarea p este mai mică, cu atât este mai mare sensibilitatea. dacă nivelul de semnificație este setat la 0,05 valoarea p de 0,0001 indică o probabilitate mare ca rezultatele testului să fie corecte ******

Comentarii

  • -1 Este clar că este greșit. Vă recomandăm să citiți mai întâi răspunsurile cu voturi mai ridicate.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *