Jakie jest znaczenie wartości p i wartości t w testach statystycznych?

Po ukończeniu kursu statystyki i próbie pomocy innym studentom zauważyłem, że jednym z tematów, który często inspiruje do robienia zdjęć, jest interpretacja wyników testów hipotez statystycznych . Wydaje się, że studenci z łatwością uczą się wykonywania obliczeń wymaganych przez dany test, ale rozłączają się z interpretacją wyników. Wiele narzędzi komputerowych podaje wyniki testów w postaci „wartości p” lub „wartości t”.

Jak wyjaśnić następujące kwestie studentom, którzy biorą udział w pierwszym kursie statystyki:

  • Co oznacza „wartość p” w odniesieniu do testowanej hipotezy? Czy są przypadki, w których należy szukać wysokiej wartości p lub niskiej wartości p?

  • Jaka jest zależność między wartością p a wartością t?

Komentarze

  • Spora część tego jest zasadniczo omówiona w pierwszym zdaniu artykułu Wikipedii na temat wartości p , co poprawnie definiuje wartość p. Jeśli to ' jest zrozumiałe, wiele jest jasne.
  • Po prostu weź książkę: Statystyki bez łez. Może to uratować twoje zdrowie psychiczne !!
  • @ user48700 Czy mógłbyś podsumować, jak Statystyka bez łez wyjaśnia to?
  • Ktoś powinien narysować wykres wartości p zadawać pytania w czasie i założę się, że ' zobaczymy sezonowość i korelację z kalendarzami akademickimi na uczelniach lub na zajęciach z nauk o danych w Coursera. rekomendacji w odpowiedziach i komentarzach, chciałbym zasugerować inną książkę, odpowiednio nazwaną ” Czym i tak jest wartość p? ” .

Odpowiedź

Zrozumienie $ p $ -value

Załóżmy, że chcesz sprawdzić hipotezę, że średni wzrost studentów płci męskiej na Twojej uczelni to 5 $ ft 7 $ cali. Zbierasz losowo wybrane wysokości 100 USD i obliczasz średnią próbną (powiedzmy, że to 5 $ ft 9 $ cali). Korzystając z odpowiedniego wzoru / procedury statystycznej, obliczasz dla swojej hipotezy wartość $ p $ i mówisz, że okazuje się ona wynosić 0,06 USD $ .

Aby odpowiednio zinterpretować $ p = 0,06 $ , należy pamiętać o kilku rzeczach:

  1. Pierwszym krokiem w klasycznym testowaniu hipotez jest założenie, że rozważana hipoteza jest prawdziwa. (W naszym kontekście zakładamy, że true średnia wysokość to 5 $ ft 7 USD cali.)

  2. Wyobraź sobie następujące obliczenia: Oblicz prawdopodobieństwo, że próbka oznacza jest większa niż 5 $ ft 9 $ cali przy założeniu, że nasza hipoteza jest w rzeczywistości poprawna (patrz punkt 1) .

Innymi słowy, chcemy wiedzieć, $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {cale} \: | \: \ mathrm {prawda \: wartość} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { cali}). $$

Obliczenie w kroku 2 to tak zwana wartość $ p $ . Dlatego $ p $ -value 0,06 $ oznaczałoby, że gdybyśmy powtórzyli nasz eksperyment, wiele , wiele razy (za każdym razem, gdy wybieramy losowo 100 $ uczniów i obliczamy przykładową średnią), a następnie 6 $ poza 100 $ , możemy spodziewać się, że próbka średnia będzie większa lub równa 5 $ ft 9 $ cali.

Czy biorąc pod uwagę powyższe zrozumienie, czy nadal powinniśmy utrzymywać nasze założenie, że nasza hipoteza jest prawdziwa (patrz krok 1)? Cóż, $ p = 0,06 $ oznacza, że wydarzyła się jedna z dwóch rzeczy:

  • (A) Albo nasza hipoteza jest prawidłowa i miało miejsce niezwykle mało prawdopodobne zdarzenie (np. wszyscy uczniowie 100 $ są uczniami-sportowcami)

lub

  • (B) Nasze założenie jest błędne, a próbka, którą otrzymaliśmy, nie jest aż tak niezwykła.

Tradycyjnym sposobem wyboru między (A) i (B) jest wybranie dowolnego odcięcie dla $ p $ . Wybieramy (A), jeśli $ p > 0.05 $ i (B) if $ p < 0,05 $ .

Komentarze

  • Nie spiesz się! Wygrałem ' nie myśląc o wybraniu ” najlepszej odpowiedzi ” na tydzień lub więc.
  • Teraz, gdy ' miałem okazję wrócić i przeczytać całą odpowiedź – duże +1 za przykład wzrostu ucznia. Bardzo przejrzysty i dobrze rozplanowany.
  • Dobra robota … ale musimy dodać (C) nasz model (zawarty we wzorze / procedurze statystycznej) jest nieprawidłowy.
  • A t -value (lub jakakolwiek inna statystyka testowa) jest przeważnie krokiem pośrednim. Jest to ' w zasadzie statystyka, co do której przy pewnych założeniach udowodniono, że ma dobrze znany rozkład. Ponieważ znamy rozkład statystyki testowej pod wartością null, możemy następnie użyć standardowych tabel (obecnie głównie oprogramowania) w celu uzyskania wartości p.
  • Isn ' t wartość p uzyskana w wyniku wykonania testu chi-kwadrat, a następnie z tabeli chi-kwadrat? Zastanawiam się, dlaczego obliczone powyżej prawdopodobieństwo wskazywało na samą wartość p ?!

Odpowiedź

Dialog pomiędzy Nauczyciel i rozważny uczeń

Z pokorą wyrażony w przekonaniu, że dotychczas w tym wątku nie użyto wystarczającej liczby kredek. Na końcu pojawia się krótkie ilustrowane streszczenie.


Student : Co oznacza wartość p? Wiele osób zgadza się z tym, że jest szansa, że ” zobaczymy przykładową średnią większą lub równą ” statystykę lub prawdopodobieństwo zaobserwowania tego wyniku jest „. .. biorąc pod uwagę, że hipoteza zerowa jest prawdziwa ” lub gdzie ” Statystyka mojej próbki spadła na [symulowaną] dystrybucję ” , a nawet ” prawdopodobieństwo zaobserwowania statystyki testowej co najmniej tak dużej jak ta obliczona przy założeniu, że hipoteza zerowa jest prawdziwa ” .

Nauczyciel : Prawidłowo zrozumiane, wszystkie te stwierdzenia są poprawne w wielu okolicznościach.

Uczeń : Nie wiem, jak większość z nich ma znaczenie. Czy nie nauczyłeś nas, że musimy postawić hipotezę zerową $ H_0 $ i hipotezę alternatywną $ H_A $ ? Jaki jest ich udział w tych pomysłach ” większych lub równych ” lub ” przynajmniej tak duże ” czy bardzo popularne ” bardziej ekstremalne „?

Nauczyciel : Ponieważ ogólnie może się to wydawać skomplikowane, czy pomogłoby nam zbadanie konkretnego przykładu?

Uczeń : Jasne. Ale jeśli możesz, uczyń to realistycznym, ale prostym.

Nauczyciel : Ta teoria testowania hipotez historycznie zaczęła się od potrzeby astronomów analizowania błędów obserwacyjnych, więc co powiesz na rozpoczęcie. Pewnego dnia przeglądałem stare dokumenty, w których pewien naukowiec opisywał swoje wysiłki zmierzające do zmniejszenia błędu pomiaru w jego aparacie. Zrobił dużo pomiarów powtórzeniach gwiazdy w znanej pozycji i zarejestrował ich przemieszczenia przed lub za tą pozycją. Aby zwizualizować te przemieszczenia, narysował histogram, który – nieco wygładzony – wyglądał jak ten.

Rysunek 1: Histogram przemieszczeń

Student : Pamiętam, jak działają histogramy: oś pionowa jest oznaczona etykietą ” Gęstość ” aby przypomnieć mi, że względne częstotliwości pomiarów są reprezentowane przez obszar zamiast wysokości.

Nauczyciel : Zgadza się. ” nietypowa ” lub ” ekstremalna ” wartość znajdować się w regionie o dość małej powierzchni. Oto kredka. Czy myślisz, że mógłbyś pokolorować region, którego powierzchnia stanowi zaledwie jedną dziesiątą całości?

Student : Jasne; to proste. [Kolory na rysunku.]

Rysunek 2: Uczeń

Nauczyciel : Bardzo dobrze! Dla mnie to wygląda na około 10% powierzchni. Pamiętaj jednak, że jedyne obszary na histogramie, które mają znaczenie, to obszary między pionowymi liniami: reprezentują one szansę lub prawdopodobieństwo , że przemieszczenie będzie zlokalizowane między tymi liniami na osi poziomej. Oznacza to, że trzeba było pokolorować całą drogę w dół, a to byłoby ponad połowę obszaru, nie „prawda?

Student : Och, rozumiem. Pozwól mi spróbować jeszcze raz. Będę chciał pokolorować, gdzie krzywa jest naprawdę niska, prawda? Jest najniższy na dwóch końcach.Czy muszę pokolorować tylko jeden obszar, czy byłoby dobrze podzielić go na kilka części?

Nauczyciel : Używanie kilku części to sprytny pomysł. Gdzie by one były?

Student (wskazuje): Tu i tutaj. Ponieważ ta kredka nie jest zbyt ostra, użyłem długopisu, aby pokazać linie, których używam.

Rysunek 3: Uczeń

Nauczyciel : Bardzo fajnie! Pozwólcie, że opowiem wam resztę historii. Naukowiec dokonał pewnych ulepszeń w swoim urządzeniu, a następnie wykonał dodatkowe pomiary. Napisał, że przemieszczenie pierwszego z nich wynosiło tylko 0,1 $ , co uznał za dobry znak, ale będąc uważnym naukowcem, przystąpił do wykonania większej liczby pomiarów w ramach kontroli . Niestety, te inne pomiary przepadają – rękopis urywa się w tym miejscu – i jedyne, co mamy, to ta pojedyncza liczba, 0,1 $ .

Uczeń : To „szkoda. Ale czy nie jest to dużo lepsze niż szerokie rozłożenie przemieszczeń na twojej figurze?

Nauczyciel : To „to pytanie, na które chciałbym, abyś odpowiedział. Na początek, co powinniśmy ustawić jako $ H_0 $ ?

Student : Cóż, sceptyk zastanawiałby się, czy ulepszenia wprowadzone w urządzeniu miały jakikolwiek wpływ. Ciężar dowodu spoczywa na naukowcu: chciałby pokazać, że sceptyk się myli. To sprawia, że myślę, że hipoteza zerowa jest trochę zła dla naukowca: mówi, że wszystkie nowe pomiary – w tym wartość 0,1 $ , o których wiemy – powinny zachowywać się tak, jak opisano w pierwszym histogram. A może nawet gorzej: mogą być jeszcze bardziej rozłożone.

Nauczyciel : G o dalej, „radzisz sobie dobrze.

Student : A więc alternatywą jest to, że nowe pomiary byłyby mniej rozłożone, prawda? / p>

Nauczyciel : Bardzo dobrze! Czy możesz narysować mi obraz tego, jak wyglądałby histogram z mniejszą rozpiętością? Oto kolejna kopia pierwszego histogramu; możesz na niej narysować jako odniesienie.

Student (rysunek): Używam pióra, aby zarysować nowy histogram i ja zabarwiam obszar pod nim. Zrobiłem to tak, że większość krzywej jest bliska zeru na osi poziomej, więc większość jego obszaru jest bliska (poziomej) wartości zerowej: to jest to oznacza być mniej rozproszonym lub bardziej precyzyjnym.

Rysunek 4: Uczeń

Nauczyciel : To dobry początek. Pamiętaj jednak, że histogram pokazujący szanse powinien mieć łączną powierzchnię 1 $ . Całkowity obszar pierwszego histogramu w związku z tym 1 $ . Ile obszaru znajduje się w nowym histogramie?

Uczeń : mniej niż połowa, jak sądzę . Widzę, że to problem, ale nie wiem, jak to naprawić. Co mam zrobić?

Nauczyciel : Sztuczka polega na tym, aby nowy histogram wyższy niż stary, więc jego tota Powierzchnia l wynosi 1 $ . Tutaj pokażę wersję wygenerowaną komputerowo, aby zilustrować.

Rysunek 5: Nauczyciel

Uczeń : Widzę: rozciągnąłeś go w pionie, więc jego kształt tak naprawdę się nie zmienił, ale teraz czerwony obszar i szary obszar (w tym część pod czerwonym) są takie same.

Nauczyciel : Tak. Patrzysz na ilustrację hipotezy zerowej (na niebiesko, rozłożoną) i część hipotezy alternatywnej (na czerwono, z mniejszym rozłożeniem).

Uczeń : Co masz na myśli przez ” część ” alternatywy? Czy to nie jest tylko hipoteza alternatywna?

Nauczyciel : statystycy i gramatyka nie wydają się mieszać. 🙂 Poważnie, przez ” hipotezę ” rozumieją zwykle cały duży zestaw możliwości. W tym przypadku alternatywą (jak już wcześniej wspomniałeś) jest to, że pomiary są ” mniej rozłożone ” niż wcześniej. Ale o ile mniej ? Możliwości jest wiele. Pozwól, że pokażę ci inny. Narysowałem go żółtymi kreskami. Znajduje się pomiędzy dwoma poprzednimi.

Rysunek 6: Wartość null wraz z dwoma elementami alternatywy

Student : Rozumiem: możesz mieć różne wielkości spreadu, ale nie wiesz z góry, jaki będzie on naprawdę. Ale dlaczego zrobiłeś zabawne cieniowanie na tym zdjęciu?

Nauczyciel : chciałem podkreślić, gdzie i czym różnią się histogramy. Zacieniowałem je na szaro, gdzie alternatywne histogramy są niższe niż zero, a na czerwono, gdzie alternatywy są wyższe .

Student : Dlaczego miałoby to mieć znaczenie?

Nauczyciel : Czy pamiętasz, jak pokolorowałeś pierwszy histogram w obu ogonach? [Przegląda papiery] Ach, oto jest.Pokolorujmy to zdjęcie w ten sam sposób.

Rysunek 7: Null i alternatywa, pokolorowane.

Uczeń : Pamiętam: to są wartości ekstremalne. Znalazłem miejsca, w których gęstość zerowa była jak najmniejsza i zabarwiona na 10% tamtejszego obszaru.

Nauczyciel : Opowiedz mi o alternatywach w tych ekstremalnych obszarach.

Student : Trudno to zobaczyć, ponieważ kredka to zakryła, ale wygląda na to. Nie ma prawie żadnej szansy na to, by jakaś alternatywa znalazła się w obszarach, które pokolorowałem. Ich histogramy są dokładnie w dół na osi wartości i nie ma miejsca na żaden obszar pod nimi.

Nauczyciel : Kontynuujmy tę myśl. Gdybym powiedział, hipotetycznie, że pomiar miał przemieszczenie $ – 2 $ i poprosiłbym o wybranie, który z tych trzech histogramy to ten, z którego najprawdopodobniej pochodzi, który by to był?

Uczeń : pierwszy – niebieski. Jest najbardziej rozłożony i jest to jedyny przypadek, w którym $ – 2 $ wydaje się mieć jakiekolwiek szanse.

Nauczyciel : A co z wartością 0,1 USD w rękopisie?

Student : Hmmm … to jest coś innego fabuła. Wszystkie trzy histogramy są dość wysoko nad ziemią i wynoszą 0,1 USD .

Nauczyciel : OK, w porządku. Ale załóżmy, że powiedziałem Ci, że wartość była gdzieś blisko 0,1 USD , na przykład między 0 $ a 0,2 USD . Czy to pomoże ci odczytać niektóre prawdopodobieństwa z tych wykresów?

Uczeń : Jasne, ponieważ mogę używać obszarów. Muszę tylko oszacować obszary pod każdą krzywą między 0 $ a 0,2 $ . Ale to wygląda na dość trudne.

Nauczyciel : Nie musisz iść tak daleko. Czy możesz po prostu powiedzieć, który obszar jest największy?

Uczeń : oczywiście ten pod najwyższą krzywą. Wszystkie trzy obszary mają tę samą podstawę, więc im wyższa krzywa, tym więcej obszaru znajduje się pod nią i podstawą. To oznacza, że najwyższy histogram … ten, który narysowałem, z czerwonymi kreskami – jest najbardziej prawdopodobny dla przemieszczenia 0,1 USD . Myślę, że wiem, do czego zmierzasz, ale ja „Trochę się martwię: czy nie muszę przeglądać wszystkich histogramów dla wszystkich alternatyw, a nie tylko jednej lub dwóch pokazanych tutaj? Jak mógłbym to zrobić?

Nauczyciel : „Jesteś dobry w wychwytywaniu wzorców, więc powiedz mi: w miarę jak aparatura pomiarowa jest coraz dokładniejsza, co się dzieje jego histogram?

Uczeń : Robi się węższy – och, i musi też być wyższy, więc jego całkowita powierzchnia pozostaje taka sama. To sprawia, że trudno je porównać histogramy. Te alternatywne są wszystkie wyższe niż wartość null po prawej stronie 0 $ , to oczywiste. Ale przy innych wartościach czasami alternatywy są wyższe, a czasami niższe! Na przykład [wskazując na wartość w pobliżu 3/4 $ ], tutaj mój czerwony histogram jest najniższy, a żółty histogram to najwyższy, a między nimi znajduje się oryginalny zerowy histogram. Ale po prawej stronie null jest najwyższe.

Nauczyciel : Ogólnie porównywanie histogramów to skomplikowana sprawa. Aby nam w tym pomóc, poprosiłem komputer o wykonanie kolejnego wykresu: podzielił każdą z alternatywnych wysokości histogramu (lub ” gęstości „) przez zerową wysokość histogramu, tworząc w rezultacie wartości znane jako ” współczynniki prawdopodobieństwa. ” W rezultacie , wartość większa niż 1 $ oznacza, że alternatywa jest bardziej prawdopodobna, a wartość mniejsza niż 1 $ oznacza alternatywa jest mniej prawdopodobna. Narysował jeszcze jedną alternatywę: jest bardziej rozłożony niż pozostałe dwa, ale wciąż mniej rozłożony niż pierwotny aparat.

Rysunek 8: Wskaźniki prawdopodobieństwa

Nauczyciel (kontynuacja): Czy możesz mi pokazać, gdzie alternatywy są bardziej prawdopodobne niż zerowe?

Uczeń (kolorowanie): Tutaj, oczywiście, w środku, a ponieważ to już nie są histogramy, myślę, że powinniśmy patrzeć raczej na wysokości niż obszary, więc zaznaczam tylko zakres wartości na osi poziomej. Ale skąd mam wiedzieć, ile środka należy pokolorować? Gdzie mam przestać kolorować?

Rysunek 9: Zaznaczone wykresy współczynnika prawdopodobieństwa

Nauczyciel : Nie ma sztywnej reguły. Wszystko zależy od tego, jak zamierzamy wykorzystać nasze wnioski i jak zaciekli są sceptycy.Ale usiądź wygodnie i pomyśl o tym, co osiągnąłeś: teraz zdajesz sobie sprawę, że wyniki z dużymi wskaźnikami prawdopodobieństwa są dowodem dla alternatywy, a wyniki z małym współczynnikiem prawdopodobieństwa są dowodem przeciwko alternatywie . Poproszę cię o pokolorowanie obszaru, który, o ile jest to możliwe, ma niewielką szansę wystąpienia w ramach hipotezy zerowej i stosunkowo dużą szansę wystąpienia w ramach alternatyw. Wracając do pierwszego diagramu, który pokolorowałeś, na początku naszej rozmowy, pokolorowałeś dwa ogony wartości null, ponieważ były one ” ekstremalne. ” Czy nadal wykonaliby dobrą robotę?

Student : nie sądzę. Mimo że były dość ekstremalne i rzadkie w ramach hipotezy zerowej, są praktycznie niemożliwe dla żadnej z alternatyw. Gdyby mój nowy pomiar wynosił 3,0 USD , myślę, że zgodziłbym się ze sceptykiem i zaprzeczył, że nastąpiła jakakolwiek poprawa, mimo że 3,0 $ był w każdym razie niezwykłym wynikiem. Chcę zmienić tę kolorystykę. Tutaj – pozwól mi mieć kolejną kredkę.

Rysunek 10: Ulepszone znaczniki

Nauczyciel : Co to oznacza?

Uczeń : Zaczęliśmy od Ciebie, prosząc mnie o narysowanie tylko 10% obszaru pod oryginalnym histogramem – tym, który opisuje wartość zerową. Więc teraz Narysowałem 10% obszaru, w którym alternatywy wydają się bardziej prawdopodobne. Myślę, że kiedy nowy pomiar pojawia się w tej dziedzinie, mówi nam, że powinniśmy wierzyć alternatywie.

Nauczyciel : A jak powinien na to zareagować sceptyk?

Uczeń : sceptyk nigdy nie musi przyznać, że się myli, prawda? Ale myślę, że jego wiara powinna zostać trochę zachwiana. W końcu ułożyliśmy to tak, że chociaż pomiar mógłby znajdować się wewnątrz obszaru, który właśnie narysowałem, ma tylko 10% szans na pojawienie się tam, gdy wartość zerowa jest prawdziwa. I ma większą szansę być tam, gdy alternatywa jest prawdziwa. Nie mogę tylko powiedzieć, o ile jest to dużo większe, ponieważ zależałoby od tego, jak bardzo naukowiec ulepszył aparat. Po prostu wiem, że jest większa. Więc dowody byłyby przeciwko sceptykowi.

Nauczyciel : W porządku. Czy mógłbyś podsumować swoje rozumienie, abyśmy „doskonale wiedzieli, czego się nauczyłeś?

Uczeń : Dowiedziałem się, że aby porównać hipotezy alternatywne z hipotezami zerowymi, powinniśmy porównać ich histogramy. Dzielimy gęstość alternatyw przez gęstość wartości zerowej: to „tak nazywa się ” współczynnik prawdopodobieństwa. ” Aby zrobić dobry test, powinienem wybrać małą liczbę, na przykład 10% lub cokolwiek innego, co może wystarczyć, aby wstrząsnąć sceptykiem. Następnie powinienem znaleźć wartości, w których współczynnik prawdopodobieństwa jest tak wysoki, jak to możliwe, i pokolorować je, aż 10% (lub cokolwiek) zostanie pokolorowane.

Nauczyciel : A jak użyłbyś to zabarwienie?

Uczeń : Jak mi wcześniej przypomniałeś, kolorystyka musi znajdować się między pionowymi liniami. Wartości (na osi poziomej), które leżą pod kolorami, są dowodem przeciwko hipotezie zerowej. Inne wartości – cóż, trudno powiedzieć, co mogą oznaczać bez dokładniejszego przyjrzenia się wszystkim stosowanym histogramom.

Nauczyciel : Wracając do wartości 0,1 USD w rękopisie, co byś wywnioskował?

Student : To jest w obszarze, który ostatnio pokolorowałem , więc myślę, że naukowiec prawdopodobnie miał rację i aparat naprawdę został ulepszony.

Nauczyciel : Ostatnia rzecz. Twój wniosek opierał się na wybraniu 10% jako kryterium lub ” rozmiaru ” testu. Wiele osób woli zamiast tego używać 5%. Niektórzy wolą 1%. Co możesz im powiedzieć?

Uczeń : nie mogłem zrobić wszystkich tych testów naraz! Cóż, może w jakiś sposób mógłbym mógł. Widzę, że bez względu na rozmiar testem powinno być, powinienem zacząć kolorowanie od $ 0 $ , co w tym sensie jest ” najbardziej ekstremalnym ” value i stamtąd pracować na zewnątrz w obu kierunkach. Gdybym zatrzymał się tuż przy 0,1 $ – wartość faktycznie zaobserwowana – Myślę, że pokolorowałbym obszar gdzieś pomiędzy 0,05 $ a 0,1 $ , powiedzmy 0,08 $ . 5% i 1% ludzi od razu zauważyło, że pokolorowałem za dużo: gdyby chcieli pokolorować tylko 5% lub 1%, mogliby to zrobić, ale nie zrobiliby tego „Nie wyciągnij tak daleko, jak 0,1 USD . Nie doszliby do tego samego wniosku, co ja: powiedzieliby, że nie ma wystarczających dowodów na to, że zmiana rzeczywiście nastąpiła.

Nauczyciel : Właśnie powiedziałeś mi, co wszystko te cytaty na początku naprawdę znaczą.Z tego przykładu powinno jasno wynikać, że nie mogą oni chcieć ” bardziej ekstremalnych ” ani ” większe lub równe ” lub ” co najmniej tak duże ” w znaczeniu mając większą wartość lub nawet mając wartość, w której gęstość zerowa jest mała. Naprawdę mają na myśli te rzeczy w sensie dużych wskaźników prawdopodobieństwa , które opisałeś. Nawiasem mówiąc, liczba w okolicy 0,08 USD , którą obliczyłeś, to ” wartość p. ” Można to właściwie zrozumieć tylko w sposób, który opisałeś: w odniesieniu do analizy względnych wysokości histogramu – współczynniki prawdopodobieństwa.

Student : Dziękuję Ci. Nie jestem pewien, czy w pełni to wszystko rozumiem, ale dałeś mi wiele do przemyślenia.

Nauczyciel : Jeśli chcesz pójść dalej, weź spójrz na Lemmat Neymana-Pearsona . Prawdopodobnie jesteś teraz gotowy, aby to zrozumieć.


Streszczenie

Wiele testów opartych na jednej statystyce, takiej jak ten w oknie dialogowym, będzie nazywać ją ” $ z $ ” lub ” $ t $ „. To są sposoby na wskazanie, jak wygląda zerowy histogram, ale to tylko wskazówki: to, jak nazwiemy tę liczbę, nie ma znaczenia. Konstrukcja podsumowana przez studenta, jak pokazano na ilustracji, pokazuje, jak ma się ona do wartości p. Wartość p to najmniejszy rozmiar testu, który spowodowałby, że obserwacja $ t = 0,1 $ doprowadziłaby do odrzucenia hipotezy zerowej.

Rysunek 11: wartość p jako obszar.

Na tym rysunku, powiększonym w celu pokazania szczegółów, hipoteza zerowa jest wykreślona w ciągły niebieski, a dwie typowe alternatywy są wykreślone liniami przerywanymi. Region, w którym te alternatywy zwykle są znacznie większe niż wartość null, jest zacieniony. Cieniowanie zaczyna się tam, gdzie względne prawdopodobieństwo alternatyw jest największe (przy 0 $ ). Cieniowanie zatrzymuje się, gdy obserwacja $ t = 0,1 $ zostanie osiągnięta. Wartość p to obszar zacienionego regionu pod histogramem zerowym: jest to szansa, przy założeniu, że wartość zerowa jest prawdą, zaobserwowania wyniku, którego współczynniki prawdopodobieństwa są zwykle duże, niezależnie od tego, która alternatywa jest prawdziwa. W szczególności ta konstrukcja jest ściśle uzależniona od hipotezy alternatywnej. Nie można go przeprowadzić bez określenia możliwych alternatyw.


Dwa praktyczne przykłady testu opisanego tutaj – jeden opublikowany, drugi hipotetyczny – patrz https://stats.stackexchange.com/a/5408/919 .

Komentarze

  • To ma świetnie poradził sobie z moim komentarzem do innej odpowiedzi, że żadna z wcześniejszych odpowiedzi na to pytanie nie dotyczyła ogólnie powszechnie słyszanego ” lub bardziej ekstremalnego ” aspekt wartości p . (Chociaż ” test herbaty ” odpowiedź zawierała dobrą konkretny przykład). Szczególnie podziwiam sposób, w jaki ten przykład został celowo skonstruowany, aby podkreślić, że ” bardziej ekstremalne ” może oznaczać coś wręcz przeciwnego ” większy ” lub ” dalej od zera „.
  • Chciałbym, aby nauczyciele i podręczniki nie ' używali wyrażenia ” lub bardziej ekstremalnego „, naprawdę. Słyszałem, że dwa warianty można sparafrazować jako ” bardziej korzystne dla $ H_1 $ ” lub ” bardziej przekonujący z $ H_1 $ „. W tym przypadku wartości bliższe zeru rzeczywiście byłyby bardziej przekonujące, że teleskop stał się bardziej niezawodny, ale wymaga pewnych akrobacji językowych (prawdopodobnie argumentowanych, ale potencjalnie mylących), aby opisać je jako ” bardziej ekstremalne „.
  • Wyjątkowo wnikliwe, jak zawsze, dziękujemy za poświęcenie czasu na napisanie tych niezwykle pomocnych odpowiedzi. Naprawdę zastanawiam się, dlaczego podręczniki nigdy nie są pisane w sposób zbliżony do tego poziomu jasności i intuicji.
  • ' sarkazm w komentarzu jest niebezpieczny , @baxx, ponieważ ' jest za mało miejsca, by zrobić to grzecznie i elegancko. Dlatego ' zwykle nie jest dobrym pomysłem przypuszczenie, że komentarz jest sarkastyczny, chyba że wyraźnie ci o tym mówi.Po prostu załóż, że komentarze mają na celu pomóc. Jeśli po prostu prześledzisz pierwsze trafienie w wyszukiwanym przeze mnie wyszukiwaniu, myślę, że odpowiedzi na twoje pytania zostaną znalezione.
  • Po prostu fantastycznie! Dziękuję @whuber!

Odpowiedz

Przed dotknięciem tego tematu zawsze upewniam się, że uczniowie chętnie poruszają się między procentami, liczbami dziesiętnymi, kursami i ułamkami. Jeśli nie są z tego całkowicie zadowoleni, mogą się bardzo szybko zdezorientować.

Chciałbym wyjaśnić testowanie hipotez po raz pierwszy (a zatem wartości p i statystyki testowe) przez Fishera ” Klasyczny eksperyment z herbatą Mam kilka powodów:

(i) Myślę, że praca nad eksperymentem i definiowanie terminów w trakcie pracy ma więcej sensu niż zdefiniowanie na początku wszystkich tych terminów. (ii) Nie musisz polegać bezpośrednio na rozkładach prawdopodobieństwa, obszarach pod krzywą itp., aby przejść przez kluczowe punkty testowania hipotez. (iii) Wyjaśnia to absurdalne pojęcie „jako lub bardziej ekstremalne niż obserwowane” w dość rozsądny sposób (iv) Uważam, że uczniowie lubią rozumieć historię, pochodzenie i przeszłość tego, czego się uczą, ponieważ czyni to bardziej realnym niż niektóre abstrakcyjne teorie. (v) Nie ma znaczenia, z jakiej dyscypliny lub przedmiotu pochodzą studenci, mogą oni odnieść się do przykładu herbaty (uwaga: niektórzy studenci z zagranicy mają trudności z tą specyficzną brytyjską instytucją zajmującą się herbatą z mlekiem).

[Uwaga: pomysł ten zaczerpnąłem ze wspaniałego artykułu Dennisa Lindleya „Analiza danych eksperymentalnych: uznanie herbaty & wina”, w którym pokazuje on, dlaczego metody bayesowskie są lepsze od klasycznych metod.]

Historia jest taka, że Muriel Bristol odwiedza Fisher pewnego popołudnia lat dwudziestych w Rothamsted Experimental Station na filiżankę herbaty. Kiedy Fisher włożył ostatnie mleko, skarżyła się, że może powiedz też, czy mleko zostało nalane jako pierwsze (czy ostatnie) i że wolała to pierwsze. Aby to sprawdzić, zaprojektował swój klasyczny eksperyment z herbatą, w którym Muriel otrzymuje parę filiżanek do herbaty i musi określić, który z nich miał mleko jako pierwsze. Powtarza się to z sześcioma parami filiżanek herbaty. Jej cho Lody są albo Prawidłowe (R), albo Nieprawidłowe (W), a jej wyniki to: RRRRRW.

Załóżmy, że Muriel w rzeczywistości tylko zgaduje i nie ma żadnej zdolności do rozróżniania. Nazywa się to Hipoteza zerowa . Według Fishera celem eksperymentu jest zdyskredytowanie tej zerowej hipotezy. Jeśli Muriel zgaduje, poprawnie zidentyfikuje filiżankę herbaty z prawdopodobieństwem 0,5 na każdą turę, a ponieważ są one niezależne, obserwowany wynik wynosi 0,5 $ ^ 6 $ = 0,016 (lub 1/64). Następnie Fisher twierdzi, że albo:

(a) hipoteza zerowa (zgaduje Muriel) jest prawdziwa i wystąpiło zdarzenie o małym prawdopodobieństwie lub

(b) hipoteza zerowa jest fałszywa i Muriel ma zdolności rozróżniające.

Wartość p (lub wartość prawdopodobieństwa) to prawdopodobieństwo zaobserwowania tego wyniku (RRRRRW), biorąc pod uwagę, że hipoteza zerowa jest prawdziwa – jest to małe prawdopodobieństwo, o którym mowa w (a) powyżej. W tym przypadku jest to 0,016. Ponieważ zdarzenia z małym prawdopodobieństwem występują rzadko (z definicji), sytuacja (b) może być lepszym wyjaśnieniem tego, co się wydarzyło niż sytuacja (a). Kiedy odrzucamy hipotezę zerową, „faktycznie akceptujemy hipotezę przeciwną, którą nazywamy hipotezą alternatywną. W tym przykładzie Muriel ma moc rozróżniającą jest hipotezą alternatywną.

Ważną kwestią jest to, co robimy jako „małe” prawdopodobieństwo? Jaki jest punkt odcięcia, w którym jesteśmy skłonni powiedzieć, że zdarzenie jest mało prawdopodobne? Standardowy punkt odniesienia to 5% (0,05) i nazywa się to poziomem istotności. Gdy wartość p jest mniejsza niż poziom istotności, odrzucamy hipotezę zerową jako fałszywą i akceptujemy naszą alternatywną hipotezę. Powszechnym terminem jest twierdzenie, że wynik jest „znaczący”, gdy wartość p jest mniejsza niż poziom istotności, tj. gdy prawdopodobieństwo tego, co zaobserwowane wystąpienie, biorąc pod uwagę, że hipoteza zerowa jest prawdziwa, jest mniejsze niż nasz punkt odcięcia. Ważne jest, aby wyjaśnić, że użycie 5% jest całkowicie subiektywne (podobnie jak użycie innych powszechnych poziomów istotności 1% i 10%).

Fisher zdał sobie sprawę, że tak się nie dzieje praca; każdy możliwy wynik z jedną niewłaściwą parą równie sugerował moc dyskryminacji. Odpowiednie prawdopodobieństwo wystąpienia powyższej sytuacji (a) wynosi zatem 6 (0,5) ^ 6 = 0,094 (lub 6/64), co teraz jest nieistotne na poziomie istotności 5%. Aby przezwyciężyć ten problem, Fisher argumentował, że jeśli 1 błąd na 6 jest uważany za dowód zdolności dyskryminacyjnych, to nie ma błędów, tj.wyniki, które silniej wskazują na moce dyskryminacyjne niż te obserwowane, należy uwzględnić przy obliczaniu wartości p. Spowodowało to następującą poprawkę w rozumowaniu:

(a) hipoteza zerowa (zgaduje Muriel) jest prawdziwa, a prawdopodobieństwo wystąpienia zdarzeń jako ekstremalnych lub bardziej ekstremalnych niż to zaobserwowane jest małe, lub

(b) hipoteza zerowa jest fałszywa, a Muriel ma moce rozróżniające.

Wracając do naszego eksperymentu z herbatą i stwierdzamy, że wartość p w tym układzie wynosi 7 (0,5 ) ^ 6 = 0,109, co nadal nie jest istotne przy progu 5%.

Następnie zachęcam uczniów do pracy z innymi przykładami, takimi jak rzucanie monetą, aby sprawdzić, czy moneta jest uczciwa. To udoskonala pojęcia hipotezy zerowej / alternatywnej, wartości p i poziomów istotności. Następnie przechodzimy do przypadku zmiennej ciągłej i wprowadzamy pojęcie statystyki testowej. Ponieważ omówiliśmy już rozkład normalny, standardowy rozkład normalny i głęboką transformację z, to tylko kwestia połączenia kilku pojęć.

Oprócz obliczenia statystyki testowej, wartości p i podejmowanie decyzji (znacząca / nieistotna) Nakłaniam uczniów do przepracowania opublikowanych prac w grze w brakujące puste pola.

Komentarze

  • I wiem, że ' trochę ożywiam bardzo stary wątek, ale oto on … Naprawdę podobała mi się twoja odpowiedź, ale brakuje mi w niej części dotyczącej wartości t 🙁 Czy mógłbyś proszę użyć podanych przykładów, aby o tym porozmawiać? Nikt nie odpowiedział na temat części testu t
  • @sosi It ' s prawdopodobnie dlatego, że wartości p są znacznie większe ogólne niż wartości t. ' to jak pytanie o samochody, a potem o hamulce w Fordzie Fiesta.
  • Odpowiedź jest bardzo interesująca (+ 1), ale na końcu kilka rzeczy jest pomieszanych Czy to oznacza, że wartość $ p $ jest ” znacząca na poziomie 5% „? Albo $ p $ -wartość jest poniżej 5%, albo nie. Nie ' nie widzę sensu używania tak niejasnego zdania, pozostawiając ” istotność ” niezdefiniowany. 2. Co to znaczy ” zdecydować „, czy wartość $ p $ jest znacząca, czy nie? Nie wydaje się uzasadnione wprowadzanie teorii decyzji w ten sposób (zwłaszcza, że Fisher był zdecydowanym przeciwnikiem stosowania ram testowych Neymana-Pearsona w naukach ścisłych).

Odpowiedź

Żadna ilość ustnych wyjaśnień ani obliczeń tak naprawdę nie pomogła mi zrozumieć na poziomie intuicji , jakie były wartości p, ale naprawdę zwróciłem uwagę na to, kiedy wziąłem udział w kursie obejmującym symulację. To dało mi możliwość faktycznego zobaczenia danych wygenerowanych przez hipotezę zerową i wykreślenia średnich / itp. symulowanych próbek, a następnie spójrz, gdzie statystyki mojej próbki wypadły na ten rozkład.

Myślę, że główną zaletą takiego rozwiązania jest to, że pozwala uczniom zapomnieć o matematyce i rozkładach statystyk testu na minutę i skupić się na omawianych koncepcjach. Oczywiście wymagało to nauczenia się, jak symulować te rzeczy, które będą powodować problemy dla zupełnie innego zestawu uczniów. Ale to zadziałało dla mnie i użyłem symulację niezliczoną ilość razy, aby pomóc wyjaśnić statystyki innym z wielkim sukcesem (np. „Tak wyglądają Twoje dane; tak wygląda nałożenie rozkładu Poissona. Czy NA PEWNO chcesz wykonać regresję Poissona?”).

To nie jest dokładną odpowiedzią na zadane przez Ciebie pytania, ale przynajmniej dla mnie sprawiło, że były trywialne.

Komentarze

  • Całkowicie zgadzam się co do użycia symulacji do wyjaśnienia tego. Ale tylko mała uwaga na temat przykładu na końcu: Uważam, że ludzie (nie tylko studenci) uważają to za trudne do rozróżnienia dla konkretnego założenia dystrybucyjnego, np. poissona pomiędzy byciem marginalnie rozłożeniem poissona a byciem warunkowym rozłożeniem poissona. Ponieważ tylko to ostatnie ma znaczenie dla modelu regresji, zbiór wartości zmiennych zależnych, które nie są ' t poissonem, niekoniecznie musi być powodem do niepokoju.
  • Mam wyznać, że nie ' tego nie wiedziałem. ' naprawdę doceniam Twoje komentarze na temat tej witryny w ciągu ostatnich kilku dni członkostwa – mam nadzieję, że ' zostaniesz w pobliżu.
  • @MattParker Czy znasz jakieś zasoby edukacyjne poświęcone wykorzystaniu symulacji do rozwijania zrozumienia? A może jest to tylko przypadek złożenia razem kilku skryptów Python / R i przeprowadzenia kilku testów?
  • @baxx The [Seeing Theory website by Daniel Kunin] (Students.brown.edu/seeing-theory/ ) ma do tego kilka interesujących narzędzi, ale ' jest nadal w budowie.W przeciwnym razie, tak, ' po prostu eksperymentowałem z wbudowanymi narzędziami R ' do symulacji – używając ich, aby udowodnić sobie, jak jakaś metoda działa, albo żeby zobaczyć, co by się stało, gdyby predyktor został zastąpiony zmienną losową itp. Przepraszam, chciałbym wiedzieć o lepszych zasobach do tego!
  • @MattParker fajne dzięki. Tak – trochę kurczaka i jajka w tym, aby skonstruować eksperymenty, które (jak zakładam?) Potrzebujesz przynajmniej wystarczająco dużo, aby je napisać. Nie martw się ….. Właśnie sprawdziłem tę witrynę, do której prowadzi link, ' fajnie, dziękuję

Odpowiedź

Ładna definicja wartości p to „prawdopodobieństwo zaobserwowania statystyki testowej co najmniej tak dużej, jak ta obliczona przy założeniu, że hipoteza zerowa jest prawdziwa”.

Problem w tym, że wymaga zrozumienia „statystyki testowej” i „hipotezy zerowej”. Ale jest to łatwe do omówienia. Jeśli hipoteza zerowa jest prawdziwa, zwykle coś w rodzaju „parametr z populacji A jest równy parametrowi z populacji B” i obliczasz statystyki, aby oszacować te parametry, jakie jest prawdopodobieństwo zobaczenia statystyka testowa, która mówi, „oni” są tacy różni „?

Na przykład, jeśli moneta jest uczciwa, jakie jest prawdopodobieństwo, że zobaczę 60 reszek na 100 rzutów? To testowanie hipotezy zerowej , „moneta jest uczciwa” lub „p = 0,5”, gdzie p jest prawdopodobieństwem orłów.

Statystyka testowa w tym przypadku byłaby liczbą orłów.

Teraz zakładam , że to, co nazywasz „wartością t”, jest ogólną „statystyką testową”, a nie wartością z rozkładu „t”. nie to samo, a termin „wartość t” nie jest (koniecznie) szeroko stosowany i może być mylący.

To, co nazywasz „wartością t”, jest prawdopodobnie tym, co nazywam „Statystyka testowa”. Aby obliczyć wartość p (pamiętaj, że to tylko prawdopodobieństwo), potrzebujesz rozkładu i wartości do podłączenia do tego rozkładu, która zwróci prawdopodobieństwo. Gdy to zrobisz, prawdopodobieństwo, że zwrócisz, będzie Twoją wartością p. Widać, że są one powiązane, ponieważ przy tej samej dystrybucji różne statystyki testowe będą zwracać różne wartości p. Bardziej ekstremalne statystyki testowe zwrócą niższe wartości p, co daje większą wskazówkę, że hipoteza zerowa jest fałszywa.

Zignorowałem tutaj kwestię jednostronnych i dwustronnych wartości p.

Odpowiedź

Wyobraź sobie, że masz worek zawierający 900 czarnych kulek i 100 białych, czyli 10% kulek jest białych. Teraz wyobraź sobie, że wyjmujesz 1 kulkę, patrzysz na nią i zapisujesz jej kolor, wyjmujesz kolejną, notujesz jej kolor itp. … i zrób to 100 razy. Pod koniec tego procesu będziesz miał liczbę białych kulek, których idealnie byłoby 10, tj. 10% ze 100, ale w rzeczywistości może to być 8, 13 lub cokolwiek po prostu z powodu przypadkowości. Jeśli powtórzysz ten eksperyment polegający na wycofaniu 100 kulek wiele, wiele razy, a następnie wykreślisz histogram liczby białych kulek wylosowanych w eksperymencie, zobaczysz, że będziesz mieć krzywą dzwonka wyśrodkowaną około 10.

To reprezentuje twoją hipotezę 10%: w przypadku dowolnego worka zawierającego 1000 kulek, z których 10% jest białych, jeśli wylosujesz 100 kulek, znajdziesz 10 białych kulek w wyborze, daj lub weź 4 lub więcej. Wartość p dotyczy tego „daj lub weź 4 lub więcej”. Powiedzmy, odwołując się do utworzonej wcześniej krzywej dzwonka, możesz określić, że w mniej niż 5% przypadków uzyskasz 5 lub mniej białych kulek i kolejne < w 5% przypadków stanowi 15 lub więcej białych kulek, tj.> 90% czasu, w którym wybrana przez ciebie 100 kulek będzie zawierała od 6 do 14 białych kulek włącznie.

Teraz zakładając, że ktoś wyrzuca worek 1000 kulek z nieznaną liczbą białe kulki, mamy narzędzia, aby odpowiedzieć na te pytania

i) Czy jest mniej niż 100 białych kulek?

ii) Czy jest więcej niż 100 białych kulek?

iii) Czy woreczek zawiera 100 białych kulek?

Po prostu wyjmij 100 kulek z woreczka i policz, ile z tej próbki jest białych.

a) Jeśli tak jest od 6 do 14 białek w próbce, nie można odrzucić hipotezy, że w worku jest 100 białych kulek, a odpowiadające im wartości p dla 6 do 14 będą> 0,05.

b) Jeśli jest 5 lub mniej białek w próbce, które możesz odrzucić ct hipoteza, że w worku jest 100 białych kulek, a odpowiadające im wartości p dla 5 lub mniej będą wynosić < 0,05. Można oczekiwać, że worek będzie zawierał < 10% białych kulek.

c) Jeśli w próbce jest 15 lub więcej białek, można odrzucić hipotezę, że jest 100 białych kulek w worku, a odpowiadające im wartości p dla 15 lub więcej będą wynosić < 0,05. Można oczekiwać, że worek zawiera> 10% białych kulek.

W odpowiedzi na komentarz Baltimarka

Biorąc pod uwagę powyższy przykład, jest około : –

4.8% szans na zdobycie 5 lub mniej białych bil

1,85% szans na 4 lub mniej

0,55% szans na 3 lub mniej kul

0,1% szans na 2 lub mniej

6,25% szansy na 15 lub więcej

3,25% szansy na 16 lub więcej

1,5% szansy na 17 lub więcej

0,65% szansy na 18 lub więcej

0,25% szans na 19 lub więcej

0,1% szansy na 20 lub więcej

0,05% szans na 21 lub więcej

Liczby te zostały oszacowane na podstawie rozkładu empirycznego wygenerowanego przez prostą procedurę Monte Carlo w R i wynikowych kwantyli rozkładu próbkowania.

Aby odpowiedzieć na pierwotne pytanie, załóżmy, że narysujesz 5 białych kul, istnieje tylko około 4,8% szansy, że jeśli 1000 marmurowych woreczków naprawdę zawiera 10% białych kulek, wyciągniesz tylko 5 białych w próbce 100. Odpowiada to wartości ap < 0,05. Teraz musisz wybrać pomiędzy

i) Naprawdę jest 10% białych kulek w worku i po prostu miałem pecha, że narysowałem tak mało

lub

ii) Narysowałem tak mało białych kulek, że nie może być 10% białych kulek (odrzucić hipotezę 10% białych kulek)

Komentarze

  • Po pierwsze, to tylko duży przykład i nie ' naprawdę wyjaśnia pojęcie wartości p i statystyki testowej. Po drugie, ' po prostu twierdzisz, że jeśli uzyskasz mniej niż 5 lub więcej niż 15 białych kulek, odrzucasz hipotezę zerową. Co ' to Twoja dystrybucja, że ' ponowne obliczanie tych prawdopodobieństw z? Można to w przybliżeniu przybliżyć normalną odległością wyśrodkowaną na 10, z odchyleniem standardowym wynoszącym 3. Twoje kryteria odrzucenia nie są wystarczająco rygorystyczne.
  • Zgadzam się, że to tylko przykład i to prawda, że właśnie wybrałem cyfry 5 i 15 z a ir w celach ilustracyjnych. Kiedy będę miał czas, opublikuję drugą odpowiedź, która, mam nadzieję, będzie bardziej kompletna.

Odpowiedź

Wartość p nie mówi ci, jak prawdopodobne jest, że hipoteza zerowa jest prawdziwa. W konwencjonalnych ramach testowania istotności (Fishera) najpierw obliczamy prawdopodobieństwo obserwacji danych przy założeniu, że hipoteza zerowa jest prawdziwa, to jest Wartość p. Intuicyjnie rozsądne wydaje się wtedy przyjąć, że hipoteza zerowa jest prawdopodobnie fałszywa, jeśli obserwacja danych w ramach hipotezy zerowej jest wystarczająco nieprawdopodobna. Jest to całkowicie uzasadnione. Statystycy tradycyjnie używają progu i „odrzucają hipotezę zerową na 95 % poziom istotności „jeśli (1 – p)> 0,95; jest to jednak tylko konwencja, która okazała się rozsądna w praktyce – nie oznacza to, że istnieje mniej niż 5% prawdopodobieństwa, że hipoteza zerowa jest fałszywa (a zatem 95 % prawdopodobieństwa, że hipoteza alternatywna jest prawdziwa). Jednym z powodów, dla których nie możemy tego powiedzieć, jest to, że jeszcze nie przyjrzeliśmy się hipotezie alternatywnej.

Obrazowanie funkcji f (), która odwzorowuje wartość p na prawdopodobieństwo, że hipoteza alternatywna jest prawdziwa. Rozsądne byłoby stwierdzenie, że ta funkcja jest ściśle malejąca (tak, że im bardziej prawdopodobne jest obserwacje w ramach hipotezy zerowej, tym mniej prawdopodobne jest, że hipoteza alternatywna jest prawdziwa) i że daje wartości od 0 do 1 (ponieważ daje oszacowanie prawdopodobieństwa) .Jednak to wszystko, co wiemy o f (), więc chociaż istnieje związek między p a prawdopodobieństwem, że hipoteza alternatywna jest prawdziwa, jest ona nieskalibrowana. Oznacza to, że nie możemy użyć wartości p do ilościowe stwierdzenia na temat wiarygodności hipotezy zerowej i alternatywnej.

Uwaga lektor: nie jest tak naprawdę w ramach częstości mówienia o prawdopodobieństwie, że hipoteza jest prawdziwa, ponieważ nie jest ona zmienną losową – albo jest prawdą, albo nie. Więc tam, gdzie mówiłem o prawdopodobieństwie prawdziwości hipotezy, pośrednio przeszedłem do interpretacji bayesowskiej. Błędem jest mieszanie metody bayesowskiej i częstości, jednak zawsze istnieje pokusa, aby to zrobić, ponieważ to, czego naprawdę chcemy, to ilościowe wskazanie względnej wiarygodności / prawdopodobieństwa hipotez. Ale to nie jest to, co zapewnia wartość p.

Odpowiedź

W statystykach nigdy nie można powiedzieć, że coś jest absolutnie pewne, więc statystycy stosują inne podejście do oceny, czy hipoteza jest prawdziwa, czy nie. Próbują odrzucić wszystkie inne hipotezy, które nie są poparte danymi.

Aby to zrobić, testy statystyczne mają hipotezę zerową i hipotezę alternatywną. Wartość p podana z testu statystycznego jest prawdopodobieństwem wyniku, biorąc pod uwagę, że hipoteza zerowa była poprawna. Dlatego chcemy małych wartości p. Im są one mniejsze, tym mniej prawdopodobne byłoby, gdyby hipoteza zerowa była poprawna. Jeśli wartość p jest wystarczająco mała (tj. Jest bardzo mało prawdopodobne, aby wynik miał wystąpiła, jeśli hipoteza zerowa była poprawna), to hipoteza zerowa zostaje odrzucona.

W ten sposób hipotezy zerowe można formułować, a następnie odrzucać. Jeśli hipoteza zerowa zostanie odrzucona, akceptujesz hipotezę alternatywną jako najlepsze wyjaśnienie. Pamiętaj jednak, że hipoteza alternatywna nigdy nie jest pewna, ponieważ hipoteza zerowa mogłaby przez przypadek wygenerować wyniki.

Komentarze

  • a p -wartość to prawdopodobieństwo wyniku co najmniej ” skrajnego ” niż podany wynik, a nie rzeczywisty wynik. Wartość p to $ Pr (T \ geq t | H_0) $, a nie $ Pr (T = t | H_0) $ (T to statystyka testowa, at to jej obserwowana wartość).

Odpowiedź

Nie jestem pewien, czy ożywić stary temat, ale przeskoczyłem z tutaj , więc zamieszczam to jako odpowiedź na pytanie w linku.

Wartość p to konkretny termin, nie powinno być miejsca na nieporozumienia. Jednak w pewnym sensie mistyczne jest to, że potoczne tłumaczenia definicji wartości p prowadzą do wielu różnych błędnych interpretacji. Myślę, że źródłem problemu jest użycie wyrażeń „co najmniej tak samo sprzeczne z hipotezą zerową” lub „co najmniej tak skrajne, jak to w Twoich przykładowych danych” itp.

Na przykład Wikipedia mówi

… wartość p to prawdopodobieństwo uzyskania obserwowanych wyników próby (lub bardziej ekstremalnego wyniku), gdy hipoteza zerowa jest faktycznie prawdziwa .

Znaczenie $ p $ -wartości jest rozmyte, gdy ludzie po raz pierwszy natkną się na „(lub bardziej skrajny wynik)” i zaczną myśleć „ bardziej ekstrawagancki ? ”.

Myślę, że lepiej pozostawić„ bardziej ekstremalny wynik ”na przykład pośredni akt mowy . Tak więc moja ocena to

Wartość p to prawdopodobieństwo zobaczenia tego, co widzisz w „wyimaginowanym świecie”, w którym hipoteza zerowa jest prawdziwa.

Załóżmy, że masz próbkę x składającą się z 10 obserwacji i postawisz hipotezę, że populacja średnia wynosi $ \ mu_0 = 20 $. Zatem w Twoim hipotetycznym świecie rozkład populacji wynosi N $ (20,1) $.

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

Obliczasz t-stat jako $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, i dowiedz się, że

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

Więc jakie jest prawdopodobieństwo zaobserwowania $ | t_0 | $ tak dużego jak 2,97 (tutaj jest „bardziej ekstremalne”) Wyimaginowany świat? W świecie urojonym $ t_0 \ sim t (9) $, więc wartość p musi wynosić $$ wartość p = Pr (| t_0 | \ geq 2,97) = 0,01559054 $$

2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

Ponieważ wartość p jest mała, jest bardzo mało prawdopodobne, aby próbka x została narysowana w hipotetycznym świecie. Dlatego dochodzimy do wniosku, że jest bardzo mało prawdopodobne, aby hipotetyczny świat był w rzeczywistości światem rzeczywistym.

Komentarze

  • +1, ale kiedy piszesz ” prawdopodobieństwo zobaczenia tego, co widzisz ” i pominięcie ” bardziej ekstremalnych ” część, to zdanie staje się ściśle mówiąc fałszywe (i może wprowadzać w błąd, nawet jeśli może być mniej mylące). Nie jest to prawdopodobieństwo zobaczenia tego, co widzisz (zwykle jest to zero). Jest to prawdopodobieństwo zobaczenia tego, co widzisz ” lub bardziej ekstremalnego „. Nawet jeśli dla wielu może to być mylące, nadal jest kluczowe (i można bez końca spierać się o stopień subiektywności, który kryje się za tym ” bardziej ekstremalnym ” sformułowanie).
  • @amoeba Pomyślałem, że po dostarczeniu odpowiedniego przykładu może służyć jako proxy dla ” uzyskania zaobserwowanych wyników próbek (lub bardziej ekstremalny wynik) „. Może potrzebne jest lepsze sformułowanie.
  • Miałem zamiar poczynić tę samą obserwację, co @amoeba; ” lub bardziej ekstremalna ” część jest dobrze obsługiwana na przykład w kwestiach dotyczących wysokości studentów i odpowiedzi na przyjęcie przy herbacie, ale nie ' Nie sądzę, aby jakiekolwiek odpowiedzi w tym wątku zawierały jasne ogólne wyjaśnienie, w szczególności takie, które obejmuje różne alternatywne hipotezy. Zgadzam się z tą odpowiedzią, sugerując, że ” lub bardziej ekstremalna ” część jest koncepcyjnym punktem spornym dla wielu uczniów.
  • @Silverfish: i nie tylko studenci. Ile rant bayesowskich i częstych przeczytałem, omawiając kwestię subiektywności / obiektywności tego ” bardziej ekstremalnego ” bitu!
  • @Silver Zgadzam się z Twoją krytyką i zamieściłem odpowiedź, próbując ją rozwiązać. ” Lub bardziej ekstremalne ” to sedno sprawy.

Odpowiedź

Odkryłem również, że symulacje są przydatne w nauczaniu.

Oto symulacja dla prawdopodobnie najbardziej podstawowego przypadku, w którym próbkujemy $ n $ razy z $ N (\ mu, 1) $ (stąd $ \ sigma ^ 2 = 1 $ jest znane z prostoty ) i przetestuj $ H_0: \ mu = \ mu_0 $ z lewostronną alternatywą.

Wtedy $ t $ -statistic $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ wynosi $ N (0,1) $ poniżej $ H_0 $, tak że $ p $ -value to po prostu $ \ Phi (\ text {tstat}) $ lub pnorm(tstat) w R.

W symulacji , jest to ułamek razy, gdy dane wygenerowane pod wartością zerową $ N (\ mu_0,1) $ (tutaj, $ \ mu_0 = 2 $) dają średnią próbną przechowywaną w nullMeans, że są mniejsze (tj. „bardziej ekstremalne” ”w tym lewostronnym teście) niż te obliczone na podstawie obserwowanych danych.

# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

Odpowiedź

Uważam, że pomocne jest prześledzenie sekwencji, w której wyjaśniasz pojęcia w następującej kolejności: (1) Wynik Z i proporcje powyżej i poniżej Z, przy założeniu normalna krzywa. (2) Pojęcie rozkładu próbkowania i średnia z wyniku dla danej próby, gdy znane jest odchylenie standardowe populacji (i stąd test z dla jednej próby) (3) Test t dla jednej próby i prawdopodobieństwo średnia próby, gdy odchylenie standardowe populacji jest nieznane (pełne opowieści o tajnej tożsamości pewnego statystyki przemysłowej i dlaczego Guinness jest dobry dla statystyki). (4) Test t dla dwóch prób i rozkład średnich różnic w próbie. Łatwość, z jaką uczniowie dla początkujących rozumieją test t, ma wiele wspólnego z przygotowaniami do tego tematu.

/ * Instruktor przerażonych uczniów wyłączony * /

Odpowiedź

Co oznacza „wartość p” w odniesieniu do testowanej hipotezy?

W sensie ontologicznym (czym jest prawda?) oznacza nic . Wszelkie testy hipotez są oparte na nieprzetestowanych założeniach . Zwykle są one częścią samego testu, ale są także częścią dowolnego modelu, którego używasz (np. W modelu regresji). Ponieważ tylko je zakładamy, nie możemy wiedzieć, czy powodem, dla którego wartość p jest poniżej naszego progu, jest to, że wartość null jest fałszywa. Jest non sequitur , aby bezwarunkowo wywnioskować, że z powodu niskiej wartości p musimy odrzucić wartość zerową. Na przykład coś w modelu może być nie tak.

W sensie epistemologicznym (czego możemy się nauczyć?) oznacza coś . Zyskujesz wiedzę warunkową o prawdzie w niesprawdzonych pomieszczeniach. Ponieważ (przynajmniej do tej pory) nie możemy udowodnić każdej budowli rzeczywistości, cała nasza wiedza będzie z konieczności warunkowa. Nigdy nie dojdziemy do „prawdy”.

Odpowiedź

Nie udało mi się jeszcze udowodnić następującego argumentu, więc może on zawierać błędy , ale naprawdę chcę dorzucić swoje dwa centy (mam nadzieję, że wkrótce zaktualizuję go, dodając rygorystyczny dowód). Inny sposób spojrzenia na $ p $ – wartość to

$ p $ -value – Statystyka $ X $ taka, że $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ gdzie $ F_ {X | H_0} $ to funkcja dystrybucji $ X $ pod $ H_0 $ .

W szczególności, jeśli $ X $ ma ciągły dystrybucji i „nie używasz przybliżenia, a następnie

  1. Co $ p $ -value to statystyka z równomiernym rozkładem na $ [0, 1] $ i
  2. Każda statystyka z równomiernym rozkładem na $ [0, 1] $ jest $ p $ -value.

Możesz uznać to za uogólniony opis $ p $ -wartości.

Komentarze

  • Ta definicja ma sens tylko w przypadku dystrybucji dyskretnych (i wtedy jest niepoprawna), ponieważ drugie wystąpienie ” $ P $ ” wyjaśnia, że odnosi się do prawdopodobieństw , a nie gęstości prawdopodobieństwa. Ponadto istnieje bardzo niewiele dystrybucji (jeśli w ogóle), które mają określoną właściwość, co sugeruje, że w oświadczeniu muszą być błędy typograficzne. Jeśli chodzi o twoje kolejne twierdzenia, (1) jest idealnie prawdziwe, ale (2) nie, chyba że pozwolisz, aby hipoteza zerowa zależała od statystyki!
  • @whuber Dzięki za dane wejściowe. Zmieniłem definicję i teraz powinna mieć więcej sensu!
  • To ma sens, dziękuję: jeśli ' m czytam go poprawnie, to zapewnia, że rozkład zerowy $ X $ jest jednolity na $ [0, 1]. $ Jednak to tylko część właściwości p-wartości; nie charakteryzuje wartości p; i nie mówi nic o tym, co mają na myśli ani jak je interpretować. Rozważ przestudiowanie innych odpowiedzi w tym wątku, aby uzyskać informacje o tym, czego brakuje.
  • Oto przykład, który może Cię zainteresować. Rodzina dystrybucji jest Jednolita $ (\ theta, \ theta + 1) $ dla $ \ theta \ in \ mathbb {R}, $ hipoteza zerowa to $ \ theta = 0, $, a alternatywą jest jej uzupełnienie. Rozważmy losową próbkę $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Zdefiniuj statystykę $ X (\ mathbf {X}) = X_1. $ Oczywiście ma to jednolity rozkład na $ [0,1] $ poniżej $ H_0: $, ale w jakim sensie jest to wartość p? Jaki jest odpowiedni test hipotezy? Załóżmy, że bierzemy próbkę o rozmiarze $ n = 1 $ i obserwujemy wartość X_1 = -2: $ twierdzisz, że wartość p wynosi -2 USD ??

Odpowiedź

Myślę, że przykłady z użyciem kulek, monet lub pomiaru wysokości mogą być dobre do ćwiczenia matematyki, ale nie są dobre do budowania intuicji. Studenci lubisz kwestionować społeczeństwo, prawda? Może posłużymy się przykładem politycznym?

Powiedzmy, że kandydat polityczny prowadził kampanię, obiecując, że jakaś polityka pomoże gospodarce. Została wybrana, wprowadziła ją w życie i 2 lata później gospodarka przeżywa rozkwit. Ona „jest gotowa do reelekcji i twierdzi, że jej polityka jest powodem dobrobytu wszystkich. Czy powinieneś ją ponownie wybrać?

Rozważny obywatel powinien powiedzieć„ cóż, to prawda, że gospodarka ma się dobrze, ale czy naprawdę możemy to przypisać pańskiej polityce? Aby naprawdę odpowiedzieć na to pytanie, musimy rozważyć pytanie „czy gospodarka radziłaby sobie dobrze w ciągu ostatnich 2 lat bez tego?” Jeśli odpowiedź brzmi tak (np. Gospodarka kwitnie z powodu jakiegoś nowego, niezwiązanego z nią rozwoju technologicznego), to odrzucamy wyjaśnienie danych przez polityka.

To znaczy, aby zbadać jedną hipotezę (polityka pomogła gospodarce ), musimy zbudować model świata, w którym ta hipoteza jest zerowa (polityka nigdy nie została uchwalona). Następnie dokonujemy prognozy w ramach tego modelu. Nazywamy prawdopodobieństwo obserwacji tych danych w tym alternatywnym świecie wartość p . Jeśli wartość p jest zbyt wysoka, hipoteza nie przekonuje nas – polityka nie miała żadnego znaczenia. Jeśli wartość p jest niska, to ufamy hipotezie – polityka była niezbędna.

Komentarze

  • Nie zgadzam się z definicją p jako ” Prawdopodobieństwo zaobserwowania tych danych w tym alternatywnym świecie nazywamy wartością p „, a także siłą wyciągniętego wniosku ( zwłaszcza niepowodzenie w odrzuceniu wartości zerowej).
  • @Silverfish Czy mógłbyś to rozwinąć? Prawdopodobnie poprawniejsze byłoby nazwanie wartości p prawdopodobieństwem zrobienia tej obserwacji LUB bardziej ekstremalnej obserwacji. Ale wygląda na to, że masz głębszą krytykę.
  • Ponieważ pierwotne pytanie dotyczyło pytania, jaka jest wartość p, pomyślałem, że zrozumienie tej definicji było wyraźnie ważne. Samo stwierdzenie ” bardziej ekstremalne ” nie jest ' samo w sobie bardzo pomocne bez wyjaśniania, co div id = „fc4eb26749”>

bardziej ekstremalne ” może oznaczać – że ' jest słabością większości odpowiedzi w tym wątku I myśleć. Tylko odpowiedź whubera ' i ” test herbaty ” wydaje się naprawdę wyjaśniać dlaczego ” bardziej ekstremalne ” też ma znaczenie.

  • Czułem też, że Twoje wnioski są sformułowane zbyt mocno. Jeśli odrzucimy wartość null, mamy przeciwko temu znaczące dowody, ale nie ' nie wiemy, że jest ' fałszywe. Kiedy nie uda nam się odrzucić wartości null, z pewnością nie ' nie oznacza, że wartość null jest prawdą (choć może tak być). Jako bardziej ogólny komentarz mam wrażenie, że test, który ' opisujesz, używając dość abstrakcyjnych terminów, prawdopodobnie nie będzie zrozumiały dla ucznia, który dopiero uczy się, jak wykonać test . Brak jasno zdefiniowanej statystyki testowej nie pasuje również do ' pierwotnego pytania, w jaki sposób interpretować t -statystyczne.
  • Cechą tej odpowiedzi, którą bardzo lubię, jest jasne wyjaśnienie, że wartości p są obliczane przy użyciu modelu zerowego, nawet jeśli ' t (subiektywnie) uważamy, że model zerowy jest faktycznie prawda. Myślę, że fakt, że statystyki testów są obliczane na podstawie modelu, jest kluczowym punktem, z którym boryka się wielu uczniów.
  • Odpowiedź

    Wartość p nie jest tak tajemnicza, jak uważa większość analityków.Jest to sposób na uniknięcie obliczania przedziału ufności dla testu t, ale po prostu określenie poziomu ufności, przy którym hipoteza zerowa może zostać odrzucona.

    ILUSTRACJA. Przeprowadzasz test. Wartość p wynosi 0,1866 dla zmiennej Q i 0,0023 dla zmiennej R. (Są one wyrażone w%).

    Jeśli testujesz na 95% poziomie ufności, aby odrzucić zerową hipo;

    dla Q: 100-18.66 = 81,34%

    dla R: 100-0,23 = 99,77%.

    Przy 95% poziomie ufności Q daje 81,34% do odrzucenia. To spada poniżej 95% i jest niedopuszczalne. ACCEPT NULL.

    R daje 99,77% pewności, aby odrzucić zero. Wyraźnie powyżej pożądanych 95%. Dlatego odrzucamy wartość zerową.

    Właśnie zilustrowałem odczyt wartości p poprzez „odwrotny sposób” pomiaru jej do poziomu ufności, przy którym odrzucamy zerową hipoglikemię.

    Komentarze

    • Witamy w serwisie. Co rozumiesz przez zmienne $ Q $ i zmienne $ R $? Proszę o wyjaśnienie. Ponadto użycie wyrażenia ” accept null ” jest zwykle uważane za niepożądane, a nawet wprowadzające w błąd.
    • @cardinal wskazuje na ważny punkt. ' nie zaakceptujesz wartości null.

    Odpowiedź

    ****** Wartość p w testowaniu hipotezy mierzy czułość testu. Im niższa wartość p, tym większa czułość. jeśli poziom istotności jest ustawiony na 0,05, wartość p równa 0,0001 wskazuje na wysokie prawdopodobieństwo, że wyniki testu są poprawne ******

    Komentarze

    • -1 To jest oczywiście błędne. Możesz najpierw przeczytać wyżej ocenione odpowiedzi.

    Dodaj komentarz

    Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *