Hva er forskjellen mellom Z-score og p-verdier?

I nettverksmotivalgoritmer virker det ganske vanlig å returnere både en p-verdi og en Z-score for en statistikk: «Inndatanettverk inneholder X kopier av undergraf G». Et underbilde betraktes som et motiv hvis det tilfredsstiller

  • p-verdi < A,
  • Z-score> B og
  • X> C, for noen brukerdefinerte (eller fellesskapsdefinerte) A, B og C.

Dette motiverer spørsmålet:

Spørsmål : Hva er forskjellene mellom p-verdi og Z-score ?

Og underspørsmålet:

Spørsmål : Er det situasjoner der p-verdien og Z-poengsummen for den samme statistikken kan antyde motsatte hypoteser? Er de første og andre forholdene oppført i det vesentlige de samme?

Svar

Jeg vil si, basert på spørsmålet ditt, at det ikke er noen forskjell mellom de tre testene. Dette er i den forstand at du alltid kan velge A, B og C slik at den samme avgjørelsen kommer frem uansett hvilket kriterium du bruker. Selv om du må ha p-verdien basert på den samme statistikken (dvs. Z-poengsummen)

For å bruke Z-poengsummen, både gjennomsnittlig $ \ mu $ og varians $ \ sigma ^ 2 $ antas å være kjent, og fordelingen antas å være normal (eller asymptotisk / tilnærmet normal). Anta at p-verdikriteriet er de vanlige 5%. Så har vi:

$$ p = Pr (Z > z) < 0,05 \ rightarrow Z > 1.645 \ rightarrow \ frac {X- \ mu} {\ sigma} > 1.645 \ rightarrow X > \ mu + 1.645 \ sigma $$

Så vi har trippelen $ (0.05, 1.645, \ mu + 1.645 \ sigma) $ som alle representerer de samme avskjæringene.

Merk at den samme korrespondansen vil gjelde for t-testen, selv om tallene vil være forskjellige. Testen med to haler vil også ha en lignende korrespondanse, men med forskjellige tall.

Kommentarer

  • Takk for det! (og takk til de andre svarerne også).

Svar

En $ Z $ -score beskriver avviket ditt fra gjennomsnittet i enheter med standardavvik. Det er ikke eksplisitt om du godtar eller avviser nullhypotesen din.

En $ p $ -verdi er sannsynligheten for at vi under nullhypotesen kunne observere et punkt som er like ekstremt som statistikken din. Dette forteller deg eksplisitt om du avviser eller godtar nullhypotesen din gitt en teststørrelse $ \ alpha $.

Tenk på et eksempel der $ X \ sim \ mathcal {N} (\ mu, 1) $ og nullhypotesen er $ \ mu = 0 $. Så observerer du $ x_1 = 5 $. Din $ Z $ -score er 5 (som bare forteller deg hvor langt du avviker fra nullhypotesen din i form av $ \ sigma $) og $ p $ -verdien er 5.733e-7. For 95% selvtillit vil du ha en teststørrelse $ \ alpha = 0.05 $ og siden $ p < \ alpha $ så avviser du nullhypotesen. Men for en gitt statistikk, bør det være noen tilsvarende $ A $ og $ B $ slik at testene er de samme.

Kommentarer

  • @ Gary – en p-verdi forteller deg ikke ' om å avvise eller ikke mer enn en Z-score. De er bare tall. Det er bare avgjørelsesregelen som bestemmer å godta eller avvise. Denne avgjørelsesregelen kan like godt defineres i form av en Z-score (f.eks. $ 2 \ sigma $ eller $ 3 \ sigma $ -regelen)
  • @probabilityislogic Jeg er enig med deg. Du kan faktisk lage en test basert på $ Z $ -terskel, men den lar deg ikke eksplisitt definere en teststørrelse i klassisk forstand (dvs. når det gjelder sannsynlighet). Denne typen kriterier kan være noen problemer hvis distribusjonen din har tykke haler. Når du konstruerer en test, definerer du eksplisitt en teststørrelse, og dermed forteller $ p $ -verdien deg umiddelbart om du godtar eller avviser, hvilket er poenget jeg prøvde å gjøre.
  • @gary – ikke egentlig, for p-verdien refererer ikke til alternativer. Så det kan ' ikke brukes til å direkte sammenligne alternativer. Ta for eksempel $ H_0: \ mu = 0 $ mot $ H_A: \ mu = -1 $. P-verdien for $ H_0 $ forblir den samme $ 5 \ ganger 10 ^ {- 7} $. Så du sier " avvis null " som betyr " godta alternativet " og erklære $ \ mu = -1 $. Men dette er absurd, ingen ville gjort dette, men p-verdiregelen du bruker her gjør dette.Sagt på en annen måte, p-verdiregelen du beskrev, er ikke uforanderlig med hensyn til det som kalles " nullhypotese " (oppløsning kommer )
  • (forts ' d) Oppløsningen til den tilsynelatende absurditeten er oppmerksom på at p-verdien ikke er en " absolutt " test, men en relativ, definert med en implisitt alternativ hypotese. I dette tilfellet er det implisitte alternativet $ H_ {imp}: \ mu = 5 $. Du kan se dette ved å merke seg at hvis jeg beregner p-verdien på $ H_A $, får jeg $ 1 \ ganger 10 ^ {- 9} $, som er mindre enn p-verdien for $ H_0 $. Nå i dette eksemplet er det " implisitt alternativ " lett å finne ved intuisjon, men det er mye vanskeligere å finne i mer komplekse problemer , der plager eller ingen tilstrekkelig statistikk.
  • @Gary – p-verdien er ikke strengere bare fordi det er en sannsynlighet. Det er en monoton 1-til-1-transformasjon av Z-poengsummen. hvilken som helst " strenghet " som er besatt av p-verdien, eies også av Z-poengsummen. Selv om du bruker en tosidig test, er ekvivalent den absolutte verdien av Z-poengsummen. Og for å sammenligne $ H_1: \ mu \ neq 0 $ med null, må du ta en " minimax ": som er å velge den skarpe hypotesen som er mest støttet av dataene og i samsvar med $ H_1 $. Med mindre du kan demonstrere hvordan du beregner $ P (X | \ mu \ neq 1) $

Svar

$ p $ -verdi indikerer hvor usannsynlig statistikken er. $ z $ -score indikerer hvor langt borte fra gjennomsnittet det er. Det kan være en forskjell mellom dem, avhengig av størrelsen på prøven.

For store prøver blir til og med små avvik fra gjennomsnittet usannsynlig. Dvs. $ p $ -verdien kan være veldig liten selv for en lav $ z $ -score. Omvendt er selv små avvik ikke små for små prøver. Dvs. et stort $ z $ -poeng vil ikke nødvendigvis bety et lite $ p $ -verdi.

Kommentarer

  • hvis prøvestørrelsen er stor, så standardavviket vil være lite, derav vil Z-poengsummen være høy. Jeg tror du kan oppdage dette hvis du prøvde et numerisk eksempel.
  • Egentlig ikke. Anta at du prøver fra N (0, 1). Da vil std være omtrent 1 uavhengig av prøvestørrelse. Det som vil bli mindre er standardfeilen til gjennomsnittet, ikke standardavvik. p-verdier er basert på SEM, ikke på std.
  • Z-poengsummen er (observert-gjennomsnitt) / (standardavvik). Men gjennomsnittet og standardavviket er av den observerte statistikken, ikke av befolkningen som komponenter i den ble hentet fra. Min slappe terminologi er fanget her. Men hvis du tester gjennomsnittet, er riktig standardavvik i Z-poengsummen standardfeilen, som blir mindre med samme hastighet som p-verdien.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *