Det ser ut til at denne fordelingen kan være riktig skjev og bimodal. Eller er det bare riktig skjevt?
Kommentarer
- Først av alt, ta en titt på dette svaret .
- Har du bare histogrammet å gå etter?
Svar
Hvis histogrammet faktisk var distribusjonen som dataene ble hentet fra (det ville da være en stykkevis enhetlig, tydeligvis), kan du si at den var riktig skjev (med stort sett ethvert rimelig mål) og multimodal, siden det tydeligvis er mer enn to moduser. / p>
Men antagelig prøver vi å bruke histogrammet for å utlede noe om populasjonsfordelingen.
Her har vi to problemer.
-
Den vanlige er å fortelle hva vi ser i et utvalg fra prøvetakingsvariasjon («støy»). Sampling av en populasjon som ikke er skjev, kan resultere i et utvalg som absolutt virker skjevt, og prøvetaking av en populasjon som ikke er modal, kan resultere i et utvalg som kan se ut til å ha mer enn en modus.
-
Utseendet til histogrammet kan noen ganger være sterkt påvirket av valget av papirkurvbredde og til og med papirkurv . Det faktum at histogrammet i spørsmålet har mange søppelbøtter bidrar til å redusere både omfanget og hyppigheten av denne typen problemer, men det kan fremdeles oppstå.
Hvis du har originaleksempel kan du i større grad unngå det andre problemet ved å vurdere mer enn en skjerm – ikke bare kan histogrammer gjøres for noen få forskjellige bin-bredder og bin-opprinnelse, men andre skjermer kan brukes – QQ-plott, empirisk cdfs og så videre. (De er litt vanskeligere å lære å hente ut informasjonen fra, men de er nesten ikke så utsatt for slike problemer.)
Når det er sagt, gitt din store utvalgstørrelse og forutsatt at du tar utvalget ditt er et tilfeldig utvalg av noen populasjoner, ville vi være ganske trygge i å konkludere med at fordelingen som et slikt utvalg ble hentet fra ville være riktig skjev. Inntrykket av bimodalitet er relativt svakere (i den forstand at vi med rimelighet kan se det skje med en populasjon som egentlig ikke er bimodal, i det minste i et mindre utvalg), men jeg vil fremdeles nevne utseendet til bimodalitet i displayet.
Når vi ignorerer problemet helt i 2. for øyeblikket, kan vi få en viss følelse av om histogrammet kan oppstå med en unimodal populasjon ved å vurdere en bare unimodal fordeling som er nær det som observeres og ser hvis det kan produsere noe så langt fra unimodalt som det du observerer i utvalget.
For å forenkle situasjonen, vurder regionen mellom ca 67 og 133 * (der jeg har tatt med mine estimater av teller for de aktuelle søppelkassene i den regionen):
Begge sidene av dette, i flere søppel før og etter dette segmentet, er tettheten ganske tydelig avtagende; spørsmålet er, kan vi rimelig d dette stykket som et tilfeldig utvalg fra et ikke-økende segment av en distribusjon?
* Merk at effekten av å velge en bestemt del og fokusere på denne delen spesielt blir ignorert her, men dette er ikke noe som virkelig burde ignoreres (dette bærer definitivt problemet med «å se på dataene» – for eksempel skulle vi virkelig ha tatt med neste søppel etter den siste vi inkluderte?). Imidlertid kommer jeg til å lade fremover uansett for å gi følelsen av en enkel analyse som vil gi en ballpark-ide om en ikke-økende tetthet er kompatibel med dataene (betinget av søppelplassering). Merk at dette «å plukke ut den rare delen å se på» som dette generelt vil øke sjansen for å finne noe «betydelig», så hvis vi ikke finner noe, er det veldig liten grunn til å si at det ikke kunne » t være unimodal.
Først for å se om dette er i samsvar med et utvalg fra en ikke-økende fordeling, trenger vi et mål for økning. Jeg foreslår at du bare legger til forskjellene i teller for bin -1} $) når de øker (og teller 0 ellers), dvs. $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Så for teller på 369, 373, 413, 375, 382 , 375 totalt antall hopp er U = 4 + 40 + 0 + 7 + 0 = 51.
Det «beste» ikke-økende tilfellet for å produsere skjermen vår vil være uniformen.
Det totale antallet i denne regionen er 2287 og det er 6 søppelkasser.
Hva er sjansen for at et utvalg på størrelse 2287 fra seks like sannsynlige kategorier kan gi en total opp- hoppe, $ U $ på minst 51? Det er lett å finne ved simulering.
Prøver det i R:
res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349
Så dette antyder at du i en jevn del av en tetthet lett kunne se den økningen fra den størrelsen på prøven – omtrent halvparten av tiden ville den øke minst så mye hvis den var ensartet.
Selvfølgelig hadde vi valgt et annet mål, men det er tilstrekkelig for meg. som i samsvar med ensartethet i det avsnittet, og dermed ikke histogrammet er uforenlig med et tilfeldig utvalg fra en samlet unimodal fordeling.
[Rediger: for fullstendighet gikk jeg senere tilbake og så på et par andre rimelige test statistikk for å se om det ville gjøre stor forskjell, men de antydet ikke noe heller]
Det er selvfølgelig ikke nok til å erklære at det er unimodalt. Vi kan bare ikke fortelle at det «s ikke unimodal.
Så jeg vil beskrive det som om det ser ut til å være riktig skjevt. Hvis du må snakke om hvorvidt befolkningen har mer enn en modus, vil jeg bare gå så langt som å si at det er en mulighet for en andre modus et sted nær 100, men det er vanskelig å konkludere med noe fra dette. visning.
Kommentarer
- Wow – fantastisk. Dette gjør ting så mye tydeligere! Takk!
- " At ' ikke er nok til å erklære at det er X, selvfølgelig. Vi kan bare ' t fortell at det ' ikke er Y. " – Statistikk i et nøtteskall.