Det ser ud til, at denne fordeling kan være ret skæv og bimodal. Eller er det kun lige skævt?
Kommentarer
- Først og fremmest skal du se på dette svar .
- Har du kun histogrammet at gå efter?
Svar
Hvis histogrammet faktisk var fordelingen, som dataene blev trukket fra (det ville så være en stykkevis ensartet, klart), kan man sige, at det var rigtigt skævt (stort set enhver rimelig foranstaltning) og multimodal, da der tydeligvis er mere end to tilstande. / p>
Men formodentlig forsøger vi at bruge histogrammet til at udlede noget om befolkningsfordelingen.
Her har vi to problemer.
-
Den sædvanlige er at fortælle, hvad vi ser i en prøve fra samplingvariation (“støj”). Prøveudtagning af en population, der ikke er skæv, kan resultere i en prøve, der bestemt ser ud til at være skæv, og prøveudtagning af en population, der er unimodal, kan resultere i en prøve, der ser ud til at have mere end en tilstand.
-
Histogrammets udseende kan undertiden være stærkt påvirket af valget af bin-bredde og endda bin-origin . Det faktum, at histogrammet i spørgsmålet har mange kasser hjælper med at afbøde både omfanget og hyppigheden af denne slags problemer, men det kan stadig forekomme.
Hvis du har original prøve kan du i højere grad undgå det andet problem ved at overveje mere end en skærm – ikke kun kan histogrammer udføres for nogle få forskellige bin-bredder og bin-origins, men andre displays kan bruges – QQ-plots, empirisk cdfs og så videre. (De “er lidt sværere at lære at udvinde informationen fra, men de er ikke nær så udsat for den slags problemer.)
Når det er sagt, i betragtning af din store stikprøvestørrelse og forudsat at din prøve er en tilfældig stikprøve af en eller anden population, ville vi være ret sikre på at konkludere, at fordelingen, hvorfra en sådan prøve blev trukket, ville være ret skæv. Indtrykket af bimodalitet er relativt svagere (i den forstand, at vi med rimelighed kan se, at der sker med en befolkning, der faktisk ikke er bimodal, i det mindste i en mindre prøve), men jeg nævner stadig udseendet af bimodalitet i displayet.
Helt ignorere problemet i 2. for øjeblikket kan vi få en fornemmelse af, om histogrammet kan forekomme med en unimodal population ved at overveje en bare-unimodal fordeling, der er tæt på det, der observeres og ser hvis det kan producere noget så langt fra unimodalt som det, du observerer i prøven.
For at forenkle situationen skal du overveje regionen mellem ca. 67 og 133 * (hvor jeg har medtaget mine skøn over bin tæller for de relevante skraldespande i denne region):
Begge sider af dette, i flere kasser før og efter dette segment, er tætheden ret klart faldende; spørgsmålet er, kan vi med rimelighed beklager d dette stykke som en tilfældig prøve fra et ikke-stigende segment af en distribution?
* Bemærk, at virkningen af at vælge en bestemt del og fokusere på denne del især ignoreres her, men dette er ikke noget der virkelig burde ignoreres (dette bærer bestemt problemet med “at se på dataene” – for eksempel skulle vi virkelig have inkluderet den næste skraldespand efter den sidste, vi inkluderede?). Imidlertid vil jeg alligevel oplade fremad for at give en fornemmelse af en simpel analyse, der ville give en idé om, hvorvidt en ikke-stigende tæthed er kompatibel med dataene (betinget af placering af skraldespanden). Bemærk, at denne “udvælgelse af den underlige del at se på” som denne generelt øger chancen for at finde noget “markant”, så hvis vi ikke finder noget, er der virkelig ringe grund til at sige, at det ikke kunne ” t være unimodal.
Først for at se, om dette er i overensstemmelse med en prøve fra en ikke-stigende fordeling, har vi brug for et mål for forøgelse. Jeg foreslår blot at tilføje forskellene i bin-count ($ b_i-b_ {i -1} $) når de stiger (og tæller 0 ellers), dvs. $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Så for bin-tællinger på 369, 373, 413, 375, 382 , 375 det samlede antal op-spring er U = 4 + 40 + 0 + 7 + 0 = 51.
Det “bedste” ikke-stigende tilfælde til at producere vores skærm vil være ensartet.
Det samlede antal i denne region er 2287, og der er 6 kasser.
Hvad er chancen for, at en stikprøve af størrelse 2287 fra seks lige så sandsynlige kategorier kan give en total op- spring, $ U $ på mindst 51? Det er let at finde ved simulering.
Forsøger det i R:
res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349
Så det antyder, at du i et ensartet afsnit af en tæthed let kunne se den stigning fra den størrelse af prøven – omkring halvdelen af tiden ville den i det mindste stige så meget, hvis den var ensartet.
Selvfølgelig havde vi måske valgt en anden foranstaltning, men det er tilstrækkeligt for mig. som i overensstemmelse med ensartethed i dette afsnit, og dermed er histogrammet ikke uforeneligt med en tilfældig prøve fra en samlet unimodal fordeling.
[Rediger: for fuldstændighed gik jeg senere tilbage og kiggede på et par andre rimelige test statistik for at se, om det ville gøre meget, men de antydede heller ikke noget]
Det er selvfølgelig ikke nok til at erklære det for unimodalt. Vi kan bare ikke fortælle det “er ikke unimodal.
Så jeg vil beskrive det som det ser ud til at være ret skævt. Hvis du skal tale om, hvorvidt befolkningen har mere end en tilstand, ville jeg kun gå så langt som at sige, at der er en eller anden mulighed for en anden tilstand et eller andet sted nær 100, men det er vanskeligt at konkludere noget herfra display.
Kommentarer
- Wow – fantastisk. Dette gør tingene så meget klarere! Tak!
- " At ' ikke er nok til at erklære det som X, selvfølgelig. Vi kan bare ' t fortæller, at det ' ikke er Y. " – Stats i en nøddeskal.