Är detta en skev störning eller bimodal?

Det verkar som att denna fördelning kan vara rätt skev och bimodal. Eller är det bara rätt skevt?

ange bildbeskrivning här

Kommentarer

  • Först och främst, ta en titt på detta svar .
  • Har du bara histogrammet att gå efter?

Svar

Om histogrammet faktiskt var fördelningen som datan hämtades från (det skulle då vara en bitvis enhetlig, tydligt), man kan säga att den var rätt skev (i stort sett alla rimliga mått) och multimodal, eftersom det är tydligt mer än två lägen. / p>

Men förmodligen försöker vi använda histogrammet för att dra slutsatsen om befolkningsfördelningen.

Här har vi två problem.

  1. Det vanliga att berätta vad vi ser i ett urval från samplingsvariation (”brus”). Provtagning av en population som inte är skev kan resultera i ett urval som verkligen verkar skevt, och provtagning av en population som är unimodal kan resultera i ett urval som kan tyckas ha mer än ett läge.

  2. Histogrammets utseende kan ibland påverkas starkt av valet av pappersbredd och till och med bin-ursprung . Det faktum att histogrammet i frågan har många fack hjälper till att mildra både omfattningen och frekvensen av denna typ av problem, men det kan fortfarande inträffa.

Om du har originalprov kan du undvika det andra problemet i större utsträckning genom att överväga mer än en bildskärm – inte bara kan histogram göras för några olika bin-breddar och bin-origins utan andra skärmar kan användas – QQ-diagram, empiriska cdfs och så vidare. (De är lite svårare att lära sig att extrahera informationen från, men de är inte alls så föremål för sådana problem.)

Med detta sagt, med tanke på din stora provstorlek och förutsatt att du tar provet är ett slumpmässigt urval av någon population, skulle vi vara ganska säkra på att dra slutsatsen att fördelningen från vilken ett sådant urval togs skulle vara rätt skev. Intrycket av bimodalitet är relativt svagare (i den meningen att vi med rimlighet kan se det hända med en befolkning som inte är bimodal, åtminstone i ett mindre urval), men jag skulle fortfarande nämna utseendet på bimodalitet i displayen.

Helt ignorera frågan i 2. för tillfället kan vi få en känsla av om det histogrammet skulle kunna inträffa med en unimodal befolkning genom att överväga en just unimodal fördelning som ligger nära det som observeras och ser om det kan producera något så långt ifrån unimodalt som vad du observerar i provet.

För att förenkla situationen, överväg regionen mellan cirka 67 och 133 * (där jag har tagit med mina uppskattningar av lagerräkningarna relevanta soptunnor i den regionen):

extrakt av histogram med räknar

Vardera sidan om detta, i flera lagerplatser före och efter detta segment, minskar densiteten ganska tydligt; frågan är, kan vi rimligen beklagas d detta stycke som ett slumpmässigt urval från ett icke-ökande segment av en distribution?

* Observera att effekten av att välja en viss del och fokusera på denna del i synnerhet ignoreras här, men detta är inte något som verkligen borde ignoreras (detta medför definitivt problemet att ”titta på data” – skulle vi till exempel verkligen ha tagit med nästa papperskorg efter den senaste vi inkluderade?). Jag kommer emellertid att ladda framåt ändå för att ge en känsla av en enkel analys som skulle ge en idé om huruvida en icke-ökande densitet är kompatibel med data (förutsatt att bin placeras). Observera att detta ”att plocka ut den konstiga delen att titta på” så här i allmänhet kommer att öka chansen att hitta något ”betydelsefullt”, så om vi inte hittar något, finns det verkligen liten anledning att säga att det inte kunde ” t vara unimodal.

Först för att se om detta överensstämmer med ett urval från en icke-ökande fördelning behöver vi ett mått på ökning. Jag föreslår att helt enkelt lägga till skillnaderna i bin-räkningar ($ b_i-b_ {i -1} $) när de ökar (och räknar 0 annars), dvs $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Så för bin-räkningar på 369, 373, 413, 375, 382 , 375 totalt upp-hopp är U = 4 + 40 + 0 + 7 + 0 = 51.

Det ”bästa” icke-växande fallet för att producera vår skärm blir enhetligt.

Det totala antalet i denna region är 2287 och det finns 6 lagerplatser.

Vad är chansen att ett urval av storlek 2287 från sex lika troliga kategorier kan ge en total upp- hoppa, $ U $ på minst 51? Det är lätt att hitta genom simulering.

Försöker det i R:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349 

Så detta tyder på att du i en enhetlig sektion av en densitet lätt kunde se den ökningen från den storleken på provet – ungefär hälften av tiden skulle det öka åtminstone så mycket om det var enhetligt.

Naturligtvis kunde vi ha valt någon annan åtgärd, men det räcker för mig. som överensstämmer med enhetligheten i det avsnittet, och därmed är histogrammet inte inkonsekvent med ett slumpmässigt urval från en övergripande unimodal fördelning.

[Redigera: för fullständighet gick jag senare tillbaka och tittade på ett par andra rimliga testa statistik för att se om det skulle göra stor skillnad, men de antydde inte heller något]

Det räcker naturligtvis inte för att förklara att det är unimodalt. Vi kan bara inte säga att det ”s inte unimodal.

Så jag skulle beskriva det som att det verkar vara snett. Om du måste prata om huruvida befolkningen har mer än ett läge eller inte, skulle jag bara gå så långt som att säga att det finns någon möjlighet för ett andra läge någonstans nära 100, men det är svårt att dra slutsatsen från detta visa.

Kommentarer

  • Wow – fantastiskt. Detta gör saker så mycket tydligare! Tack!
  • " Att ' inte räcker för att förklara att det är X, naturligtvis. Vi kan bara ' t säga att det ' inte är Y. " – Statistik i ett nötskal.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *