Is dit een scheve distirbutie of bimodaal?

Het lijkt erop dat deze verdeling recht scheef en bimodaal is. Of is het alleen recht scheef?

voer hier de afbeeldingsbeschrijving in

Reacties

  • Bekijk eerst dit antwoord .
  • Heeft u alleen het histogram om langs te gaan?

Antwoord

Als het histogram werkelijk was de verdeling waaruit de gegevens zijn gehaald (het zou dan duidelijk een stuksgewijs uniforme zijn), zou je kunnen zeggen dat het recht scheef was (door vrijwel elke redelijke maatstaf) en multimodaal, aangezien er duidelijk meer dan twee modi zijn. / p>

Maar vermoedelijk proberen we het histogram te gebruiken om iets over de populatieverdeling af te leiden.

Hier hebben we twee problemen.

  1. De gebruikelijke manier om te vertellen wat we in een sample zien door variatie in sampling (“ruis”). Het bemonsteren van een populatie die niet scheef is, kan resulteren in een steekproef die zeker scheef lijkt, en het nemen van steekproeven in een populatie die unimodaal is, kan resulteren in een steekproef die meer dan één modus lijkt te hebben.

  2. Het uiterlijk van het histogram kan soms sterk worden beïnvloed door de keuze van de bin-breedte en zelfs bin-oorsprong . Het feit dat het histogram in de vraag veel bins heeft, helpt om zowel de omvang als de frequentie van dit soort problemen te verminderen, maar het kan nog steeds voorkomen.

Als u de originele sample kunt u het tweede probleem in grotere mate vermijden door meer dan één display te beschouwen – niet alleen kunnen histogrammen worden gemaakt voor een paar verschillende bin-breedtes en bin-origines, maar er kunnen ook andere displays worden gebruikt – QQ-plots, empirisch cdfs enzovoort. (Het is iets moeilijker om te leren om de informatie eruit te halen, maar ze zijn lang niet zo onderhevig aan dat soort problemen.)

Dat gezegd hebbende, gezien uw grote steekproefomvang en ervan uitgaande dat uw steekproef is een willekeurige steekproef van een populatie, zouden we redelijk veilig kunnen concluderen dat de verdeling waaruit een dergelijke steekproef is getrokken, recht scheef zou zijn. De indruk van bimodaliteit is relatief zwakker (in de zin dat we dat redelijkerwijs zouden kunnen zien gebeuren met een populatie die “niet echt bimodaal is, althans in een kleinere steekproef), maar ik zou nog steeds het uiterlijk van bimodaliteit in de weergave noemen.

Als we het probleem in 2. voorlopig volledig negeren, kunnen we enig idee krijgen of dat histogram zou kunnen voorkomen bij een unimodale populatie door een rechtvaardig-unimodale verdeling te beschouwen die dicht bij wat wordt waargenomen en gezien als het iets kan produceren dat niet unimodaal is als wat u in de steekproef waarneemt.

Om de situatie te vereenvoudigen, overweeg dan het gebied tussen ongeveer 67 en 133 * (waar ik mijn schattingen van de bin-tellingen voor de relevante opslaglocaties in die regio):

uittreksel van histogram met bin-tellingen

Aan beide kanten hiervan, in verschillende bakken voor en na dit segment, neemt de dichtheid vrij duidelijk af; de vraag is, kunnen we redelijkerwijs d dit stuk als een willekeurige steekproef uit een niet-stijgend segment van een distributie?

* Merk op dat de impact van het kiezen van een bepaald onderdeel en focussen op dit onderdeel in het bijzonder hier wordt genegeerd, maar dit is niet iets dat echt moet worden genegeerd (dit brengt zeker het probleem met zich mee van “kijken naar de gegevens” – hadden we bijvoorbeeld echt de volgende bak moeten toevoegen na de laatste die we hebben opgenomen?). Ik ga echter toch doorgaan om de betekenis te geven van een eenvoudige analyse die een idee zou geven of een niet-toenemende dichtheid compatibel is met de gegevens (afhankelijk van de plaatsing van de bak). Merk op dat dit “uitkiezen van het rare deel om naar te kijken” over het algemeen de kans zal vergroten om iets “belangrijks” te vinden, dus als we “niets vinden” is er echt weinig reden om te zeggen dat het niet zou kunnen. t unimodaal zijn.

Om eerst te zien of dit consistent is met een steekproef uit een niet-toenemende distributie, hebben we een mate van toeneming nodig. Ik stel voor om simpelweg de verschillen in bin-counts ($ b_i-b_ {i -1} $) wanneer ze toenemen (en anders 0 tellen), dwz $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Dus voor bin-counts van 369, 373, 413, 375, 382 , 375 is het totaal van de opwaartse sprongen U = 4 + 40 + 0 + 7 + 0 = 51.

Het “beste” niet-toenemende geval om ons display te produceren is het uniform.

Het totale aantal in deze regio is 2287 en er zijn 6 bakken.

Wat is de kans dat een steekproef van grootte 2287 uit zes even waarschijnlijke categorieën een totaal sprong, $ U $ van minstens 51? Dat is gemakkelijk te vinden door simulatie.

Probeer dat in R:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349 

Dus dit suggereert dat je in een uniform gedeelte van een dichtheid gemakkelijk die toename zou kunnen zien van die omvang van de steekproef – ongeveer de helft van de tijd zou het in ieder geval zo veel toenemen als het uniform was.

Natuurlijk hadden we misschien een andere maat gekozen, maar dat is voldoende voor mij. dat consistent is met uniformiteit in die sectie, en daarom is het histogram niet inconsistent met een willekeurige steekproef uit een algehele unimodale verdeling.

[Bewerken: voor de volledigheid ging ik later terug en bekeek een paar andere redelijke test statistieken om te zien of het veel verschil zou maken, maar ze gaven ook niks aan]

Dat is natuurlijk niet genoeg om te verklaren dat het unimodaal is. We kunnen gewoon niet zeggen dat het “is niet unimodaal.

Dus ik zou het omschrijven als een rechtse scheefheid. Als je moet praten over de vraag of de populatie al dan niet meer dan één modus heeft, zou ik zo ver gaan om te zeggen dat er een mogelijkheid is van een tweede modus ergens in de buurt van 100, maar het is moeilijk hieruit iets te concluderen display.

Reacties

  • Wauw – geweldig. Dit maakt de dingen zoveel duidelijker! Bedankt!
  • " Dat ' is natuurlijk niet genoeg om te verklaren dat het X is. We kunnen gewoon ' vertel niet dat het ' niet Y is. " – Statistieken in een notendop.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *