Je to zkreslené vyrušování nebo bimodální?

Zdá se, že tato distribuce může být zkosená a bimodální. Nebo je to jen správné zkosení?

Komentáře

Nejprve se podívejte na tuto odpověď .
Máte k dispozici pouze histogram?

Odpověď

Pokud by histogram skutečně byl distribuce, ze které byla data čerpána (to by pak bylo po částech jednotné, jasně), dalo by se říci, že to bylo správné zkosení (skoro jakýmkoli rozumným měřítkem) a multimodální, protože jsou jasně více než dva režimy.

Ale pravděpodobně se pokoušíme pomocí histogramu odvodit něco o distribuci populace.

Tady máme dva problémy.

Obvyklý způsob, jak zjistit, co vidíme ve vzorku, z variace vzorkování („šum“). Vzorkování populace, která není zkosená, může mít za následek vzorek, který se určitě objeví zkosený, a vzorkování populace, která je unimodální, může vést k tomu, že vzorek bude mít více než jeden režim.
Vzhled histogramu může být někdy silně ovlivněn volbou šířky a rovnoměrného původu . Skutečnost, že histogram v otázce má mnoho přihrádek, pomáhá zmírnit rozsah i frekvenci tohoto druhu problému, ale stále k němu může dojít.

Pokud máte původní vzorek se můžete vyhnout druhému problému ve větší míře tím, že vezmete v úvahu více než jedno zobrazení – nejenže lze histogramy provádět pro několik různých šířek a původů bin, ale lze použít i jiné displeje – QQ-grafy, empirické CDS a tak dále. („O něco těžší je naučit se získávat informace z nich, ale tyto druhy problémů zdaleka tak nepodléhají.)

To znamená, že vzhledem k vaší velké velikosti vzorku a jeho předpokladu je náhodný vzorek nějaké populace, mohli bychom s jistotou dospět k závěru, že distribuce, ze které byl takový vzorek odebrán, by byla správná. Dojem bimodality je relativně slabší (v tom smyslu, že bychom mohli rozumně vidět, že k tomu dochází u populace, která „ve skutečnosti není bimodální, alespoň v menším vzorku), ale já bych přesto zmínil vzhled bimodality na displeji.

Zcela ignorujeme problém ve 2. bodě a nyní můžeme získat určitý smysl pro to, zda by se tento histogram mohl vyskytnout u unimodální populace, když vezmeme v úvahu právě unimodální distribuci, která je blízká tomu, co je pozorováno a viděno pokud to může produkovat něco tak daleko od unimodálního, jako to, co pozorujete ve vzorku.

Pro zjednodušení situace zvažte oblast mezi přibližně 67 a 133 * (kde jsem zahrnul své odhady počtu bin pro příslušné koše v dané oblasti):

Obě strany, v několika zásobnících před a po tomto segmentu hustota zcela jasně klesá; otázkou je, můžeme rozumně regarovat d tento kousek jako náhodný vzorek z nerůstajícího segmentu distribuce?

* Všimněte si, že zde je ignorován dopad výběru konkrétní součásti a zaměření se zejména na tuto část, ale toto není něco, co by mělo být skutečně ignorováno (to rozhodně přináší problém „pohledu na data“ – měli bychom například opravdu zahrnout další koš za poslední, který jsme zahrnuli?). Každopádně se chystám účtovat dopředu, abych získal smysl pro jednoduchou analýzu, která by poskytla představu o tom, zda je s daty kompatibilní nezvýšení hustoty (podmíněné umístěním koše). Všimněte si, že toto „vybírání této podivné části, na kterou se podíváme“, obecně zvýší šanci na nalezení něčeho „významného“, takže pokud nic nenajdeme, je opravdu malý důvod říkat, že to nemohlo “ Nebuďte unimodální.

Nejprve zjistěte, zda je to konzistentní se vzorkem z nezvyšující se distribuce, potřebujeme měřítko zvýšení. Navrhuji jednoduše přidat rozdíly v počtech bin ($ b_i-b_ {i -1} $), kdykoli se zvýší (a jinak počítají 0), tj. $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Takže pro počet bin 369, 373, 413, 375, 382 , 375, celkový počet skoků nahoru je U = 4 + 40 + 0 + 7 + 0 = 51.

„Nejlepším“ nerostoucím případem pro vytvoření našeho zobrazení bude uniforma.

Celkový počet v této oblasti je 2287 a je zde 6 košů.

Jaká je šance, že vzorek velikosti 2287 ze šesti stejně pravděpodobných kategorií může vyprodukovat celkem – skok, $ U $ nejméně 51? To je něco, co lze snadno najít pomocí simulace.

Pokus o to v R:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349

Takže to naznačuje, že v jednotné části hustoty můžete snadno vidět toto zvýšení z té velikosti vzorku – asi v polovině času, by se to zvětšilo alespoň o tolik, kdyby to bylo jednotné.

Samozřejmě bychom mohli zvolit nějaké jiné opatření, ale to mi stačí. že v souladu s uniformitou v této sekci, a tudíž histogram není v rozporu s náhodným vzorkem z celkové unimodální distribuce.

[Upravit: pro úplnost jsem se později vrátil a podíval se na několik dalších rozumných testovací statistika, aby se zjistilo, zda by to hodně změnilo, ale ani nic neoznačily]

To samozřejmě nestačí na to, aby to bylo prohlášeno za unimodální. Prostě nemůžeme říct, že to „není unimodální.

Takže bych to popsal tak, že to vypadá, že vypadá správně. Pokud musíte mluvit o tom, zda má populace více než jeden režim, jdu jen tak daleko, že řeknu, že existuje nějaká možnost druhého režimu někde poblíž 100, ale je těžké z toho něco vyvodit display.

Komentáře

Super – úžasné. Díky tomu jsou věci mnohem jasnější! Díky!
" To ' nestačí na to, abychom jej prohlásili za X, samozřejmě. Prostě můžeme ' t říct, že ' to není Y. " – Statistiky v kostce.

Komentáře

Odpověď

Komentáře

Napsat komentář Zrušit odpověď na komentář