Úgy tűnik, hogy ez az eloszlás lehet, hogy ferde és bimodális. Vagy csak éppen ferde?
Megjegyzések
- Először is vessen egy pillantást erre a válaszra .
- Csak a hisztogramra van szükséged?
Válasz
Ha a hisztogram valóban az eloszlás, amelyből az adatokat levonták (ez akkor darabonként egységes lenne, egyértelműen), mondhatni helyes ferdítés (nagyjából minden ésszerű intézkedéssel) és multimodális, mivel egyértelműen több mint két mód van.
De feltehetően a hisztogram segítségével próbálunk következtetni valamire a populáció eloszlásáról.
Itt két problémánk van.
-
Az a szokásos módszer, amikor a mintaváltozás (“zaj”) alapján elmondjuk, mit látunk egy mintában. A nem ferde populáció mintavétele olyan mintát eredményezhet, amely bizonyosan ferdesnek tűnik, és az unimodális populáció mintavétele egy olyan mintát eredményezhet, amelynek több módja is lehet.
-
A hisztogram megjelenését néha erősen befolyásolhatja a bin szélességének, sőt a bin eredetének kiválasztása . Az a tény, hogy a kérdéses hisztogram sok rekesszel rendelkezik, segít enyhíteni az ilyen jellegű problémák mértékét és gyakoriságát, de még mindig előfordulhat.
Ha rendelkezik a eredeti minta esetén a második problémát nagyobb mértékben elkerülheti egynél több megjelenítés figyelembe vételével – hisztogramok nemcsak néhány különféle tálcaszélességre és bin-origóra készíthetők, hanem más megjelenítők is használhatók – QQ-plotok, empirikus cdfs és így tovább. (Kicsit nehezebb megtanulni kibontani az információkat, de közel sem ilyen mértékben vannak kitéve az ilyen jellegű problémáknak.)
Ez azt jelenti, hogy a nagy mintaméretre és a mintádra támaszkodva néhány populáció véletlenszerű mintája, eléggé biztosan megállapíthatnánk, hogy az a megoszlás, amelyből egy ilyen mintát vontak, helyes ferdén áll. A bimodalitás benyomása viszonylag gyengébb (abban az értelemben, hogy ésszerűen láthatjuk, hogy ez egy olyan populációval történik, amely “valójában nem bimodális, legalábbis egy kisebb mintában), de mégis megemlíteném a bimodalitás megjelenését a kijelzőn.
A probléma teljes figyelmen kívül hagyásával a 2. pontban pillanatnyilag megérthetjük, hogy előfordulhat-e ez a hisztogram unimodális populációval, ha figyelembe vesszük a megfigyelt és látotthoz közeli, éppen unimodális eloszlást. ha olyasmit képes előállítani, ami nem olyan unimodális, mint amit a mintában megfigyel.
A helyzet leegyszerűsítése érdekében vegye figyelembe a 67 és 133 közötti régiót * (ahol a becsült értékeket a kukák számához a régió megfelelő tárolói):
Ennek bármelyik oldala, több szemetesben a szegmens előtt és után, a sűrűség elég egyértelműen csökken; a kérdés az, hogy ésszerűen szabályozhatjuk-e d ez a darab véletlenszerű mintaként egy disztribúció nem növekvő szegmenséből?
* Vegye figyelembe, hogy itt figyelmen kívül hagyják az adott rész kiválasztásának és különösen erre a részre való összpontosítás hatását, de ez nem olyasmi, amelyet valóban figyelmen kívül kell hagyni (ez mindenképpen magában hordozza az “adatok megtekintésének” problémáját – például vajon valóban a legutóbbi, amit belefoglaltuk? Mindazonáltal előre fogok tölteni, hogy egy egyszerű elemzést adjak, amely ötletet adna arra, hogy a nem növekvő sűrűség összeegyeztethető legyen-e az adatokkal (a kuka elhelyezésétől függ). Ne feledje, hogy ez a “furcsa rész kinézete”, mint ez, általában növeli annak esélyét, hogy valami “jelentőset” találjunk, tehát ha nem találunk semmit, akkor nagyon kevés oka van azt mondani, hogy nem lehet ” ne legyünk unimodálisak.
Először annak megállapításához, hogy ez összhangban van-e a nem növekvő eloszlásból származó mintával, szükségünk van a növekedés mértékére. Azt javaslom, hogy egyszerűen tegyük hozzá a bin-számlálások különbségeit ($ b_i-b_ {i -1} $), amikor nőnek (és egyébként 0-t számolnak), azaz $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Tehát a 369, 373, 413, 375, 382 bináris számoknál , 375 a felugrások összege U = 4 + 40 + 0 + 7 + 0 = 51.
A kijelzőnk előállításához a “legjobb” nem növekvő eset az egységes lesz.
Ebben a régióban összesen 2287 darab, és 6 rekesz van.
Milyen esély van arra, hogy egy 2287 méretű minta hat egyforma valószínűségű kategóriából összességében ugrás, $ U $ legalább 51? Ez valami könnyen megtalálható szimulációval.
Próbálkozás R-ben:
res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349
Tehát ez azt sugallja, hogy a sűrűség egy egységes szakaszában könnyen észreveheti ezt a növekedést a minta ebből a méretéből – körülbelül az idő fele legalább ennyit növekedne, ha egységes lenne.
Természetesen választhattunk más mértéket is, de ez nekem elegendő. hogy összhangban van az adott szakasz egységességével, és ezért a hisztogram nem ellentmond az általános unimodális eloszlásból származó véletlenszerű mintának.
[Edit: a teljesség kedvéért később visszatértem, és megnéztem még néhány ésszerű tesztelje a statisztikákat, hátha lesz-e nagy különbség, de ők sem jeleztek semmit]
Ez nem elegendő ahhoz, hogy természetesen unimodálissá nyilvánítsuk. Csak azt nem tudjuk elmondani, hogy ez “Nem unimodális.
Tehát úgy írnám le, hogy jobbnak tűnik. Ha arról kell beszélnie, hogy a populációnak egynél több üzemmódja van-e vagy sem, akkor csak annyit mondok, hogy azt mondom, hogy van valamilyen lehetőség egy második módra valahol 100 közelében, de ebből nehéz következtetni megjelenítés.
Megjegyzések
- Wow – fantasztikus. Ez sokkal világosabbá teszi a dolgokat! Köszönöm!
- " Ez ' nem elegendő ahhoz, hogy természetesen X-nek nyilvánítsuk. Csak ' t mondd, hogy ' nem Y. " – dióhéjban a statisztika.