Onko tämä vinossa vaihto tai bimodaali?

Vaikuttaa siltä, että tämä jakauma voi olla oikeassa vinossa ja bimodaalinen. Vai onko se vain oikein vinossa?

kirjoita kuvan kuvaus tähän

Kommentit

Vastaa

Jos histogrammi todella olisi jakauma, josta data on peräisin (se olisi silloin palasina yhtenäinen, selvästi), voit sanoa, että se oli oikea vinous (melkein millä tahansa kohtuullisella tavalla) ja multimodaalinen, koska niitä on selvästi enemmän kuin kaksi tilaa.

Mutta oletettavasti yritämme histogrammin avulla päätellä jotain populaatiojakaumasta.

Tässä meillä on kaksi ongelmaa.

  1. Tavallinen tapa kertoa näytteestä näennäisen vaihtelusta (”melu”). Näytteenotto populaatiosta, joka ei ole vinossa, voi johtaa näytteeseen, joka näyttää varmasti vinoutuneelta, ja yksimuotoisen populaation ottaminen saattaa johtaa näytteeseen, jolla saattaa näyttää olevan useampi kuin yksi tila.

  2. Lokeron leveyden ja tasaisen alkuperän valinta voi joskus vaikuttaa histogrammin ulkonäköön. Se, että kysymyksen histogrammissa on monia lokeroita, auttaa lieventämään tämäntyyppisen ongelman laajuutta ja toistuvuutta, mutta sitä voi silti esiintyä.

Jos sinulla on Alkuperäisen näytteen avulla voit välttää toisen ongelman suuremmassa määrin tarkastelemalla useampaa kuin yhtä näyttöä – histogrammeja ei voida tehdä vain muutamalle erilaiselle lokeron leveydelle ja alkuasemalle, vaan myös muita näyttöjä voidaan käyttää – QQ-juoni, empiirinen cdfs ja niin edelleen. (Heitä on vähän vaikeampi oppia poimimaan tietoja, mutta he eivät ole läheskään niin alttiita tämän tyyppisille ongelmille.)

Sanottu, kun otetaan huomioon suuri otoskokosi ja olettaen otoksen on satunnainen otos joistakin populaatioista, olisimme melko turvallisia päätellessäsi, että jakauma, josta tällainen näyte otettiin, olisi oikea vinossa. Vaikutus bimodaalisuudesta on suhteellisen heikompi (siinä mielessä, että voimme kohtuudella nähdä sen tapahtuvan väestön kanssa, joka ei oikeastaan ole bimodaalinen, ainakaan pienemmässä otoksessa), mutta mainitsen silti bimodaalisuuden esiintymisen näytöllä.

jos se voi tuottaa jotain niin kaukana yksimodaalisuudesta kuin mitä havaitset näytteessä.

Tilanteen yksinkertaistamiseksi ota huomioon alue, joka on välillä 67 ja 133 * (mihin olen sisällyttänyt arvioni roskakorien lukumäärästä kyseisen alueen asiaankuuluvat lokerot):

histogrammin ote ja binäärilukemat

Tämän kummallakin puolella, tiheys on melko selvästi laskenut useissa säiliöissä ennen tätä segmenttiä ja sen jälkeen; kysymys kuuluu, voimmeko kohtuullisesti säätää d tämä kappale satunnaisotoksena jakelun ei-kasvavasta segmentistä?

* Huomaa, että tietyn osan valinnan ja erityisesti tähän osaan keskittymisen vaikutuksia ei oteta tässä huomioon, mutta tämä ei ole jotain, joka on todellakin jätettävä huomiotta (tähän liittyy ehdottomasti ”tietojen katselun” ongelma – esimerkiksi pitäisikö meidän todella sisällyttää seuraava roskakori viimeisen sisällytetyn jälkeen?). Aion kuitenkin ladata eteenpäin joka tapauksessa antaakseni yksinkertaisen analyysin, joka antaisi pallopaikalle käsityksen siitä, onko ei-kasvava tiheys yhteensopiva tietojen kanssa (ehdollinen roskakorin sijoittamiselle). Huomaa, että tämä ”oudon osan valitseminen näin” lisää yleensä mahdollisuutta löytää jotain ”merkittävää”, joten jos emme löydä mitään, ei ole juurikaan syytä sanoa, että se ei voi ” t olla yksimuotoinen.

Ensiksi, jotta voimme selvittää, onko tämä yhdenmukaista kasvamattoman jakauman otoksen kanssa, tarvitsemme kasvun mittauksen. Ehdotan, että vain lisätään bin-lukujen erot ($ b_i-b_ {i -1} $) aina kun ne kasvavat (ja laskevat muuten 0), ts. $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Joten binäärilukemille 369, 373, 413, 375, 382 , 375 ylös-hyppyjen kokonaismäärä on U = 4 + 40 + 0 + 7 + 0 = 51.

”Paras” ei-kasvava tapaus näytön tuottamiseksi on yhtenäinen.

Tämän alueen kokonaismäärä on 2287 ja säilytysastioita on 6.

Mikä on mahdollisuus, että koko 2287: n näyte kuudesta yhtä todennäköisestä luokasta voisi tuottaa yhteensä hyppy, $ U $ vähintään 51? Se on jotain helposti löydettävissä simulaatiolla.

Yritetään sitä R: ssä:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349 

Tämä viittaa siihen, että tiheyden yhtenäisessä osassa voit helposti nähdä kyseisen määrän kasvun tuon otoksen koosta – noin puolet ajasta se kasvaisi ainakin niin paljon, jos se olisi yhtenäinen.

Olemme tietysti voineet valita jonkin muun mittarin, mutta se riittää minulle. Pidän että yhdenmukainen kyseisen osan yhtenäisyyden kanssa ja siten histogrammi ei ole ristiriidassa satunnaisotoksen kanssa kokonaismuotomaisesta jakaumasta.

[Muokkaa: täydellisyyden vuoksi palasin myöhemmin takaisin ja tarkastelin pari muuta kohtuullista testitilastoista selvittääkseen, onko sillä paljon eroa, mutta he eivät myöskään ilmoittaneet mitään]

Se ei riitä julistamaan tietysti yksimodaaliseksi. Emme voi vain sanoa, että se ”Ei ole yksimielinen.

Joten kuvailisin sitä näyttävän olevan oikeassa vinossa. Jos sinun on puhuttava siitä, onko populaatiossa useampi kuin yksi tila, menen vain niin pitkälle, että sanon, että on olemassa mahdollisuus toiselle moodille jonnekin lähellä 100: ta, mutta tästä on vaikea päätellä mitään näyttö.

Kommentit

  • Vau – mahtavaa. Tämä tekee asioista paljon selkeämmät! Kiitos!
  • " Tämä ' ei riitä julistamaan tietysti X: ksi. Voimme vain ' t kerro, että se ' ei ole Y. " – Tilastot pähkinänkuoressa.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *