Este aceasta o distirbție înclinată sau bimodală?

Se pare că această distribuție poate fi corectă și înclinată și bimodală. Sau este doar corect înclinat?

introduceți descrierea imaginii aici

Comentarii

  • În primul rând, aruncă o privire la acest răspuns .
  • Aveți doar histograma de parcurs?

Răspundeți

Dacă histograma ar fi de fapt distribuția din care au fost extrase datele (ar fi una uniformă în bucăți, în mod clar), s-ar putea spune că a fost corectă (prin aproape orice măsură rezonabilă) și multimodală, deoarece există în mod clar mai mult de două moduri.

Dar probabil că încercăm să folosim histograma pentru a deduce ceva despre distribuția populației.

Aici avem două probleme.

  1. Cel obișnuit de a spune ceea ce vedem într-un eșantion din variația eșantionării („zgomot”). Eșantionarea unei populații care nu este înclinată poate avea ca rezultat un eșantion care apare cu siguranță înclinat, iar eșantionarea unei populații care este unimodală poate duce la o eșantion care poate părea să aibă mai multe moduri.

    Aspectul histogramei poate fi uneori puternic afectat de alegerea lățimii și chiar a originii bin . Faptul că histograma din întrebare are multe coșuri ajută la atenuarea atât a amplorii, cât și a frecvenței acestui tip de problemă, dar poate apărea în continuare.

Dacă aveți eșantion original, puteți evita a doua problemă într-o măsură mai mare, luând în considerare mai mult de un afișaj – nu numai că histogramele pot fi făcute pentru câteva lățimi și bin-origini diferite, dar pot fi utilizate și alte afișaje – QQ-ploturi, empirice cdf-uri și așa mai departe. (Sunt „puțin mai greu de învățat să extragă informațiile din ele, dar„ nu sunt atât de supuse acestor tipuri de probleme.)

Acestea fiind spuse, având în vedere dimensiunea mare a eșantionului și presupunând eșantionul dvs. este un eșantion aleatoriu al unor populații, am fi destul de siguri în concluzia că distribuția din care a fost extras un astfel de eșantion ar fi corectă. Impresia bimodalității este relativ mai slabă (în sensul că s-ar putea vedea în mod rezonabil că se întâmplă cu o populație care „nu este de fapt bimodală, cel puțin într-un eșantion mai mic), dar aș menționa în continuare apariția bimodalității în afișaj.

Ignorând complet problema din 2. pentru moment, putem obține o idee despre dacă histograma ar putea apărea cu o populație unimodală, luând în considerare o distribuție doar unimodală care este aproape de ceea ce este observat și văzut dacă poate produce ceva la fel de departe de unimodal ca ceea ce observați în eșantion.

Pentru a simplifica situația, luați în considerare regiunea cuprinsă între 67 și 133 * (unde am inclus estimările mele despre numărul de coșuri pentru coșurile relevante din acea regiune):

extract de histogramă cu număr de coșuri

Ambele părți ale acestui lucru, în mai multe coșuri înainte și după acest segment, densitatea este destul de clar în scădere; întrebarea este, putem regla în mod rezonabil d această piesă ca un eșantion aleatoriu dintr-un segment care nu crește dintr-o distribuție?

* Rețineți că impactul alegerii unei anumite părți și al concentrării asupra acestei părți în special este ignorat aici, dar acest lucru nu este ceva ce ar trebui cu adevărat ignorat (acest lucru duce cu siguranță la problema „a privi datele” – de exemplu, ar fi trebuit să includem următorul compartiment după ultimul pe care l-am inclus?). Cu toate acestea, voi încărca oricum înainte pentru a da sensul unei analize simple care ar oferi o idee generală dacă o densitate care nu crește este compatibilă cu datele (condiționată de plasarea coșului). Rețineți că această „alegere a părții ciudate de privit” ca aceasta va crește, în general, șansa de a găsi ceva „semnificativ”, așa că, dacă nu găsim nimic, există cu adevărat puține motive să spunem că nu ar putea ” t fi unimodal.

Mai întâi pentru a vedea dacă acest lucru este în concordanță cu un eșantion dintr-o distribuție care nu crește, avem nevoie de o măsură de creștere. Propun să adăugăm pur și simplu diferențele în bin-counts -1} $) ori de câte ori cresc (și se numără 0 în caz contrar), adică $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Deci pentru bin-counts de 369, 373, 413, 375, 382 , 375 totalul salturilor ascendente este U = 4 + 40 + 0 + 7 + 0 = 51.

Cel mai bun caz care nu crește pentru a produce afișajul nostru va fi uniforma.

Numărul total în această regiune este 2287 și există 6 coșuri.

Care este șansa ca un eșantion de dimensiunea 2287 din șase categorii la fel de probabile să poată produce un total sari, $ U $ de cel puțin 51? Acest lucru este ușor de găsit prin simulare.

Încercând asta în R:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349 

Deci, acest lucru sugerează că într-o secțiune uniformă a unei densități puteți vedea cu ușurință acea cantitate de creștere din acea dimensiune a eșantionului – aproximativ jumătate din timp ar crește cel puțin atât de mult dacă ar fi uniformă.

Bineînțeles că am fi ales o altă măsură, dar asta este suficient pentru mine. că, în concordanță cu uniformitatea din secțiunea respectivă, și, prin urmare, histograma nu este incompatibilă cu un eșantion aleatoriu dintr-o distribuție globală unimodală. testează statisticile pentru a vedea dacă ar avea o mare diferență, dar nici nu au indicat nimic]

Asta nu este suficient pentru a declara că este unimodal, desigur. Nu putem spune că „Nu este unimodal.

Așadar, aș descrie-o ca pe o așteptare corectă. Dacă trebuie să vorbiți dacă populația are sau nu mai multe moduri, aș merge doar atât de departe încât să spun că există o posibilitate de al doilea mod undeva aproape de 100, dar este dificil să concluzionăm ceva din acest afișare.

Comentarii

  • Wow – minunat. Acest lucru face lucrurile mult mai clare! Mulțumesc!
  • " Că ' nu este suficient pentru a declara că este X, desigur. Putem doar ' nu spuneți că ' nu este Y. " – Statistici pe scurt.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *