È una distorsione distorta o bimodale?

Sembra che questa distribuzione possa essere asimmetrica e bimodale. O è solo inclinato a destra?

inserisci qui la descrizione dellimmagine

Commenti

  • Prima di tutto, dai unocchiata a questa risposta .
  • Hai solo listogramma da seguire?

Risposta

Se listogramma fosse effettivamente la distribuzione da cui sono stati ricavati i dati (sarebbe quindi uniforme a tratti, chiaramente), si potrebbe dire che era asimmetrica corretta (praticamente con qualsiasi misura ragionevole) e multimodale, poiché ci sono chiaramente più di due modalità.

Ma presumibilmente stiamo cercando di utilizzare listogramma per dedurre qualcosa sulla distribuzione della popolazione.

Qui abbiamo due problemi.

  1. Il solito di raccontare ciò che vediamo in un campione dalla variazione di campionamento (“rumore”). Il campionamento di una popolazione che non è obliqua può risultare in un campione che certamente appare obliquo e il campionamento di una popolazione che è unimodale può risultare in un campione che può sembrare avere più di una modalità.

  2. Laspetto dellistogramma a volte può essere fortemente influenzato dalla scelta della larghezza del contenitore e persino dellorigine del contenitore . Il fatto che listogramma nella domanda abbia molti contenitori aiuta a mitigare sia lentità che la frequenza di questo tipo di problema, ma può comunque verificarsi.

Se hai il campione originale è possibile evitare il secondo problema in misura maggiore considerando più di una visualizzazione – non solo è possibile eseguire istogrammi per poche larghezze e origini bin diverse, ma è possibile utilizzare altre visualizzazioni – grafici QQ, empirici cdf e così via. (È un po più difficile imparare a estrarre le informazioni, ma non sono così soggetti a questo tipo di problemi.)

Detto questo, data la tua vasta dimensione del campione e supponendo che il tuo campione è un campione casuale di una certa popolazione, saremmo abbastanza sicuri nel concludere che la distribuzione da cui è stato tratto un tale campione sarebbe giusta asimmetrica. Limpressione di bimodalità è relativamente più debole (nel senso che potremmo ragionevolmente vederlo accadere con una popolazione che “non è effettivamente bimodale, almeno in un campione più piccolo), ma vorrei comunque menzionare laspetto della bimodalità nel display.

Ignorando completamente il problema in 2. per il momento, possiamo avere unidea se quellistogramma potrebbe verificarsi con una popolazione unimodale considerando una distribuzione solo unimodale che è vicina a ciò che viene osservato e visto se può produrre qualcosa di così lontano dallunimodale come quello che osservi nel campione.

Per semplificare la situazione, considera la regione tra 67 e 133 * circa (dove ho incluso le mie stime dei conteggi dei bin per i contenitori pertinenti in quella regione):

estratto dellistogramma con conteggi dei contenitori

Su entrambi i lati, in diversi contenitori prima e dopo questo segmento, la densità sta diminuendo abbastanza chiaramente; la domanda è: possiamo ragionevolmente d questo pezzo come un campione casuale da un segmento non crescente di una distribuzione?

* Notare che limpatto della scelta di una parte particolare e concentrarsi su questa parte in particolare viene ignorato qui, ma non lo è qualcosa che dovrebbe davvero essere ignorato (questo porta sicuramente il problema di “guardare i dati” – per esempio, avremmo dovuto davvero includere il contenitore successivo dopo lultimo che abbiamo incluso?). Tuttavia, ho intenzione di caricare comunque in anticipo per dare il senso di una semplice analisi che darebbe unidea approssimativa della compatibilità di una densità non crescente con i dati (a condizione del posizionamento del contenitore). Nota che questo “scegliere la parte strana da guardare” come questo in genere aumenterà la possibilità di trovare qualcosa di “significativo”, quindi se non troviamo nulla, ci sono “davvero poche ragioni per dire che non potrebbe” t essere unimodale.

Per prima cosa per vedere se questo è coerente con un campione da una distribuzione non crescente, abbiamo bisogno di una misura di incremento. Propongo di aggiungere semplicemente le differenze nei conteggi dei bin ($ b_i-b_ {i -1} $) ogni volta che aumentano (e altrimenti contano 0), cioè $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Quindi per i bin di 369, 373, 413, 375, 382 , 375 il totale dei salti verso lalto è U = 4 + 40 + 0 + 7 + 0 = 51.

Il caso “migliore” non crescente per produrre il nostro display sarà luniforme.

Il conteggio totale in questa regione è 2287 e ci sono 6 bin.

Quante sono le possibilità che un campione di dimensione 2287 da sei categorie ugualmente probabili possa produrre un aumento totale- jump, $ U $ di almeno 51? È qualcosa che si trova facilmente con la simulazione.

Provando che in R:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349 

Quindi questo suggerisce che in una sezione uniforme di una densità potresti facilmente vedere quella quantità di aumento da quella dimensione del campione – circa la metà del tempo aumenterebbe almeno di tanto se fosse uniforme.

Ovviamente avremmo potuto scegliere qualche altra misura, ma per me è sufficiente. Considero che è coerente con luniformità in quella sezione, e quindi listogramma non è incoerente con un campione casuale da una distribuzione unimodale complessiva.

[Modifica: per completezza in seguito sono tornato indietro e ho guardato un paio di altri testare le statistiche per vedere se avrebbe fatto molta differenza, ma non hanno indicato nulla]

Questo non è abbastanza per dichiararlo unimodale, ovviamente. Non possiamo dirlo “non è unimodale.

Quindi lo descriverei come se fosse inclinato a destra. Se devi parlare del fatto che la popolazione abbia o meno più di una modalità, vorrei solo dire che cè qualche possibilità di una seconda modalità da qualche parte vicino a 100, ma è difficile concludere qualcosa da questo display.

Commenti

  • Wow, fantastico. Questo rende le cose molto più chiare! Grazie!
  • " Questo ' non è sufficiente per dichiararlo X, ovviamente. Possiamo solo ' non dire che ' non è Y. " – Statistiche in poche parole.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *