Ho un set di dati con le seguenti caratteristiche e non riesco a capirlo. “Tre dev. St. Includono il 99,7% dei dati” è quello che dico a me stesso, ma sembra essere formulato in modo impreciso.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
Questo mi dice che il 99,7% dei dati si trova tra 30 e 48, ma il 100% dei dati si trova tra 34 e 46 e questo non ha senso. Significa semplicemente che il mio campione non è rappresentativo della popolazione totale? Voglio dire, ovviamente, non è “t, ma supponiamo che io non sappia che esistono esseri umani di età inferiore a 34 anni e superiore a 46. A proposito, questo è dalla variabile age
dal set di dati di esempio Stata nlsw88.dta
.
Ho esaminato questa domanda , ma non mi aiuta nemmeno a sciogliere il nodo cerebrale. ht place to ask.
EDIT: Ho appena realizzato che quelle sono molte domande. Si prega di considerare la domanda di intestazione quella che necessita di una risposta. Il resto è praticamente solo il mio processo di pensiero incasinato che si dispiega.
Commenti
- Il minimo e il massimo sono il minimo e il massimo della popolazione che hai osservato . La deviazione standard viene calcolata dalla popolazione campione. Supponendo quindi una popolazione infinitamente grande con le stesse caratteristiche del campione osservato e una distribuzione normale, il 99,7% delle persone sarebbe compreso tra 30 e 48. Il corollario è che il tuo campione iniziale avrebbe dovuto essere più grande per aver osservato qualcuno di meno 34 o maggiore di 46.
Risposta
” Tre dev. St includono il 99,7% dei dati “
È necessario aggiungere alcuni avvertimenti a tale dichiarazione.
La cosa del 99,7% è un dato di fatto sulle distribuzioni normali : il 99,7% dei valori della popolazione si troverà entro tre deviazioni standard della popolazione dalla media della popolazione.
In grandi campioni * da un distribuzione normale, di solito è approssimativamente il caso: circa il 99,7% dei dati sarebbe entro tre deviazioni standard campionarie della media campionaria (se campionavi da una distribuzione normale, il tuo campione dovrebbe essere abbastanza grande da essere approssimativamente vero – sembra che ci sia una probabilità del 73% di ottenere $ 0,9973 \ pm 0,0010 $ con un campione di quella dimensione).
* assumendo un campionamento casuale
Ma non hai un campione da una distribuzione normale.
Se non metti alcune restrizioni sulla forma della distribuzione, la proporzione effettiva entro 3 deviazioni standard della media può essere alta o inferiore.
$ \ qquad \ qquad ^ \ text { Esempio di una distribuzione con il 100% della distribuzione entro 2 sds di media} $
La proporzione di una distribuzione entro 3 standard dard deviazioni della media potrebbe essere l88,9%. Potresti richiedere più di 18 deviazioni standard per ottenere il 99,7%. Daltra parte puoi ottenere più del 99,7% entro un buon affare inferiore a una deviazione standard. Quindi la regola empirica del 99,7% non è necessariamente di grande aiuto a meno che non fissi un po la forma della distribuzione.
Se allenti un po le tue aspettative (per essere solo “approssimativamente” 99,7%), allora la regola a volte è utile senza richiedere la normalità fintanto che teniamo presente che non funzionerà sempre in ogni situazione, anche approssimativamente.
Commenti
- Sospetto che il tuo 88,9% provenga da en.wikipedia.org/wiki / Kolmogorov% 27s_inequality . Ero abbastanza bravo al corso di probabilità, ma era molti anni fa.
- @emory Penso che ‘ sia semplicemente chebyshev ‘ s disequality 🙂
- @Ant Grazie. Suona bene. en.wikipedia.org/wiki/Chebyshev%27s_inequality
- Sì, ‘ s Chebyshev ‘ s disuguaglianza.
Risposta
La risposta breve è che il tuo campione non ha seguito precisamente una distribuzione normale, quindi suggerisce che forse potresti dover riesaminare le tue ipotesi di base, in particolare quella che puoi applicare strumenti progettati per lavorare con una popolazione normalmente distribuita.
Basta gira la tua domanda dallaltra parte per lilluminazione. Se il tuo campione fosse distribuito normalmente, ci si aspetterebbe che una dimensione del campione di ~ 2000 restituisca 6 punti dati al di fuori dellintervallo 30-48, in media. Il tuo no, il che segnala una domanda “Qual è il significato di questa deviazione dal normale per qualsiasi previsione che fai supponendo che la tua popolazione più ampia stia seguendo una distribuzione normale?”
Quindi limplicazione più ampia di questa piccola anomalia è che, sebbene il tuo campione possa non differire molto da una distribuzione normale, alcune previsioni fatte supponendo che rappresenti una popolazione più grande normalmente distribuita potrebbero essere intrinsecamente errate e potrebbero garantire alcune precisazioni o ulteriori indagini. Tuttavia, stimare la probabilità di questa deviazione dal normale, i margini di errore impliciti e laffidabilità delle previsioni risultanti è ben oltre il mio livello di abilità, sebbene fortunatamente esplorato nelle molte altre risposte qui!
Ma hai chiaramente una buona abitudine di esaminare i tuoi risultati per intero, di mettere in discussione cosa significano veramente i tuoi risultati e se dimostrano o meno la tua ipotesi originale. Cerca ulteriori anomalie rivelate nei dati, come Kurtosis e Skew per vedere quali indizi rivelano o forse considerano altre distribuzioni che rappresentano meglio la tua popolazione.
Commenti
- Questo o semplicemente per pura casualità, ci non erano punti dati nellintervallo.
Risposta
“Three st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) include il 99,7% dei dati “si riferisce alle distribuzioni gaussiane. Per le distribuzioni in generale, la disuguaglianza di Chebyshev pone un limite inferiore alla quantità di massa di probabilità entro $ k $ della media. Ma esiste un limite superiore?
Con una distribuzione di Bernoulli con $ p $ = .5, $ \ sigma $ è .5. Anche la media $ \ mu $ è .5, il che significa che il 100% della distribuzione è entro $ 1 \ sigma $ o $ \ mu $. Che dire dei numeri più piccoli di deviazioni standard ?
Nota: il seguente, per semplicità è un argomento riguardante le distribuzioni con $ \ mu = 0 $. La sua estensione alla distribuzione con $ \ mu $ arbitrario è ragionevolmente banale.
Dato qualsiasi $ \ varepsilon $ e $ M $ positivo, esiste una distribuzione tale da avere $ \ varepsilon / 2 $ massa di probabilità $ \ leftarrow M $ e $ \ varepsilon / 2 $ massa di probabilità $ \ gt M $.
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
A parità di condizioni, da $ M \ a \ infty $, poi $ \ sigma \ a \ infty $. Tuttavia, per ogni $ N $ positivo fisso, una volta che $ M $ supera $ N $, la massa di probabilità entro $ N $ da zero è sempre $ 1- \ varepsilon $, re indipendentemente da $ M $. Quindi, se guardiamo la distanza relativa da zero (cioè il numero di deviazioni standard il valore è $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), allora come $ M \ a \ infty $, abbiamo da $ n \ a \ infty $, dove $ n $ è il numero intero più grande in modo tale che “$ 1- \ varepsilon $ della probabilità è compreso tra $ n \ sigma $ di $ \ mu $” è vero.
Questo mostra che per qualsiasi numero positivo $ \ varepsilon $ e $ n $, esiste una distribuzione tale che la probabilità di essere più di $ n \ sigma $ da zero sia inferiore a $ \ varepsilon $. Quindi, ad esempio, se vuoi una probabilità del 99,999% di essere inferiore a .000001 $ \ sigma $ da zero, cè una distribuzione che lo soddisfa.