Con laumentare della dimensione del campione, perché la deviazione standard dei risultati si riduce? Qualcuno può fornire un esempio per laico e spiegare perché

Con laumentare della dimensione del campione (ad esempio, una strategia di trading con un vantaggio dell80%), perché lo standard la deviazione dei risultati si riduce? Qualcuno può spiegare perché la deviazione standard si riduce e i risultati si avvicinano alla vera media … forse fornire un esempio matematico semplice, intuitivo e profano.

Commenti

  • Possibile duplicato di Quale spiegazione intuitiva cè per il teorema del limite centrale?
  • ” La deviazione standard dei risultati ” è ambigua (quali risultati ??) – e quindi laffermazione molto generale nel titolo è rigorosamente falsa (esistono ovvi controesempi; ‘ è vero solo a volte). Potrebbe essere meglio specificare un esempio particolare (come la distribuzione campionaria delle medie campionarie, che ha la proprietà che la deviazione standard diminuisce allaumentare della dimensione del campione).
  • La deviazione standard non ‘ t diminuisce necessariamente allaumentare della dimensione del campione. Lerrore standard della media fa tuttavia, forse che ‘ è ciò a cui ‘ stai facendo riferimento, in tal caso siamo più certi dove significa che la dimensione del campione aumenta.
  • Sì, devo aver inteso invece lerrore standard. Perché lerrore campionario della media diminuisce? Puoi fornire una matematica semplice e non astratta per mostrare visivamente il motivo. Perché otteniamo ‘ più certi ‘ dove la media è allaumentare della dimensione del campione (nel mio caso, i risultati sono effettivamente una rappresentazione più vicina una percentuale di vittorie dell80%) come si verifica?

Rispondi

Con laumentare della dimensione del campione (ad esempio, una strategia di trading con un vantaggio dell80%), perché la deviazione standard dei risultati si riduce?

Il concetto chiave qui è “risultati”. Quali sono questi risultati ? I risultati sono le varianze degli stimatori dei parametri della popolazione come la media $ \ mu $.

Ad esempio, se stai misurando la varianza campionaria $ s ^ 2_j $ dei valori $ x_ {i_j} $ nel campione $ j $, non diminuisce con una dimensione del campione maggiore $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$ dove $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ è una media campione.

Tuttavia, lo stimatore della varianza $ s ^ 2_ \ mu $ di un campione significa $ \ bar x_j $ diminuirà con la dimensione del campione: $$ \ frac 1 n_js ^ 2_j $$

La spiegazione laica è questa. Supponiamo che lintera dimensione della popolazione sia $ n $. Se guardassimo ogni valore $ x_ {j = 1 \ dots n} $, la nostra media campione sarebbe stata uguale alla vera media: $ \ bar x_j = \ mu $. In altre parole, lincertezza sarebbe zero e anche la varianza dello stimatore sarebbe zero: $ s ^ 2_j = 0 $

Tuttavia, quando stai guardando solo il campione di dimensione $ n_j $ . Calcoli lo stimatore della media campionaria $ \ bar x_j $ con incertezza $ s ^ 2_j > 0 $. Quindi, da qualche parte tra la dimensione del campione $ n_j $ e $ n $ lincertezza (varianza ) del campione significa che $ \ bar x_j $ è diminuito da diverso da zero a zero. Questa è la spiegazione più semplice che posso trovare.

Risposta

Forse il modo più semplice per pensarci è per quanto riguarda la differenza tra una popolazione e un campione. Se ti chiedo qual è la media di una variabile nel tuo campione , non mi dai una stima, vero? Calcolala e dimmi, perché, per definizione, hai tutto i dati che compongono il campione e possono quindi osservare direttamente la statistica di interesse. I coefficienti di correlazione non sono diversi in questo senso: se ti chiedo quale sia la correlazione tra X e Y nel tuo campione , e io chiaramente non si preoccupa di ciò che è al di fuori del campione e nella popolazione più ampia (reale o metafisica) da cui è tratto, quindi basta sgranocchiare i numeri e dimmi che non è coinvolta alcuna teoria della probabilità.

Ora, cosa succede se ci interessa la correlazione tra queste due variabili al di fuori del campione, cioè in una popolazione non osservata o nelle dinamiche causali non osservabili e in un certo senso costanti della realtà? (Se “riusciamo a concepirla come la seconda allora la popolazione è una “superpopolazione”; vedi ad esempio https://www.jstor.org/stable/2529429 .) Quindi ovviamente eseguiamo test di significatività e altrimenti usiamo ciò che sappiamo, nel campione, per stimare ciò che non facciamo, nella popolazione, inclusa la deviazione standard della popolazione che inizia ad arrivare a la tua domanda.

Ma prima pensiamoci dallaltro estremo, dove raccogliamo un campione che è così grande da diventare semplicemente la popolazione.Immagina i dati del censimento se la domanda di ricerca riguarda lintera popolazione reale del paese, o forse “una teoria scientifica generale e abbiamo un” campione “infinito: allora, di nuovo, se voglio sapere come funziona il mondo, faccio leva la mia onnipotenza e calcola semplicemente, piuttosto che semplicemente stimare, la mia statistica di interesse. E se poi avessi un brainfart e non fossi più onnipotente, ma gli fossi ancora vicino, così che mi manchi unosservazione e il mio campione è ora a meno di unosservazione per catturare lintera popolazione? Ora ho bisogno di fare nuovamente delle stime, con un intervallo di valori che potrebbe assumere con probabilità variabili – non riesco più a individuarlo – ma la cosa che sto stimando è ancora, in realtà, un singolo numero – un punto sul numero linea, non un intervallo – e ho ancora tonnellate di dati, quindi posso dire con una certezza del 95% che la vera statistica di interesse si trova da qualche parte allinterno di un intervallo molto piccolo. Tutto dipende ovviamente da quale sia il valore (i) di quello lultima osservazione è, ma è solo unosservazione, quindi dovrebbe essere follemente fuori dallordinario per cambiare molto la mia statistica di interesse, il che, ovviamente, è improbabile e si riflette nel mio stretto intervallo di confidenza.

Laltro lato di questa medaglia racconta la stessa storia: la montagna di dati che ho potrebbe, per pura coincidenza, portarmi a calcolare statistiche campione che sono molto diverse da quelle che calcolerei se potrebbe semplicemente aumentare quei dati con le osservazioni che mi mancano, ma le probabilità di averlo disegnato per puro caso un campione così fuorviante e parziale sono davvero, davvero bassi. Questo è fondamentalmente ciò di cui tengo conto e comunico quando riporto il mio intervallo di confidenza molto ristretto su dove si trova realmente la statistica della popolazione di interesse.

Ora, se procediamo a ritroso da lì, ovviamente, la fiducia inizia per diminuire, e quindi lintervallo dei valori plausibili della popolazione, indipendentemente da dove si trova tale intervallo sulla linea numerica, inizia ad allargarsi. Il mio campione è ancora deterministico come sempre e posso calcolare le medie e le correlazioni del campione e posso trattare quelle statistiche come se fossero affermazioni su ciò che avrei calcolato se avessi dati completi sulla popolazione, ma più piccolo è il campione, più scettico devo essere su tali affermazioni e più credito devo dare alla possibilità che ciò che Vorrei davvero vedere nei dati sulla popolazione che sarebbero molto diversi da quello che vedo in questo campione. Quindi tutto questo è per rispondere alla tua domanda al contrario: le nostre stime di tutte le statistiche fuori campione diventano più sicure e convergono su un unico punto , rappresentante risentirsi di certe conoscenze con dati completi, per lo stesso motivo per cui diventano meno certi e variano tanto quanto meno dati abbiamo.

È anche importante capire che la deviazione standard di una statistica specifica e quantifica le probabilità di ottenere statistiche campionarie diverse in campioni diversi, tutte estratte casualmente dalla stessa popolazione, che, ancora una volta, ha un solo valore reale per quella statistica di interesse. Non vi è alcuna deviazione standard di quella statistica nella popolazione stessa – è un numero costante e non varia. Una variabile, daltra parte, ha una deviazione standard tutta sua, sia nella popolazione che in un dato campione, e poi cè la stima di quella deviazione standard della popolazione che puoi fare data la deviazione standard nota di quella variabile allinterno di un dato campione di una data dimensione. Quindi è importante mantenere tutti i riferimenti diretti, quando puoi avere una deviazione standard (o meglio, un errore standard) attorno a una stima puntuale di una popolazione deviazione standard della variabile, basata sulla deviazione standard di quella variabile nel tuo campione. Non esiste un modo più semplice per parlarne.

Infine, nota che sì, è certamente possibile per un campione per darti una rappresentazione parziale delle varianze nella popolazione, quindi, sebbene sia relativamente improbabile, è sempre possibile che un campione più piccolo non ti menti solo sulla statistica della popolazione di interesse, ma ti menti anche su quanto dovresti aspettarti che quella statistica di interesse vari da samp le da campionare. Non cè modo di aggirarlo. Pensa come se qualcuno facesse un reclamo e poi gli chiedi se sta mentendo. Forse dicono di sì, nel qual caso puoi essere certo che “non ti stanno dicendo nulla che valga la pena prendere in considerazione. Ma se dicono di no” sei tornato al punto di partenza. O “mentono o non lo sono”, e se non hai nessun altro a cui chiedere, devi solo scegliere se credergli o meno. (I bayesiani sembrano pensare di avere un modo migliore per prendere questa decisione, ma io sono umilmente in disaccordo.)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *