A medida que aumenta el tamaño de la muestra (por ejemplo, una estrategia comercial con una ventaja del 80%), ¿por qué el estándar la desviación de los resultados se reduce? ¿Alguien podría explicar por qué la desviación estándar se hace más pequeña y los resultados se acercan más a la media real … quizás proporcione un ejemplo matemático simple e intuitivo?
Comentarios
- Posible duplicado de ¿Qué explicación intuitiva hay para el teorema del límite central?
- » La desviación estándar de los resultados » es ambigua (¿qué resultados?) – y por lo que la declaración muy general en el título es estrictamente falsa (existen contraejemplos obvios; es ‘ sólo algunas veces cierto). Podría ser mejor especificar un ejemplo en particular (como la distribución muestral de las medias muestrales, que tiene la propiedad de que la desviación estándar disminuye a medida que aumenta el tamaño de la muestra).
- La desviación estándar no ‘ t necesariamente disminuye a medida que aumenta el tamaño de la muestra. Sin embargo, el error estándar de la media es que quizás ‘ es lo que ‘ referencia, en ese caso estamos más seguros de dónde la media es cuando aumenta el tamaño de la muestra.
- Sí, debí haber querido decir error estándar en su lugar. ¿Por qué disminuye el error muestral de la media? ¿Puede proporcionar algunas matemáticas simples y no abstractas para mostrar visualmente por qué? ¿Por qué obtenemos ‘ más seguros ‘ donde la media es a medida que aumenta el tamaño de la muestra (en mi caso, los resultados en realidad son una representación más cercana a una tasa de ganancia del 80%) ¿cómo ocurre esto?
Responder
A medida que aumenta el tamaño de la muestra (por ejemplo, una estrategia comercial con una ventaja del 80%), ¿por qué la desviación estándar de los resultados se reduce?
El concepto clave aquí es «resultados». ¿Cuáles son estos resultados ? Los resultados son las varianzas de los estimadores de parámetros de población como la media $ \ mu $.
Por ejemplo, si está midiendo la varianza muestral $ s ^ 2_j $ de valores $ x_ {i_j} $ en su muestra $ j $, no se vuelve más pequeño con un tamaño de muestra más grande $ n_j $: $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j} – \ bar x_j) ^ 2 $$ donde $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $ es una media muestral.
Sin embargo, el estimador de la varianza $ s ^ 2_ \ mu $ de una media muestral $ \ bar x_j $ disminuirá con el tamaño de la muestra: $$ \ frac 1 n_js ^ 2_j $$
La explicación simple es la siguiente. Suponga que el tamaño total de la población es $ n $. Si miramos todos los valores $ x_ {j = 1 \ dots n} $, nuestra media muestral habría sido igual a la media verdadera: $ \ bar x_j = \ mu $. En otras palabras, la incertidumbre sería cero y la varianza del estimador también sería cero: $ s ^ 2_j = 0 $
Sin embargo, cuando solo está mirando la muestra de tamaño $ n_j $ . Calcula el estimador de media muestral $ \ bar x_j $ con incertidumbre $ s ^ 2_j > 0 $. Entonces, en algún lugar entre el tamaño de muestra $ n_j $ y $ n $ la incertidumbre (varianza ) de la media muestral $ \ bar x_j $ disminuyó de un valor distinto de cero a cero. Esa es la explicación más simple que se me ocurre.
Respuesta
Quizás la forma más fácil de pensar en ello es con respecto a la diferencia entre una población y una muestra. Si te pregunto cuál es la media de una variable en tu muestra , no me das una estimación, ¿verdad? Calcúlala y dímelo, porque, por definición, tienes todas los datos que componen la muestra y por lo tanto pueden observar directamente la estadística de interés. Los coeficientes de correlación no son diferentes en este sentido: si le pregunto cuál es la correlación entre X e Y en su muestra , y Claramente, no le importa lo que sea fuera de la muestra y en la población más grande (real o metafísica) de la que se extrae, entonces simplemente haga cálculos y dígame, no hay teoría de probabilidad involucrada.
Ahora bien, ¿qué pasa si nos importa la correlación entre estas dos variables fuera de la muestra, es decir, en alguna población no observada o en la dinámica causal de la realidad no observable y, en cierto sentido, constante? (Si la concebimos como la última entonces la población es una «superpoblación»; consulte, por ejemplo, https://www.jstor.org/stable/2529429 .) Luego, por supuesto, hacemos pruebas de significación y, de lo contrario, usamos lo que sabemos, en la muestra, para estimar lo que no sabemos, en la población, incluida la desviación estándar de la población que comienza a llegar a tu pregunta.
Pero primero pensemos desde el otro extremo, donde reunimos una muestra que es tan grande que simplemente se convierte en la población.Imagínese los datos del censo si la pregunta de investigación es sobre toda la población real del país, o tal vez es una teoría científica general y tenemos una «muestra» infinita: entonces, nuevamente, si quiero saber cómo funciona el mundo, aprovecho mi omnipotencia y simplemente calcular, en lugar de simplemente estimar, mi estadística de interés. ¿Qué sucede si luego tengo un pedo cerebral y ya no soy omnipotente, pero todavía estoy cerca de él, de modo que me falta una observación y mi muestra ahora está a una observación menos de capturar a toda la población? Ahora necesito hacer estimaciones nuevamente, con un rango de valores que podría tomar con diferentes probabilidades (ya no puedo identificarlo), pero lo que estoy estimando sigue siendo, en realidad, un solo número, un punto en el número. línea, no un rango, y todavía tengo toneladas de datos, por lo que puedo decir con un 95% de confianza que la verdadera estadística de interés se encuentra en algún lugar dentro de un rango muy pequeño. Todo depende, por supuesto, de cuál es el valor de ese La última observación resulta ser, pero es solo una observación, por lo que tendría que ser locamente fuera de lo común para cambiar mucho mi estadística de interés, lo que, por supuesto, es poco probable y se refleja en mi estrecho intervalo de confianza.
La otra cara de esta moneda cuenta la misma historia: la montaña de datos que tengo podría, por pura coincidencia, llevarme a calcular estadísticas de muestra que son muy diferentes de las que calcularía si podría simplemente aumentar esos datos con las observaciones que me faltan, pero las probabilidades de tener extraídas de una muestra tan engañosa y sesgada puramente por casualidad son realmente muy bajas. Eso es básicamente lo que estoy explicando y comunicando cuando informo mi intervalo de confianza muy estrecho sobre dónde se encuentra realmente la estadística de población de interés.
Ahora, si caminamos hacia atrás desde allí, por supuesto, la confianza comienza disminuir y, por lo tanto, el intervalo de valores de población plausibles, sin importar dónde se encuentre ese intervalo en la recta numérica, comienza a ampliarse. Mi muestra sigue siendo determinista como siempre, y puedo calcular las medias y correlaciones de la muestra, y puedo tratar esas estadísticas como si fueran afirmaciones sobre lo que estaría calculando si tuviera datos completos sobre la población, pero cuanto más pequeña es la muestra, más escéptico debo ser acerca de esas afirmaciones, y más credibilidad tengo que dar a la posibilidad de que Realmente vería que los datos de población estarían muy lejos de lo que veo en esta muestra. Así que todo esto es para responder a su pregunta al revés: nuestras estimaciones de cualquier estadística fuera de la muestra se vuelven más confiables y convergen en un solo punto , representante resentir cierto conocimiento con datos completos, por la misma razón que se vuelven menos seguros y tienen un rango más amplio cuanto menos datos tenemos.
También es importante comprender que la desviación estándar de una estadística se refiere específicamente y cuantifica las probabilidades de obtener diferentes estadísticas de muestra en diferentes muestras, todas extraídas al azar de la misma población, que, nuevamente, tiene un solo valor verdadero para esa estadística de interés. No hay ninguna desviación estándar de esa estadística en la población misma: es un número constante y no varía. Una variable, por otro lado, tiene una desviación estándar propia, tanto en la población como en cualquier muestra dada, y luego está la estimación de esa desviación estándar de la población que puede hacer dado la desviación estándar conocida de esa variable dentro de una muestra dada de un tamaño dado. Por lo tanto, es importante mantener todas las referencias rectas, cuando puede tener una desviación estándar (o más bien, un error estándar) alrededor de una estimación puntual de una población la desviación estándar de la variable, basada en la desviación estándar de esa variable en su muestra. Simplemente no hay una forma más sencilla de hablar de ello.
Y, por último, tenga en cuenta que, sí, ciertamente es posible para una muestra para darle una representación sesgada de las varianzas en la población, por lo que, aunque es relativamente poco probable, siempre es posible que una muestra más pequeña no solo le mienta sobre la estadística de población de interés, sino que también le mienta sobre cuánto debe esperar que la estadística de interés varíe de la muestra le para muestrear. No hay forma de evitar eso. Piense en ello como si alguien hace un reclamo y luego le pregunta si está mintiendo. Tal vez digan que sí, en cuyo caso puedes estar seguro de que no te están diciendo nada que valga la pena considerar. Pero si dicen que no, estás de vuelta en el punto de partida. O están mintiendo o no, y si no tienes a nadie más a quien preguntar, solo tienes que elegir si les crees o no. (Los bayesianos parecen pensar que tienen una mejor manera de tomar esa decisión, pero yo no estoy de acuerdo).