¿Cuál es el significado de los valores py los valores t en las pruebas estadísticas?

Después de tomar un curso de estadística y luego tratar de ayudar a otros estudiantes, noté que una asignatura que inspira muchos golpes de cabeza es la interpretación de los resultados de las pruebas de hipótesis estadísticas . Parece que los estudiantes aprenden fácilmente cómo realizar los cálculos requeridos por una prueba determinada, pero se obsesionan con la interpretación de los resultados. Muchas herramientas computarizadas informan los resultados de las pruebas en términos de «valores p» o «valores t».

¿Cómo explicaría los siguientes puntos a los estudiantes universitarios que toman su primer curso de estadística?

  • ¿Qué significa un «valor p» en relación con la hipótesis que se está probando? ¿Hay casos en los que uno debería buscar un valor p alto o un valor p bajo?

  • ¿Cuál es la relación entre un valor p y un valor t?

Comentarios

  • Una buena parte de esto está básicamente cubierta por la primera oración del artículo de wikipedia sobre valores p , que define correctamente un valor p. Si eso ‘ s entendido, mucho queda claro.
  • Solo obtenga el libro: Estadísticas sin lágrimas. ¡¡Podría salvar su cordura !!
  • @ user48700 ¿Podría resumir cómo Estadísticas sin lágrimas explica esto?
  • Alguien debería dibujar una gráfica de p-valor relacionado preguntas a lo largo del tiempo y apuesto a que ‘ veremos la estacionalidad y la correlación con los calendarios académicos en las universidades o en las clases de ciencia de datos de Coursera
  • Además de otros libros interesantes y relevantes recomendaciones en las respuestas y comentarios, me gustaría sugerir otro libro, apropiadamente llamado » ¿Qué es un valor p de todos modos? » .

Respuesta

Comprender $ p $ -value

Suponga que desea probar la hipótesis de que la estatura promedio de los estudiantes varones en su universidad es $ 5 $ ft $ 7 $ pulgadas. Recolecta las alturas de $ 100 $ estudiantes seleccionados al azar y calcula la media de la muestra (digamos que resulta ser $ 5 $ ft $ 9 $ pulgadas). Usando una fórmula / rutina estadística apropiada, calcula el valor $ p $ para su hipótesis y dice que resulta ser $ 0.06 $ .

Para interpretar $ p = 0.06 $ de manera adecuada, debemos tener en cuenta varias cosas:

  1. El primer paso bajo la prueba de hipótesis clásica es la suposición de que la hipótesis en consideración es verdadera. (En nuestro contexto, asumimos que la true altura promedio es $ 5 $ ft $ 7 $ pulgadas.)

  2. Imagine hacer el siguiente cálculo: Calcule la probabilidad de que la media de la muestra es mayor que $ 5 $ ft $ 9 $ pulgadas asumiendo que nuestra hipótesis es de hecho correcta (ver punto 1) .

En otras palabras, queremos saber $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {pulgadas} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { pulgadas}). $$

El cálculo en el paso 2 es lo que se llama $ p $ -valor. Por lo tanto, un $ p $ -valor de $ 0.06 $ significaría que si repitiéramos nuestro experimento muchos , muchas veces (cada vez que seleccionamos $ 100 $ estudiantes al azar y calculamos la media de la muestra) y luego $ 6 $ tiempos de $ 100 $ podemos esperar ver una media de muestra mayor o igual a $ 5 $ ft $ 9 $ pulgadas.

Dada la comprensión anterior, ¿deberíamos mantener nuestra suposición de que nuestra hipótesis es verdadera (ver paso 1)? Bueno, un $ p = 0.06 $ indica que ha sucedido una de dos cosas:

  • (A) O nuestra hipótesis es correcta y ha ocurrido un evento extremadamente improbable (por ejemplo, todos los estudiantes de $ 100 $ son estudiantes atletas)

o

  • (B) Nuestra suposición es incorrecta y la muestra que hemos obtenido no es tan inusual.

La forma tradicional de elegir entre (A) y (B) es elegir una límite para $ p $ . Elegimos (A) si $ p > 0.05 $ y (B) if $ p < 0.05 $ .

Comentarios

  • ¡Tómate tu tiempo! Gané ‘ no pensar en seleccionar una » Mejor respuesta » durante una semana o entonces.
  • Ahora que ‘ he tenido la oportunidad de volver y leer la respuesta completa, un +1 grande para el ejemplo de la altura del estudiante. Muy claro y bien diseñado.
  • Buen trabajo … pero necesitamos agregar (C) nuestro modelo (incorporado en la fórmula / rutina estadística) está equivocado.
  • A t -valor (o cualquier otra estadística de prueba) es principalmente un paso intermedio. Es ‘ básicamente una estadística que se ha probado, bajo algunos supuestos, que tiene una distribución bien conocida. Como conocemos la distribución de la estadística de prueba bajo el valor nulo, podemos usar tablas estándar (hoy en día principalmente software) para derivar un valor p.
  • Isn ‘ t el valor p derivado como resultado de hacer la prueba de chi-cuadrado y luego de la tabla de chi-cuadrado? ¡Me pregunto cómo es que la probabilidad calculada anteriormente indica el valor p en sí mismo!

Responder

Un diálogo entre un profesor y un alumno reflexivo

Presentado humildemente en la creencia de que no se han utilizado suficientes crayones hasta ahora en este hilo. Al final aparece una breve sinopsis ilustrada.


Estudiante : ¿Qué significa un valor p? Mucha gente parece estar de acuerdo en que existe la posibilidad de que » veamos una media de muestra mayor o igual que » una estadística o «s » la probabilidad de observar este resultado. .. dado que la hipótesis nula es cierta » o donde » La estadística de mi muestra cayó en una distribución [simulada] » e incluso en » la probabilidad de observar una estadística de prueba al menos tan grande como la calculada asumiendo que la hipótesis nula es verdadera » .

Maestro : Bien entendido, todas esas declaraciones son correctas en muchas circunstancias.

Estudiante : No veo cómo la mayoría de ellas son relevantes. ¿No nos enseñó que tenemos que enunciar una hipótesis nula $ H_0 $ y una hipótesis alternativa $ H_A $ ? ¿Cómo están involucrados en estas ideas de » mayor o igual que » o » al menos tan grande » o el muy popular » más extremo «?

Profesor : Debido a que puede parecer complicado en general, ¿nos ayudaría explorar un ejemplo concreto?

Estudiante : Claro. Pero, si puede, hágalo realista pero simple.

Maestro : Esta teoría de la prueba de hipótesis comenzó históricamente con la necesidad de los astrónomos de analizar los errores de observación, por lo que qué tal empezar por ahí. Un día estaba revisando unos documentos antiguos donde un científico describía sus esfuerzos para reducir el error de medición en su aparato. Había tomado muchas medidas de una estrella en una posición conocida y registraron sus desplazamientos delante o detrás de esa posición. Para visualizar esos desplazamientos, dibujó un histograma que, cuando se suavizó un poco, se parecía a este.

Figura 1: Histograma de desplazamientos

Estudiante : Recuerdo cómo funcionan los histogramas: el eje vertical está etiquetado como » Densidad » para recordarme que las frecuencias relativas de las medidas están representadas por área en lugar de altura.

Maestro : Eso es correcto. Un » un valor » o » extremo » inusual sería estar ubicado en una región con un área bastante pequeña. Aquí «un crayón. ¿Crees que podrías colorear en una región cuya área es solo una décima parte del total?

Estudiante : Seguro; eso «es fácil. [Colores en la figura.]

Figura 2: El estudiante

Profesor : ¡Muy bien! Eso me parece aproximadamente el 10% del área. Sin embargo, recuerde que las únicas áreas del histograma que importan son las que están entre las líneas verticales: representan la probabilidad o > probabilidad de que el desplazamiento se ubique entre esas líneas en el eje horizontal. Eso significa que necesita colorear todo el camino hacia abajo y eso sería más de la mitad del área, no «¿Verdad?

Estudiante : Oh, ya veo. Déjame intentar de nuevo. Voy a querer colorear donde la curva sea realmente baja, ¿no es así? Es más bajo en los dos extremos.¿Tengo que colorear solo un área o estaría bien dividirlo en varias partes?

Profesor : Usar varias partes es una buena idea. ¿Dónde estarían?

Estudiante (señalando): Aquí y aquí. Como este crayón no es muy nítido, utilicé un bolígrafo para mostrarte las líneas que estoy usando.

Figura 3: El estudiante

Maestra : ¡Muy bien! Déjame contarte el resto de la historia. El científico hizo algunas mejoras en su dispositivo y luego tomó medidas adicionales. Escribió que el desplazamiento del primero fue de solo $ 0.1 $ , lo que pensó que era una buena señal, pero siendo un científico cuidadoso, procedió a tomar más medidas como verificación. . Desafortunadamente, esas otras medidas se han perdido (el manuscrito se interrumpe en este punto) y todo lo que tenemos es ese único número, $ 0.1 $ .

Estudiante : Eso es una lástima. ¿Pero no es mucho mejor que la amplia variedad de desplazamientos en su figura?

Maestra : Eso «es la pregunta que me gustaría que respondieras. Para empezar, ¿qué deberíamos plantear como $ H_0 $ ?

Student : Bueno, un escéptico se preguntaría si las mejoras realizadas en el dispositivo tuvieron algún efecto. La carga de la prueba recae en el científico: querría demostrar que el escéptico está equivocado. Eso me hace pensar que la hipótesis nula es algo malo para el científico: dice que todas las nuevas medidas, incluido el valor de $ 0.1 $ que conocemos, deben comportarse como se describe en la primera histograma. O tal vez incluso peor que eso: podrían estar aún más dispersos.

Profesor : G Bueno, lo estás haciendo bien.

Estudiante : Entonces, la alternativa es que las nuevas medidas estén menos distribuidas, ¿verdad?

Profesor : ¡Muy bien! ¿Podría hacerme un dibujo de cómo se vería un histograma con menos extensión? Aquí hay otra copia del primer histograma; puede dibujar sobre él como referencia.

Estudiante (dibujo): Estoy usando un bolígrafo para delinear el nuevo histograma y estoy coloreando el área debajo de él. Lo hice de modo que la mayor parte de la curva esté cerca de cero en el eje horizontal y, por lo tanto, la mayor parte de su área esté cerca de un valor (horizontal) de cero: eso es lo que significa ser menos disperso o más preciso.

Figura 4: El alumno

Profesor : Ese es un buen comienzo. Pero recuerde que un histograma que muestre posibilidades debe tener un área total de $ 1 $ . El área total del primer histograma por lo tanto, es $ 1 $ . ¿Cuánta área hay dentro de su nuevo histograma?

Estudiante : menos de la mitad, creo . Veo que «es un problema, pero no sé cómo solucionarlo. ¿Qué debo hacer?

Profesor : El truco consiste en crear el nuevo histograma más alto que el antiguo, de modo que su total l área es $ 1 $ . Aquí, le mostraré una versión generada por computadora para ilustrar.

Figura 5: El maestro

Estudiante : Ya veo: lo estiró verticalmente para que su forma no cambiara realmente, pero ahora el área roja y el área gris (incluida la parte debajo del rojo) son las mismas cantidades.

Profesor : Correcto. Estás viendo una imagen de la hipótesis nula (en azul, extendida) y parte de la hipótesis alternativa (en rojo, con menos extensión).

Estudiante : ¿Qué quiere decir con » parte » de la alternativa? ¿No es sólo la hipótesis alternativa?

Profesor : Los estadísticos y la gramática no parecen mezclarse. 🙂 En serio, lo que quieren decir con una » hipótesis » suele ser un gran conjunto de posibilidades. Aquí, la alternativa (como dijiste tan bien antes) es que las medidas estén » menos distribuidas » que antes. ¿Pero cuánto menos ? Hay muchas posibilidades. Déjame mostrarte otro. Lo dibujé con rayas amarillas. Está entre los dos anteriores.

Figura 6: El nulo junto con dos elementos de la alternativa

Estudiante : Ya veo: puede tener diferentes cantidades de propagación pero no sabe de antemano cuánto será realmente la propagación. Pero, ¿por qué hiciste el sombreado divertido en esta imagen?

Profesor : Quería resaltar dónde y cómo difieren los histogramas. Los sombreé en gris donde los histogramas alternativos son más bajos que el nulo y en rojo donde las alternativas son más altas .

Estudiante : ¿Por qué importa eso?

Maestra : ¿Recuerdas cómo coloreaste el primer histograma en ambas colas? [Mirando los papeles.] Ah, aquí está.Coloreemos esta imagen de la misma manera.

Figura 7: El color nulo y alternativo.

Estudiante : Recuerdo: esos son los valores extremos. Encontré los lugares donde la densidad nula era lo más pequeña posible y coloreada en el 10% del área allí.

Maestra : Hábleme de las alternativas en esas áreas extremas.

Estudiante : «Es difícil de ver, porque el crayón lo cubrió, pero parece que está allí» Casi no hay posibilidad de que haya ninguna alternativa en las áreas que coloreé. Sus histogramas están justo contra el eje de valores y no hay espacio para ningún área debajo de ellos.

Profesor : Continuemos con ese pensamiento. Si te dijera, hipotéticamente, que una medida tiene un desplazamiento de $ – 2 $ y te pidiera que elijas cuál de estos tres histogramas era el que probablemente provenía, ¿cuál sería?

Estudiante : El primero, el azul. Es el más extendido y es el único en el que $ – 2 $ parece tener alguna posibilidad de ocurrir.

Profesor : ¿Y qué hay del valor de $ 0.1 $ en el manuscrito?

Estudiante : Hmmm … eso es diferente historia. Los tres histogramas están bastante por encima del suelo en $ 0.1 $ .

Profesor : Bien, bastante. Pero supongamos que te dije que el valor estaba en algún lugar cercano a $ 0.1 $ , como entre $ 0 $ y $ 0.2 $ . ¿Eso te ayuda a leer algunas probabilidades de estos gráficos?

Estudiante : Claro, porque puedo usar áreas. Solo tengo que estimar las áreas debajo de cada curva entre $ 0 $ y $ 0.2 $ . Pero eso parece bastante difícil.

Maestro : No es necesario que vayas tan lejos. ¿Puedes decir qué área es la más grande?

Estudiante : El que está debajo de la curva más alta, por supuesto. Las tres áreas tienen la misma base, por lo que cuanto más alta es la curva, más área hay debajo de ella y la base. Eso significa que el histograma más alto: el que dibujé, con guiones rojos, es el más probable para un desplazamiento de $ 0.1 $ . Creo que veo a dónde vas con esto, pero «Estoy un poco preocupado: ¿no tengo que mirar todos los histogramas de todas las alternativas, no solo una o dos que se muestran aquí? ¿Cómo podría hacer eso?

Profesor : Eres bueno para captar patrones, así que dime: a medida que el aparato de medición se hace cada vez más preciso, ¿qué sucede con ¿Su histograma?

Estudiante : Se vuelve más estrecho, oh, y también tiene que ser más alto, por lo que su área total permanece igual. Eso hace que sea bastante difícil comparar los histogramas. Los alternativos son todos más altos que el nulo justo en $ 0 $ , eso es obvio. Pero en otros valores, a veces las alternativas son más altas y, a veces, ¡más bajas! Por ejemplo, [apuntando a un valor cerca de $ 3/4 $ ], aquí mismo mi histograma rojo es el más bajo, el histograma amarillo es el más alto, y el histograma nulo original está entre ellos. Pero a la derecha, el nulo es el más alto.

Profesor : En general, comparar histogramas es un asunto complicado. Para ayudarnos a hacerlo, le pedí a la computadora que hiciera otro gráfico: ha dividido cada una de las alturas alternativas del histograma (o » densidades «) por la altura del histograma nulo, creando valores conocidos como » razones de verosimilitud. » Como resultado , un valor mayor que $ 1 $ significa que la alternativa es más probable, mientras que un valor menor que $ 1 $ significa la alternativa es menos probable. Ha elaborado una alternativa más: está más extendido que los otros dos, pero aún menos extendido que el aparato original.

Figura 8: Razones de probabilidad

Profesor (continuando): ¿Podría mostrarme dónde tienden a ser más probables las alternativas que las nulas?

Estudiante (coloreando): Aquí en el medio, obviamente. Y debido a que estos ya no son histogramas, supongo que deberíamos mirar las alturas en lugar de las áreas, así que solo estoy marcando un rango de valores en el eje horizontal. Pero, ¿cómo sé cuánto del medio para colorear? ¿Dónde dejo de colorear?

Figura 9: Gráficos de razón de verosimilitud marcados

Profesor : No hay una regla firme. Todo depende de cómo planeemos usar nuestras conclusiones y cuán feroces sean los escépticos.Pero siéntese y piense en lo que ha logrado: ahora se da cuenta de que los resultados con razones de probabilidad grandes son evidencia de la alternativa y los resultados con razones de probabilidad pequeñas son evidencia en contra de la alternativa . Lo que le pediré que haga es colorear un área que, en la medida de lo posible, tiene una pequeña probabilidad de ocurrir bajo la hipótesis nula y una probabilidad relativamente grande de ocurrir bajo las alternativas. Volviendo al primer diagrama que coloreaste, al principio de nuestra conversación, coloreaste las dos colas del nulo porque eran » extremos. » ¿Seguirían haciendo un buen trabajo?

Estudiante : No lo creo. A pesar de que eran bastante extremos y raros bajo la hipótesis nula, son prácticamente imposibles para cualquiera de las alternativas. Si mi nueva medida fuera, digamos $ 3.0 $ , creo que me pondría del lado del escéptico y negaría que se haya producido alguna mejora, aunque $ 3.0 $ fue un resultado inusual en cualquier caso. Quiero cambiar ese color. Aquí, déjame tener otro crayón.

Figura 10: Marcado mejorado

Profesor : ¿Qué representa eso?

Estudiante : Comenzamos pidiéndome que dibujara solo el 10% del área debajo del histograma original, el que describe el nulo. Así que ahora Dibujé el 10% del área donde parece más probable que ocurran las alternativas. Creo que cuando hay una nueva medida en esa área, nos dice que debemos creer en la alternativa.

Maestro : ¿Y cómo debería reaccionar el escéptico ante eso?

Estudiante : Un escéptico nunca tiene que admitir que está equivocado, ¿verdad? Pero creo que su fe debería temblar un poco. Después de todo, lo organizamos de modo que, aunque una medida podría estar dentro del área que acabo de dibujar, solo tiene un 10% de probabilidad de estar allí cuando el valor nulo sea verdadero. Y tiene una mayor probabilidad de estar ahí cuando la alternativa sea cierta. No puedo decirles cuán es mucho mayor esa posibilidad, porque dependería de cuánto mejoró el científico el aparato. Solo sé que es más grande. Entonces, la evidencia estaría en contra del escéptico.

Maestro : Muy bien. ¿Le importaría resumir su comprensión para que tengamos perfectamente claro lo que ha aprendido?

Estudiante : Aprendí que para comparar hipótesis alternativas con hipótesis nulas, debemos comparar sus histogramas. Dividimos las densidades de las alternativas por la densidad del nulo: así es como llamaste la » razón de verosimilitud. » Para hacer una buena prueba, debería elegir un número pequeño como el 10% o lo que sea suficiente para sacudir a un escéptico. Luego, debería encontrar valores donde la proporción de probabilidad sea lo más alta posible y colorearlos hasta que se haya coloreado el 10% (o lo que sea).

Profesor : ¿Y cómo usaría ¿Ese color?

Estudiante : Como me recordó antes, el color tiene que estar entre líneas verticales. Los valores (en el eje horizontal) que se encuentran debajo del color son evidencia en contra de la hipótesis nula. Otros valores, bueno, es difícil decir lo que podrían significar sin analizar más detalladamente todos los histogramas involucrados.

Profesor : Volviendo al valor de $ 0.1 $ en el manuscrito, ¿qué concluirías?

Estudiante : Eso está dentro del área que coloreé por última vez , así que creo que el científico probablemente tenía razón y el aparato realmente se mejoró.

Maestro : Una última cosa. Su conclusión se basó en elegir el 10% como criterio o el » tamaño » de la prueba. A muchas personas les gusta usar el 5% en su lugar. Algunos prefieren el 1%. ¿Qué podría decirles?

Estudiante : ¡No pude hacer todas esas pruebas a la vez! Bueno, tal vez podría de alguna manera. Puedo ver eso sin importar el tamaño la prueba debería ser, debería empezar a colorear desde $ 0 $ , que es en este sentido el » más extremo » valor y trabajar hacia afuera en ambas direcciones desde allí. Si tuviera que detenerme justo en $ 0.1 $ , el valor realmente observado –Creo que habría coloreado en un área entre $ 0.05 $ y $ 0.1 $ , digamos $ 0.08 $ . Las personas del 5% y 1% se dieron cuenta de inmediato de que coloreé demasiado: si quisieran colorear solo el 5% o el 1%, podrían hacerlo, pero no «No llegue tan lejos como $ 0.1 $ . No llegarían a la misma conclusión que yo: dirían que no hay suficiente evidencia de que realmente haya ocurrido un cambio.

Maestra : Me acaba de decir todo esas citas al principio realmente significan.Debería ser obvio a partir de este ejemplo que no es posible que tengan la intención de » más extremos » o » mayor o igual a » o » al menos tan grande » en el sentido de tener un valor mayor o incluso tener un valor donde la densidad nula es pequeña. Realmente se refieren a estas cosas en el sentido de grandes proporciones de probabilidad que ha descrito. Por cierto, el número alrededor de $ 0.08 $ que calculó se llama » valor p. » Sólo puede entenderse correctamente de la forma que ha descrito: con respecto a un análisis de alturas relativas de histograma – las razones de probabilidad.

Estudiante : Gracias. No estoy seguro de haber entendido completamente todo esto todavía, pero me ha dado mucho en qué pensar.

Maestro : Si desea ir más allá, tome un mire el Lema de Neyman-Pearson . Probablemente ya esté listo para comprenderlo.


Sinopsis

Muchas pruebas que se basan en una única estadística como la del cuadro de diálogo la llamarán » $ z $ » o » $ t $ «. Estas son formas de insinuar cómo se ve el histograma nulo, pero son solo sugerencias: el nombre que le demos a este número realmente no importa. La construcción resumida por el estudiante, como se ilustra aquí, muestra cómo se relaciona con el valor p. El valor p es el tamaño de prueba más pequeño que haría que una observación de $ t = 0.1 $ llevara a un rechazo de la hipótesis nula.

Figura 11: valor p como un área.

En esta figura, que se amplía para mostrar detalles, la hipótesis nula se traza en azul sólido y dos alternativas típicas se trazan con líneas discontinuas. La región donde esas alternativas tienden a ser mucho más grandes que el nulo está sombreada. El sombreado comienza donde las probabilidades relativas de las alternativas son mayores (en $ 0 $ ). El sombreado se detiene cuando se alcanza la observación $ t = 0.1 $ . El valor p es el área de la región sombreada debajo del histograma nulo: es la posibilidad, asumiendo que el nulo es verdadero, de observar un resultado cuyas razones de probabilidad tienden a ser grandes independientemente de qué alternativa sea verdadera. En particular, esta construcción depende íntimamente de la hipótesis alternativa. No se puede llevar a cabo sin especificar las posibles alternativas.


Para dos ejemplos prácticos de la prueba aquí descrita – uno publicado, el otro hipotético – ver https://stats.stackexchange.com/a/5408/919 .

Comentarios

  • Esto tiene manejé de manera excelente mi comentario sobre otra respuesta, que ninguna de las respuestas anteriores a esta pregunta había abordado, en general, el » comúnmente escuchado o más extremo » aspecto de un valor p . (Aunque la » prueba de té » respuesta incluía una buena ejemplo específico.) Admiro particularmente la forma en que este ejemplo se ha construido deliberadamente para resaltar que » más extremo » puede significar todo lo contrario de » más grande » o » más lejos de cero «.
  • Deseo que los maestros y los libros de texto no ‘ t usen la frase » o más extrema «, de verdad. Dos variantes que he escuchado podrían parafrasearse como » más favorables para $ H_1 $ » o » más persuasivo de $ H_1 $ «. En este caso, los valores más cercanos a cero serían más convincentes de que el telescopio se ha vuelto más confiable, pero requiere algunas acrobacias lingüísticas (argumentadas de manera plausible, pero potencialmente confusas) para describirlos como » more extreme «.
  • Excepcionalmente perspicaz como siempre, gracias por tomarse el tiempo para escribir esas respuestas increíblemente útiles. Realmente me pregunto por qué los libros de texto nunca se escriben de una manera que ofrezca estos niveles de claridad e intuición.
  • Es ‘ peligroso usar sarcasmo en un comentario , @baxx, porque ‘ s no hay suficiente espacio que nos permita hacerlo con cortesía y elegancia. Por lo tanto, ‘ no suele ser una buena idea suponer que un comentario es sarcástico a menos que se lo diga explícitamente.Simplemente asuma que los comentarios están destinados a ayudarlo. Si simplemente siguiera el primer resultado en la búsqueda que proporcioné, creo que sus preguntas serían respondidas.
  • ¡Simplemente fantástico! ¡Gracias @whuber!

Responder

Antes de tocar este tema, siempre me aseguro de que los alumnos son felices moviéndose entre porcentajes, decimales, probabilidades y fracciones. Si no están completamente satisfechos con esto, pueden confundirse rápidamente.

Me gusta explicar la prueba de hipótesis por primera vez (y por lo tanto los valores p y las estadísticas de prueba) a través de Fisher » s clásico experimento del té. Tengo varias razones para esto:

(i) Creo que trabajar en un experimento y definir los términos a medida que avanzamos tiene más sentido que simplemente definir todos estos términos para empezar. (ii) No es necesario depender explícitamente de distribuciones de probabilidad, áreas bajo la curva, etc. para superar los puntos clave de la prueba de hipótesis. (iii) Explica esta noción ridícula de «tan o más extremos que los observados» de una manera bastante sensata (iv) Encuentro que a los estudiantes les gusta entender la historia, los orígenes y la historia de fondo de lo que están estudiando ya que lo hace más real que algunas teorías abstractas. (v) No importa de qué disciplina o asignatura provengan los estudiantes, pueden relacionarse con el ejemplo del té (Nota: Algunos estudiantes internacionales tienen dificultades con esta institución peculiarmente británica del té con leche).

[Nota: originalmente obtuve esta idea del maravilloso artículo de Dennis Lindley «El análisis de datos experimentales: la apreciación del té & Vino» en el que demuestra por qué los métodos bayesianos son superiores a métodos clásicos.]

La historia de fondo es que Muriel Bristol visita a Fisher una tarde en la década de 1920 en la Estación Experimental de Rothamsted para tomar una taza de té. Cuando Fisher puso la leche por última vez, se quejó diciendo que podía También diga si la leche se vertió primero (o al final) y que ella prefirió la primera. Para poner esto a prueba, diseñó su clásico experimento del té en el que a Muriel se le presenta un par de tazas de té y ella debe identificar cuál tenía la leche. primero. Esto se repite con seis pares de tazas de té. Su cho Los ices son Correctos (R) o Incorrectos (W) y sus resultados son: RRRRRW.

Suponga que Muriel en realidad solo está adivinando y no tiene la capacidad de discriminar en absoluto. Esto se denomina Hipótesis nula . Según Fisher, el propósito del experimento es desacreditar esta hipótesis nula. Si Muriel está adivinando, identificará la taza de té correctamente con una probabilidad de 0.5 en cada turno y, como son independientes, el resultado observado es 0.5 $ ^ 6 $ = 0.016 (o 1/64). Fisher luego argumenta que:

(a) la hipótesis nula (Muriel está adivinando) es verdadera y ha ocurrido un evento de pequeña probabilidad o,

(b) la hipótesis nula es falsa y Muriel tiene poderes discriminatorios.

El valor p (o valor de probabilidad) es la probabilidad de observar este resultado (RRRRRW) dado que la hipótesis nula es verdadera – es la pequeña probabilidad a la que se hace referencia en (a) , arriba. En este caso, es 0.016. Dado que los eventos con probabilidades pequeñas solo ocurren raramente (por definición), la situación (b) podría ser una explicación más preferible de lo que ocurrió que la situación (a). Cuando rechazamos la hipótesis nula, de hecho estamos aceptando la hipótesis opuesta, que es la que llamamos hipótesis alternativa. En este ejemplo, Muriel tiene poderes discriminatorios es la hipótesis alternativa.

Una consideración importante es qué hacemos como una probabilidad «pequeña»? ¿Cuál es el punto de corte en el que estamos dispuestos a decir que un evento es improbable? El punto de referencia estándar es 5% (0.05) y esto se llama nivel de significancia. Cuando el valor p es menor que el nivel de significancia, rechazamos la hipótesis nula por ser falsa y aceptamos nuestra hipótesis alternativa. Es un lenguaje común afirmar que un resultado es «significativo» cuando el valor p es menor que el nivel de significancia, es decir, cuando la probabilidad de lo que que ocurre cuando la hipótesis nula es verdadera es menor que nuestro punto de corte. Es importante aclarar que usar el 5% es completamente subjetivo (al igual que usar los otros niveles de significancia comunes del 1% y 10%).

Fisher se dio cuenta de que esto no trabaja; cada resultado posible con un par equivocado sugería igualmente poderes discriminatorios. La probabilidad relevante para la situación (a), anterior, es por lo tanto 6 (0.5) ^ 6 = 0.094 (o 6/64) que ahora es no significativo a un nivel de significancia del 5%. Para superar esto, Fisher argumentó que si 1 error en 6 se considera evidencia de poderes discriminatorios, entonces tampoco hay errores, es decirlos resultados que indiquen con más fuerza poderes discriminatorios que el observado deben incluirse al calcular el valor p. Esto resultó en la siguiente enmienda al razonamiento, ya sea:

(a) la hipótesis nula (Muriel está adivinando) es verdadera y la probabilidad de eventos tan extremos como los observados, o más, es pequeña, o

(b) la hipótesis nula es falsa y Muriel tiene poderes discriminatorios.

Volviendo a nuestro experimento del té, encontramos que el valor p bajo esta configuración es 7 (0.5 ) ^ 6 = 0,109 que todavía no es significativo en el umbral del 5%.

Luego hago que los estudiantes trabajen con algunos otros ejemplos, como el lanzamiento de una moneda, para determinar si una moneda es justa o no. Esto muestra los conceptos de hipótesis nula / alternativa, valores p y niveles de significancia. Luego pasamos al caso de una variable continua e introducimos la noción de estadístico de prueba. Como ya hemos cubierto la distribución normal, la distribución normal estándar y la transformación z en profundidad, es simplemente una cuestión de unir varios conceptos.

Además de calcular estadísticas de prueba, valores p y Al tomar una decisión (significativa / no significativa) consigo que los estudiantes trabajen en los artículos publicados en un juego de completar los espacios en blanco que faltan.

Comentarios

  • I Sé que ‘ estoy reviviendo un hilo muy antiguo, pero aquí va … Realmente disfruté tu respuesta, pero extraño la parte del valor t en ella 🙁 ¿Podrías por favor use sus ejemplos para hablar sobre esto. Nadie respondió sobre la parte de la prueba t
  • @sosi Es ‘ s probablemente porque los valores p son mucho más general que los valores t. Es ‘ como hacer una pregunta sobre los coches y luego sobre los frenos de un Ford Fiesta.
  • La respuesta es muy interesante (+ 1), pero algunas cosas se confunden al final. 1. W ¿Qué significa que un valor de $ p $ sea » significativo al nivel del 5% «? O el valor de $ p $ está por debajo del 5% o no lo es. No ‘ no veo el sentido de usar una oración tan oscura, dejando » significado » indefinido. 2. ¿Qué significa » decidir » si un valor de $ p $ es significativo o no? No parece justificado incorporar la teoría de la decisión a la mezcla de esta manera (especialmente porque Fisher fue un fuerte oponente de la aplicación del marco de prueba de Neyman-Pearson en las ciencias).

Respuesta

Ninguna explicación verbal o cálculos me ayudaron a comprender a nivel intuitivo qué eran los valores p, pero realmente se enfocó para mí una vez que tomé un curso que involucraba simulación. Eso me dio la capacidad de ver datos generados por la hipótesis nula y trazar los medios / etc. de muestras simuladas, luego mire dónde cayó la estadística de mi muestra en esa distribución.

Creo que la ventaja clave de esto es que permite a los estudiantes olvidarse de las distribuciones matemáticas y de estadísticas de prueba por un minuto y centrarme en los conceptos en cuestión. Por supuesto, requería que aprendiera cómo simular esas cosas, lo que causará problemas a un grupo de estudiantes completamente diferente. Pero funcionó para mí, y he usado simulación innumerables veces para ayudar a explicar las estadísticas a otros con gran éxito (por ejemplo, «Así es como se ven sus datos; así se ve una distribución de Poisson superpuesta. ¿Está SEGURO de que desea hacer una regresión de Poisson?»).

Esto no responde exactamente a las preguntas que planteó, pero para mí, al menos, las hizo triviales.

Comentarios

  • Estoy totalmente de acuerdo con el uso de la simulación para explicar esto. Pero solo una pequeña nota sobre el ejemplo al final: Encuentro que las personas (no solo los estudiantes) lo encuentran difícil. difícil de distinguir para cualquier supuesto distributivo particular, p. el poisson, entre estar marginalmente distribuido por poisson y condicionalmente distribuido por poisson. Dado que solo lo último es importante para un modelo de regresión, un grupo de valores de variables dependientes que no son ‘ t Poisson no necesariamente deben ser motivo de preocupación.
  • Tengo confesar que no ‘ lo sabía. ‘ realmente he apreciado tus comentarios sobre este sitio durante los últimos días de tu membresía. Espero que ‘ te quedes.
  • @MattParker, ¿conoce algún recurso de aprendizaje centrado en el uso de la simulación para desarrollar la comprensión? ¿O es solo un caso de juntar algunos scripts de Python / R y ejecutar un montón de pruebas?
  • @baxx El [sitio web de Seeing Theory de Daniel Kunin] (Students.brown.edu/seeing-theory/ ) tiene algunas herramientas interesantes para esto, pero ‘ aún está en construcción.De lo contrario, sí, ‘ he experimentado en gran parte con las herramientas integradas de R ‘ para la simulación, utilizándolas para demostrarme a mí mismo cómo algún método funciona, o para ver qué pasaría si un predictor fuera reemplazado por una variable aleatoria, etc. Lo siento, ¡desearía conocer mejores recursos para esto!
  • @MattParker genial gracias. Sí, un poco la gallina y el huevo en eso, para construir los experimentos, usted (¿supongo?) Necesita al menos obtener lo suficiente para escribirlos. Sin embargo, no se preocupe … Sólo revisó el sitio que vinculó, es ‘ agradable, gracias

Responder

Una buena definición de p-valor es «la probabilidad de observar una estadística de prueba al menos tan grande como la calculada asumiendo que la hipótesis nula es verdadera».

El problema con eso es que requiere una comprensión de la «estadística de prueba» y la «hipótesis nula». Pero, eso es fácil de entender. Si la hipótesis nula es cierta, generalmente algo como «el parámetro de la población A es igual al parámetro de la población B», y calcula estadísticas para estimar esos parámetros, ¿cuál es la probabilidad de ver un prueba estadística que dice «son así de diferentes»?

Por ejemplo, si la moneda es justa, ¿cuál es la probabilidad de que vea 60 caras de cada 100 lanzamientos? Eso está probando la hipótesis nula , «la moneda es justa», o «p = .5» donde p es la probabilidad de caras.

La estadística de prueba en ese caso sería el número de caras.

Ahora, asumo que lo que «llama» valor t «es una» estadística de prueba «genérica, no un valor de una» distribución t «. no es lo mismo, y el término «valor t» no «t (necesariamente) se usa ampliamente y podría ser confuso.

Lo que» llamas «valor t» es probablemente lo que yo «estoy llamando «estadística de prueba». Para calcular un valor p (recuerde, es solo una probabilidad), necesita una distribución y un valor para insertar en esa distribución que devolverá una probabilidad. Una vez que hagas eso, la probabilidad de que vuelvas es tu valor p. Puede ver que están relacionados porque bajo la misma distribución, diferentes estadísticas de prueba devolverán diferentes valores p. Las estadísticas de prueba más extremas devolverán valores p más bajos, lo que da una mayor indicación de que la hipótesis nula es falsa.

He ignorado el problema de los valores p unilaterales y bilaterales aquí.

Respuesta

Imagina que tienes una bolsa que contiene 900 canicas negras y 100 blancas, es decir, el 10% de las canicas son blancas. Ahora imagina que sacas 1 canica, la miras y registras su color, sacas otra, registras su color, etc. . y haz esto 100 veces. Al final de este proceso tendrás un número para canicas blancas que, idealmente, esperaríamos que fuera 10, es decir, 10% de 100, pero en realidad puede ser 8, 13 o lo que sea simplemente debido a la aleatoriedad. Si repites este experimento de extracción de 100 canicas muchas, muchas veces y luego trazas un histograma del número de canicas blancas extraídas por experimento, encontrarás que tendrás una curva de campana centrada alrededor de 10.

Esto representa tu hipótesis del 10%: con cualquier bolsa que contenga 1000 canicas, de las cuales el 10% son blancas, si sacas 100 canicas al azar, encontrarás 10 canicas blancas en la selección, más o menos 4. El valor p tiene que ver con este «más o menos 4». Supongamos que al consultar la curva de campana creada anteriormente, puede determinar que menos del 5% del tiempo obtendría 5 canicas blancas o menos y otro < el 5% del tiempo. representa 15 o más canicas blancas, es decir,> 90% del tiempo, su selección de 100 canicas contendrá entre 6 y 14 canicas blancas inclusive.

Ahora, suponiendo que alguien coloque una bolsa de 1000 canicas con un número desconocido de canicas blancas en él, tenemos las herramientas para responder estas preguntas

i) ¿Hay menos de 100 canicas blancas?

ii) ¿Hay más de 100 canicas blancas?

iii) ¿La bolsa contiene 100 canicas blancas?

Simplemente saque 100 canicas de la bolsa y cuente cuántas de esta muestra son blancas.

a) Si hay son 6 a 14 blancas en la muestra, no puede rechazar la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes de 6 a 14 serán> 0.05.

b) Si hay 5 o menos blancos en la muestra puede rechazar ct la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes para 5 o menos serán < 0,05. Es de esperar que la bolsa contenga < 10% de canicas blancas.

c) Si hay 15 o más blancas en la muestra, puede rechazar la hipótesis de que hay 100 canicas blancas en la bolsa y los valores p correspondientes para 15 o más serán < 0.05. Es de esperar que la bolsa contenga> 10% de canicas blancas.

En respuesta al comentario de Baltimark

Dado el ejemplo anterior, hay aproximadamente : –

4.8% de probabilidad de obtener 5 bolas blancas o menos

1.85% de probabilidad de 4 o menos

0.55% de probabilidad de 3 o menos

0.1% de probabilidad de 2 o menos

6.25% de probabilidad de 15 o más

3.25% de probabilidad de 16 o más

1.5% de probabilidad de 17 o más

0.65% de probabilidad de 18 o más

0.25% de probabilidad de 19 o más

0.1% de probabilidad de 20 o más

0.05% de probabilidad de 21 o más

Estos números se estimaron a partir de una distribución empírica generada por una simple rutina de Monte Carlo ejecutada en R y los cuantiles resultantes de la distribución de muestreo.

Con el fin de responder a la pregunta original, suponga que saca 5 bolas blancas, solo hay una probabilidad aproximada del 4.8% de que si la bolsa de 1000 canicas realmente contiene un 10% de bolas blancas, saque solo 5 blancos en una muestra de 100. Esto equivale a un valor de p < 0.05. Ahora tienes que elegir entre

i) Realmente hay un 10% de bolas blancas en la bolsa y acabo de tener «mala suerte» de sacar tan pocas

o

ii) He sacado tan pocas bolas blancas que «no puede haber realmente un 10% de bolas blancas (rechace la hipótesis del 10% de bolas blancas)

Comentarios

  • En primer lugar, este es solo un gran ejemplo y no ‘ realmente explica el concepto de valor p y estadística de prueba. En segundo lugar, ‘ Solo estás afirmando que si obtienes menos de 5 o más de 15 canicas blancas, rechazas la hipótesis nula. ¿Cuál ‘ es tu distribución que ‘ volver a calcular esas probabilidades a partir de? Esto se puede aproximar con una dist. normal centrada en 10, con una desviación estándar de 3. Sus criterios de rechazo no son lo suficientemente estrictos.
  • Estoy de acuerdo en que esto es solo un ejemplo, y es cierto que acabo de elegir los números 5 y 15 de un ir con fines ilustrativos. Cuando tenga tiempo, publicaré una segunda respuesta, que espero sea más completa.

Respuesta

Lo que el valor p no le dice es qué tan probable es que la hipótesis nula sea verdadera. Bajo el marco de prueba de significancia convencional (Fisher), primero calculamos la probabilidad de observar los datos asumiendo que la hipótesis nula es verdadera, esta es la valor p. Parece intuitivamente razonable suponer que la hipótesis nula es probablemente falsa si los datos son lo suficientemente improbables para ser observados bajo la hipótesis nula. Esto es completamente razonable. Los estadísticos tradicionalmente usan un umbral y «rechazan la hipótesis nula en el 95 % de nivel de significancia «si (1 – p)> 0.95; sin embargo, esto es solo una convención que ha demostrado ser razonable en la práctica; no significa que haya menos del 5% de probabilidad de que la hipótesis nula sea falsa (y por lo tanto un 95 % de probabilidad de que la hipótesis alternativa sea cierta). Una razón por la que no podemos decir esto es que aún no hemos analizado la hipótesis alternativa.

Imaginemos una función f () que mapea el valor p en la probabilidad de que la hipótesis alternativa sea verdadera. Sería razonable afirmar que esta función es estrictamente decreciente (de modo que cuanto más probables sean las observaciones bajo la hipótesis nula, menos probable es que la hipótesis alternativa sea verdadera), y que da valores entre 0 y 1 (ya que da una estimación de probabilidad). Sin embargo, eso es todo lo que sabemos sobre f (), así que si bien existe una relación entre p y la probabilidad de que la hipótesis alternativa sea cierta, no está calibrada. Esto significa que no podemos usar el valor p para hacer enunciados cuantitativos sobre la plausibilidad de las hipótesis nula y alternativa.

Advertencia al lector: No está realmente dentro del marco frecuentista hablar de la probabilidad de que una hipótesis sea verdadera, ya que no es una variable aleatoria – es cierto o no lo es. Entonces, cuando he hablado de la probabilidad de la verdad de una hipótesis, implícitamente me he movido a una interpretación bayesiana. Es incorrecto mezclar bayesiano y frecuentista, sin embargo, siempre existe la tentación de hacerlo, ya que lo que realmente queremos es una indicación cuantitativa de la plausibilidad / probabilidad relativa de las hipótesis. Pero esto no es lo que proporciona el valor p.

Respuesta

En estadística, nunca se puede decir que algo es absolutamente seguro, así que Los estadísticos utilizan otro enfoque para evaluar si una hipótesis es cierta o no. Intentan rechazar todas las demás hipótesis que no están respaldadas por los datos.

Para hacer esto, las pruebas estadísticas tienen una hipótesis nula y una hipótesis alternativa. El valor p informado de una prueba estadística es la probabilidad del resultado dado que la hipótesis nula era correcta. Por eso queremos valores p pequeños. Cuanto más pequeños sean, menos probable sería el resultado si la hipótesis nula fuera correcta. Si el valor p es lo suficientemente pequeño (es decir, es muy poco probable que el resultado tenga ocurrió si la hipótesis nula era correcta), entonces la hipótesis nula se rechaza.

De esta forma, se pueden formular hipótesis nulas y posteriormente rechazarlas. Si se rechaza la hipótesis nula, acepta la hipótesis alternativa como la mejor explicación. Sin embargo, recuerde que la hipótesis alternativa nunca es segura, ya que la hipótesis nula podría haber generado, por casualidad, los resultados.

Comentarios

  • a p -valor es la probabilidad de un resultado como o más » extreme » que el resultado dado, no del resultado real. El valor p es $ Pr (T \ geq t | H_0) $ y no $ Pr (T = t | H_0) $ (T es el estadístico de prueba y t es su valor observado).

Respuesta

Soy un poco tímido para revivir el tema anterior, pero salté de aquí , así que publico esto como respuesta a la pregunta en el enlace.

El valor p es un término concreto, no debe haber lugar para malentendidos. Pero, de alguna manera, es místico que las traducciones coloquiales de la definición de valor p conduzcan a muchas malas interpretaciones diferentes. Creo que la raíz del problema está en el uso de las frases «al menos tan adverso a la hipótesis nula» o «al menos tan extremo como el de tus datos de muestra», etc.

Por ejemplo, Wikipedia dice

… el valor p es la probabilidad de obtener los resultados de la muestra observada (o un resultado más extremo) cuando la hipótesis nula es realmente cierta .

El significado de $ p $ -value se difumina cuando las personas se topan por primera vez con «(o un resultado más extremo)» y comienzan a pensar « more extreeeme ? «.

Creo que es mejor dejar el» resultado más extremo «en algo como acto de habla indirecto . Entonces, mi opinión es

El valor p es la probabilidad de ver lo que ves en un «mundo imaginario» donde la hipótesis nula es verdadera.

Para concretar la idea, suponga que tiene una muestra x que consta de 10 observaciones y su hipótesis es que la población la media es $ \ mu_0 = 20 $. Entonces, en su mundo hipotético, la distribución de la población es $ N (20,1) $.

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

Calcula t-stat como $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, y descubra que

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

Entonces, ¿cuál es la probabilidad de observar $ | t_0 | $ tan grande como 2,97 («más extremo» viene aquí) en el ¿mundo imaginario? En el mundo imaginario $ t_0 \ sim t (9) $, por lo tanto, el valor p debe ser $$ valor p = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$

2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

Dado que el valor p es pequeño, es muy poco probable que la muestra x se haya dibujado en el mundo hipotético. Por lo tanto, llegamos a la conclusión de que es muy poco probable que el mundo hipotético fuera de hecho el mundo real.

Comentarios

  • +1, pero cuando escribe » probabilidad de ver lo que ves » y omite el » más extremo » parte, esta oración se vuelve estrictamente hablando falsa (y potencialmente engañosa, aunque quizás menos confusa). No es la probabilidad de ver lo que ves (normalmente es cero). Es la probabilidad de ver lo que ves » o más extremo «. Aunque esto pueda ser un poco confuso para muchos, sigue siendo crucial (y uno puede discutir interminablemente sobre el grado de subjetividad que se esconde detrás de este » más extremo » redacción).
  • @amoeba Pensé que, cuando se proporcionara un ejemplo adecuado, podría servir como un proxy para » obtener los resultados de muestra observados (o un resultado más extremo) «. Quizás, se necesita una mejor redacción.
  • Iba a hacer la misma observación que @amoeba; la » o la parte » más extrema se maneja bien por ejemplo en las alturas de los estudiantes y las respuestas de la fiesta del té, pero yo no ‘ No creo que las respuestas en este hilo hayan dado con una explicación general clara de la misma, particularmente una que cubre diferentes hipótesis alternativas. Estoy de acuerdo con esta respuesta que sugiere que la parte » o más extrema » es un punto de conflicto conceptual para muchos estudiantes.
  • @Silverfish: y no solo estudiantes. ¿Cuántas diatribas bayesianas contra frecuentistas he leído que discuten el tema de subjetividad / objetividad de este » más extremo » bit!
  • @Silver Estoy de acuerdo con su crítica y he publicado una respuesta intentando abordarla. » O más extremo » es el quid del asunto.

Respuesta

También he encontrado que las simulaciones son útiles en la enseñanza.

Aquí hay una simulación para el caso posiblemente más básico en el que muestreamos $ n $ veces de $ N (\ mu, 1) $ (por lo tanto, $ \ sigma ^ 2 = 1 $ es conocido por su simplicidad ) y prueba $ H_0: \ mu = \ mu_0 $ contra una alternativa del lado izquierdo.

Entonces, $ t $ -statistic $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ es $ N (0,1) $ por debajo de $ H_0 $, de modo que el valor $ p $ es simplemente $ \ Phi (\ text {tstat}) $ o pnorm(tstat) en R.

En la simulación , es la fracción de veces que los datos generados bajo el valor nulo $ N (\ mu_0,1) $ (aquí, $ \ mu_0 = 2 $) producen medias de muestra almacenadas en nullMeans que son menos (es decir, «más extremos» «en esta prueba del lado izquierdo) que los calculados a partir de los datos observados.

# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

Respuesta

Me parece útil seguir una secuencia en la que explicas los conceptos en el siguiente orden: (1) La puntuación z y las proporciones por encima y por debajo de la puntuación z asumiendo una curva normal. (2) La noción de una distribución muestral y la puntuación z para una media muestral dada cuando se conoce la desviación estándar de la población (y de ahí la prueba z de una muestra) (3) La prueba t de una muestra y la probabilidad de una media muestral cuando se desconoce la desviación estándar de la población (repleta de historias sobre la identidad secreta de un determinado estadístico industrial y por qué Guinness es bueno para las estadísticas). (4) La prueba t de dos muestras y la distribución muestral de las diferencias de medias. La facilidad con la que los estudiantes introductorios comprenden la prueba t tiene mucho que ver con el trabajo preliminar que se establece en la preparación para este tema.

/ * Instructor de estudiantes aterrorizados modo desactivado * /

Respuesta

¿Qué significa un «valor p» en relación con la hipótesis que se está probando?

En un sentido ontológico (¿qué es la verdad?), significa nada . Cualquier prueba de hipótesis se basa en suposiciones no probadas . Esto normalmente es parte de la prueba en sí, pero también es parte de cualquier modelo que esté utilizando (por ejemplo, en un modelo de regresión). Dado que simplemente estamos asumiendo estos, no podemos saber si la razón por la que el valor p está por debajo de nuestro umbral es porque el nulo es falso. Es un non sequitur deducir incondicionalmente que debido a un valor p bajo debemos rechazar el nulo. Por ejemplo, algo en el modelo podría estar mal.

En un sentido epistemológico (¿qué podemos aprender?), significa algo . Obtienes conocimiento condicional sobre si las premisas no probadas son verdaderas. Dado que (al menos hasta ahora) no podemos probar todos los edificios de la realidad, todo nuestro conocimiento será necesariamente condicional. Nunca llegaremos a la «verdad».

Respuesta

Todavía tengo que probar el siguiente argumento, por lo que podría contener errores , pero realmente quiero poner mis dos centavos (con suerte, lo actualizaré pronto con una prueba rigurosa). Otra forma de ver el $ p $ – el valor es

$ p $ -value – Una estadística $ X $ tal que $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ donde $ F_ {X | H_0} $ es la función de distribución de $ X $ en $ H_0 $ .

Específicamente, si $ X $ tiene un distribución y no estás usando aproximación, entonces

  1. Cada $ p $ -value es una estadística con una distribución uniforme en $ [0, 1] $ y
  2. Cada estadística con una distribución uniforme en $ [0, 1] $ es un $ p $ -value.

Puede considerar esto como una descripción generalizada de los $ p $ -valores.

Comentarios

  • Esta definición tiene sentido solo para distribuciones discretas (y luego no es correcta), porque la segunda aparición de » $ P $ » deja claro que se refiere a probabilidades , no a densidades de probabilidad. Además, hay muy pocas distribuciones (si las hay) que tienen la propiedad declarada, lo que sugiere que debe haber errores tipográficos en la declaración. En lo que respecta a sus afirmaciones posteriores, (1) es idealmente cierto, pero (2) no, a menos que permita que la hipótesis nula dependa de la estadística.
  • @whuber Gracias por la entrada. ¡He editado la definición y ahora debería tener más sentido!
  • Tiene sentido, gracias: si ‘ lo leo correctamente, afirma que la distribución nula de $ X $ es uniforme en $ [0, 1]. $ Sin embargo, eso captura solo una parte de las propiedades de los valores p; no caracteriza los valores p; y no dice nada sobre lo que significan o cómo interpretarlos. Considere estudiar algunas de las otras respuestas en este hilo para obtener información sobre lo que falta.
  • Aquí hay un ejemplo que puede resultarle interesante. La familia de distribución es Uniforme $ (\ theta, \ theta + 1) $ para $ \ theta \ in \ mathbb {R}, $ la hipótesis nula es $ \ theta = 0, $ y la alternativa es su complemento. Considere una muestra aleatoria $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Defina la estadística $ X (\ mathbf {X}) = X_1. $ Obviamente, esto tiene una distribución uniforme en $ [0,1] $ por debajo de $ H_0: $ pero ¿en qué sentido es un valor p? ¿Cuál es la prueba de hipótesis correspondiente? Supongamos que tomamos una muestra de tamaño $ n = 1 $ y observamos el valor $ X_1 = -2: $ ¿¿Está afirmando que el valor p es $ -2 $ ??

Answer

Creo que los ejemplos que incluyen canicas o monedas o la medición de la altura pueden estar bien para practicar las matemáticas, pero no son buenos para desarrollar la intuición. Estudiantes universitarios le gusta cuestionar a la sociedad, ¿verdad? ¿Qué tal si usamos un ejemplo político?

Digamos que un candidato político realizó una campaña en la que prometía que alguna política ayudaría a la economía. Fue elegida, logró que se promulgara la política y 2 años más tarde, la economía está en auge. Ella está lista para la reelección y afirma que su política es la razón de la prosperidad de todos. ¿Debería usted reelegirla?

El ciudadano reflexivo debería decir » bueno, es cierto que la economía va bien, pero ¿podemos realmente atribuir eso a su política? » Para responder verdaderamente a esto, debemos considerar la pregunta «¿la economía habría funcionado bien en los últimos 2 años sin ella?» Si la respuesta es sí (por ejemplo, la economía está en auge debido a algún nuevo desarrollo tecnológico no relacionado), entonces rechazamos la explicación de los datos del político.

Es decir, para examinar una hipótesis (la política ayudó a la economía ), debemos construir un modelo del mundo donde esa hipótesis sea nula (la política nunca se promulgó). Luego, hacemos una predicción con ese modelo. Llamamos a la probabilidad de observar estos datos en ese mundo alternativo, el valor p . Si el valor p es demasiado alto, la hipótesis no nos convence: la política no hizo ninguna diferencia. Si el valor p es bajo, entonces confiamos en la hipótesis: la política fue esencial.

Comentarios

  • No estoy de acuerdo con que p se defina como » Llamamos a la probabilidad de observar estos datos en ese mundo alternativo el valor p » y también la fuerza de la conclusión que se extrae ( especialmente no rechazar el nulo).
  • @Silverfish ¿Podría darnos más detalles? Probablemente sería más correcto llamar al valor p la probabilidad de hacer esa observación O una observación más extrema. Pero parece que tiene una crítica más profunda.
  • Dado que la pregunta original es qué es un valor p, pensé que era importante transmitir esa definición con claridad. Solo decir » más extremo » isn ‘ t en sí mismo muy útil sin explicar qué » más extremo » podría significar – que ‘ una debilidad de la mayoría de las respuestas en este hilo I pensar. Solo la respuesta de whuber ‘ y la » prueba del té » parecen realmente explicar por qué el » más extremo » también importa.
  • También sentí que tus conclusiones son redactado con demasiada fuerza. Si rechazamos el nulo, tenemos evidencia significativa en su contra, pero ‘ no sabemos que es ‘ falso. Cuando fallamos en rechazar el nulo, eso ciertamente no ‘ t significa que el nulo es verdadero (aunque bien puede serlo). Como comentario más general, tengo la sensación de que la prueba que ‘ estás describiendo, en términos bastante abstractos, probablemente no sea clara para un alumno que recién está aprendiendo a realizar una prueba. . La falta de una estadística de prueba claramente definida no ‘ encaja bien con la pregunta original sobre cómo interpretar t también la estadística.
  • Una característica de esta respuesta que me gusta mucho es la explicación clara de que los valores p se calculan utilizando un modelo nulo, incluso si no ‘ t (subjetivamente) creemos que el modelo nulo es realmente cierto. Creo que el hecho de que las estadísticas de las pruebas se calculen con un modelo es un punto clave con el que luchan muchos estudiantes.

Respuesta

El valor p no es tan misterioso como la mayoría de los analistas creen que es.Es una forma de no tener que calcular el intervalo de confianza para una prueba t, sino simplemente determinar el nivel de confianza con el que se puede rechazar una hipótesis nula.

ILUSTRACIÓN. Ejecuta una prueba. El valor p es 0,1866 para la variable Q, 0,0023 para la variable R. (Estos se expresan en%).

Si está probando a un nivel de confianza del 95% para rechazar la hipoglucemia nula;

para Q: 100-18.66 = 81.34%

para R: 100-0.23 = 99.77%.

A un nivel de confianza del 95%, Q da un 81.34% de confianza para rechazar. Esto cae por debajo del 95% y es inaceptable. ACEPTAR NULO.

R da un 99,77% de confianza para rechazar un valor nulo. Claramente por encima del 95% deseado. Por tanto, rechazamos el nulo.

Acabo de ilustrar la lectura del valor p mediante una «forma inversa» de medirlo hasta el nivel de confianza en el que rechazamos el hipo nulo.

Comentarios

  • Bienvenido al sitio. ¿Qué quiere decir con $ Q $ -variable y $ R $ -variable? Por favor aclare. Además, el uso de la frase » accept null » generalmente se considera bastante indeseable, incluso engañoso.
  • @cardinal señala un punto importante. Usted ‘ no va a aceptar el valor nulo.

Responder

****** El valor de p en la prueba de hipótesis mide la sensibilidad de la prueba. Cuanto menor es el valor de p, mayor es la sensibilidad. si el nivel de significancia se establece en 0.05, el valor p de 0.0001 indica una alta probabilidad de que los resultados de la prueba sean correctos ******

Comentarios

  • -1 Esto es claramente incorrecto. Es posible que desee leer primero las respuestas con más votos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *