Quelle est la signification des valeurs p et des valeurs t dans les tests statistiques?

Après avoir suivi un cours de statistiques, puis avoir essayé daider dautres étudiants, jai remarqué quun sujet qui inspire beaucoup de claques au bureau est linterprétation des résultats des tests dhypothèses statistiques . Il semble que les étudiants apprennent facilement à effectuer les calculs requis par un test donné, mais quils sacharnent à interpréter les résultats. De nombreux outils informatiques rapportent les résultats des tests en termes de «valeurs p» ou de «valeurs t».

Comment expliqueriez-vous les points suivants aux étudiants suivant leur premier cours de statistique:

  • Que signifie une « valeur p » par rapport à lhypothèse testée? Y a-t-il des cas où lon devrait rechercher une valeur p élevée ou une valeur p faible?

  • Quelle est la relation entre une valeur p et une valeur t?

Commentaires

  • Une bonne partie de ceci est essentiellement couverte par la première phrase de larticle de wikipedia sur valeurs p , qui définit correctement une valeur p. Si cela ‘ est compris, beaucoup de choses sont claires.
  • Il suffit de récupérer le livre: Statistiques sans larmes. Cela pourrait vous sauver la raison !!
  • @ user48700 Pourriez-vous résumer comment Statistiques sans larmes explique cela?
  • Quelquun devrait dessiner un graphique de la valeur p liée questions au fil du temps et je parie que nous ‘ verrons la saisonnalité et la corrélation avec les calendriers académiques dans les collèges ou les cours de science des données de Coursera
  • En plus dautres livres intéressants et pertinents recommandations dans les réponses et commentaires, je voudrais suggérer un autre livre, appelé de manière appropriée  » Quest-ce quune valeur p de toute façon?  » .

Réponse

Compréhension $ p $ -value

Supposons que vous souhaitiez tester lhypothèse selon laquelle la taille moyenne des étudiants de sexe masculin dans votre université est de 5 $ ft 7 $ pouces. Vous collectez des hauteurs de 100 $ $ élèves sélectionnés au hasard et calculez la moyenne de léchantillon (disons quil savère être 5 $ $ ft $ 9 $ pouces). À laide dune formule / routine statistique appropriée, vous calculez la valeur de $ p $ pour votre hypothèse et dites quelle se révèle être 0,06 $ $ .

Afin dinterpréter correctement $ p = 0.06 $ , nous devons garder plusieurs choses à lesprit:

  1. La première étape du test dhypothèse classique est lhypothèse que lhypothèse considérée est vraie. (Dans notre contexte, nous supposons que la hauteur moyenne de true est 5 $ $ ft 7 $ $ pouces.)

  2. Imaginez faire le calcul suivant: Calculez la probabilité que léchantillon signifie est supérieur à $ 5 $ ft $ 9 $ pouces en supposant que notre hypothèse est en fait correcte (voir point 1) .

En dautres termes, nous voulons savoir $$ \ mathrm {P} (\ mathrm {Sample \: mean} \ ge 5 \: \ mathrm {ft} \: 9 \: \ mathrm {pouces} \: | \: \ mathrm {True \: value} = 5 \: \ mathrm {ft} \: 7 \: \ mathrm { pouces}). $$

Le calcul de létape 2 est ce quon appelle la valeur $ p $ . Par conséquent, une $ p $ -valeur de $ 0,06 $ signifierait que si nous devions répéter notre expérience, beaucoup , plusieurs fois (à chaque fois que nous sélectionnons des élèves de $ 100 $ au hasard et que nous calculons la moyenne de léchantillon), puis 6 $ fois dans 100 $ , nous pouvons nous attendre à voir une moyenne déchantillon supérieure ou égale à 5 $ pi $ 9 $ pouces.

Compte tenu de la compréhension ci-dessus, devrions-nous continuer à supposer que notre hypothèse est vraie (voir étape 1)? Eh bien, un $ p = 0,06 $ indique quune des deux choses sest produite:

  • (A) Soit notre hypothèse est correcte et un événement extrêmement improbable sest produit (par exemple, tous les élèves de $ 100 $ sont des élèves-athlètes)

ou

  • (B) Notre hypothèse est incorrecte et léchantillon que nous avons obtenu nest pas si inhabituel.

La façon traditionnelle de choisir entre (A) et (B) est de choisir un arbitraire coupure pour $ p $ . Nous choisissons (A) si $ p > 0.05 $ et (B) si $ p < 0,05 $ .

Commentaires

  • Prenez votre temps! Jai ‘ penser à sélectionner une  » Meilleure réponse  » pendant une semaine ou oui.
  • Maintenant que jai ‘ jai eu la chance de revenir et de lire toute la réponse – un grand +1 pour lexemple de la hauteur de lélève. Très clair et bien présenté.
  • Bon travail … mais nous devons ajouter (C) notre modèle (incorporé dans la formule / routine statistique) est faux.
  • A t -value (ou toute autre statistique de test) est principalement une étape intermédiaire. Il ‘ est essentiellement une statistique dont il a été prouvé, sous certaines hypothèses, davoir une distribution bien connue. Puisque nous connaissons la distribution de la statistique de test sous la valeur nulle, nous pouvons alors utiliser des tables standard (aujourdhui principalement des logiciels) pour dériver une valeur p.
  • Isn ‘ t la valeur p dérivée du test du chi carré, puis de la table du chi carré? Je me demande comment se fait-il que la probabilité calculée ci-dessus indique la valeur p elle-même?!

Réponse

Une boîte de dialogue entre un enseignant et un élève réfléchi

Soumis humblement en pensant que trop peu de crayons ont été utilisés jusquà présent dans ce fil. Un bref synopsis illustré apparaît à la fin.


Élève : Que signifie une valeur p? Beaucoup de gens semblent daccord pour dire quil est probable que nous  » voir un exemple de moyenne supérieure ou égale à  » une statistique ou cest  » la probabilité dobserver ce résultat. .. étant donné que lhypothèse nulle est vraie  » ou où  » La statistique de mon échantillon correspond à une distribution [simulée]  » et même  » la probabilité dobserver une statistique de test au moins aussi grande que celle calculée en supposant que lhypothèse nulle est vraie  » .

Enseignant : Bien compris, toutes ces déclarations sont correctes dans de nombreuses circonstances.

Élève : Je ne vois pas en quoi la plupart d’entre elles sont pertinentes. Vous ne nous avez pas appris que nous devons énoncer une hypothèse nulle $ H_0 $ et une hypothèse alternative $ H_A $ ? Comment sont-ils impliqués dans ces idées de  » supérieur ou égal à  » ou  » au moins aussi grand  » ou le très populaire  » plus extrême « ?

Enseignant : Parce que cela peut sembler compliqué en général, cela nous aiderait-il dexplorer un exemple concret?

Élève : Bien sûr. Mais sil vous plaît, faites-en une question réaliste mais simple si vous le pouvez.

Enseignant : Cette théorie des tests dhypothèses a commencé historiquement avec le besoin des astronomes danalyser les erreurs dobservation, donc Que diriez-vous de commencer par là. Je parcourais un jour de vieux documents où un scientifique a décrit ses efforts pour réduire lerreur de mesure dans son appareil. rements dune étoile dans une position connue et enregistré leurs déplacements en avant ou en arrière de cette position. Pour visualiser ces déplacements, il a dessiné un histogramme qui – une fois lissé un peu – ressemblait à celui-ci.

Figure 1: Histogramme des déplacements

Élève : Je me souviens du fonctionnement des histogrammes: laxe vertical est étiqueté  » Densité  » pour me rappeler que les fréquences relatives des mesures sont représentées par aire plutôt que par hauteur.

Enseignant : Cest vrai. Un  » une valeur inhabituelle  » ou  » extrême  » serait être situé dans une région avec une jolie petite superficie. Voici « un crayon. Pensez-vous que vous pourriez colorier une région dont la superficie ne représente quun dixième du total?

Élève : Bien sûr; cest simple. [Couleurs de la figure.]

Figure 2: Lélève

Enseignant : Très bien! Cela me semble représenter environ 10% de la surface. Rappelez-vous cependant que les seules zones de lhistogramme qui comptent sont celles situées entre les lignes verticales: elles représentent la chance ou probabilité que le déplacement soit situé entre ces lignes sur laxe horizontal. Cela signifie que vous deviez colorier jusquen bas et que ce serait plus de la moitié de la surface, ne serait « T-il?

Élève : Oh, je vois. Laissez-moi réessayer. Je vais vouloir colorier là où la courbe est vraiment basse, non? Cest le plus bas aux deux extrémités.Dois-je colorier une seule zone ou est-ce que je peux la diviser en plusieurs parties?

Enseignant : Utiliser plusieurs parties est une bonne idée. Où seraient-ils?

Élève (montrant du doigt): Ici et ici. Parce que ce crayon nest pas très net, jai utilisé un stylo pour vous montrer les lignes que jutilise.

Figure 3: Lélève

Enseignant : Très bien! Laissez-moi vous raconter le reste de lhistoire. Le scientifique a apporté quelques améliorations à son appareil, puis il a pris des mesures supplémentaires. Il a écrit que le déplacement du premier nétait que de $ 0,1 $ , ce quil pensait être un bon signe, mais étant un scientifique attentif, il a procédé à prendre plus de mesures pour vérifier . Malheureusement, ces autres mesures sont perdues – le manuscrit sinterrompt à ce stade – et tout ce que nous avons est ce numéro unique, $ 0,1 $ .

Élève : Cest dommage. Mais nest-ce pas beaucoup mieux que la large répartition des déplacements dans votre silhouette?

Enseignant : Cest « est la question à laquelle je voudrais que vous répondiez. Pour commencer, que devrions-nous poser comme $ H_0 $ ?

Élève : Eh bien, un sceptique se demanderait si les améliorations apportées à lappareil ont eu un effet quelconque. La charge de la preuve incombe au scientifique: il voudrait montrer que le sceptique a tort. Cela me fait penser que lhypothèse nulle est un peu mauvais pour le scientifique: il dit que toutes les nouvelles mesures – y compris la valeur de $ 0,1 $ que nous connaissons – devraient se comporter comme décrit par le premier histogramme. Ou peut-être même pire que cela: ils pourraient être encore plus dispersés.

Enseignant : G o on, vous allez bien.

Élève : Et donc lalternative est que les nouvelles mesures seraient moins étalées, non?

Enseignant : Très bien! Pouvez-vous me dessiner une image de ce à quoi ressemblerait un histogramme moins étalé? Voici une autre copie du premier histogramme; vous pouvez dessiner dessus comme référence.

Élève (dessin): Jutilise un stylo pour dessiner le nouveau histogramme et je « m colorie dans la zone en dessous. Je lai fait pour que la plupart de la courbe soit proche de zéro sur laxe horizontal et donc la majeure partie de sa zone est proche dune valeur (horizontale) de zéro: cest ce quil signifie être moins dispersé ou plus précis.

Figure 4: Lélève

Enseignant : C’est un bon début. Mais rappelez-vous qu’un histogramme indiquant les chances doit avoir une superficie totale de $ 1 $ . La superficie totale du premier histogramme donc $ 1 $ . Quelle est la superficie de votre nouvel histogramme?

Élève : Moins de la moitié, je pense . Je vois que « cest un problème, mais je ne sais pas comment le résoudre. Que dois-je faire?

Enseignant : Lastuce consiste à créer le nouvel histogramme plus haut que lancien pour que son tota La zone est $ 1 $ . Ici, je vais vous montrer une version générée par ordinateur pour illustrer.

Figure 5: Lenseignant

Élève : Je vois: vous lavez étiré verticalement donc sa forme na pas vraiment changé mais maintenant la zone rouge et la zone grise (y compris la partie sous le rouge) sont les mêmes.

Enseignant : Cest vrai. Vous regardez une image de lhypothèse nulle (en bleu, étalée) et une partie de lhypothèse alternative (en rouge, avec moins détalement).

Élève : Quentendez-vous par  » partie  » de lalternative? N « est-ce pas seulement l » hypothèse alternative?

Enseignant : Les statisticiens et la grammaire ne semblent pas se mélanger. 🙂 Sérieusement, ce quils entendent par  » hypothèse  » est généralement un grand ensemble de possibilités. Ici, lalternative (comme vous lavez déjà dit) est que les mesures sont  » moins étalées  » quauparavant. Mais combien moins ? Il existe de nombreuses possibilités. Ici, laissez-moi vous en montrer un autre. Je lai dessiné avec des tirets jaunes. Cest entre les deux précédents.

Figure 6: La valeur NULL avec deux éléments de lalternative

Etudiant : Je vois: vous pouvez avoir différentes quantités de spread, mais vous ne savez pas à lavance quel sera réellement le spread. Mais pourquoi avez-vous créé lombrage amusant sur cette image?

Professeur : Je voulais mettre en évidence où et comment les histogrammes diffèrent. Je les ai ombrés en gris là où les histogrammes alternatifs sont inférieurs à la valeur nulle et en rouge là où les alternatives sont plus élevées .

Élève : Pourquoi est-ce important?

Enseignant : Vous rappelez-vous comment vous avez coloré le premier histogramme dans les deux queues? [Regardant à travers les journaux.] Ah, cest ici.Colorions cette image de la même manière.

Figure 7: Le nul et alternatif, coloré.

Élève : Je me souviens: ce sont les valeurs extrêmes. Jai trouvé les endroits où la densité nulle était aussi petite que possible et coloré dans 10% de la surface.

Enseignant : Parlez-moi des alternatives dans ces zones extrêmes.

Élève : « Cest difficile à voir, parce que le crayon la recouvert, mais ça y ressemble » Il ny a presque aucune chance quune alternative se trouve dans les zones que jai colorées. Leurs histogrammes sont alignés sur laxe des valeurs et il ny a pas de place pour les zones situées en dessous.

Enseignant : Continuons cette réflexion. Si je vous disais, hypothétiquement, qu’une mesure avait un déplacement de $ – 2 $ , et que je vous demandais de choisir laquelle de ces trois les histogrammes était celui dont il provenait le plus probablement, lequel serait-il?

Élève : Le premier – le bleu. Cest le plus étalé dun Et cest le seul où $ – 2 $ semble avoir une chance de se produire.

Enseignant : Et quen est-il de la valeur de 0,1 $ dans le manuscrit?

Élève : Hmmm … cest différent histoire. Les trois histogrammes sont assez hauts au-dessus du sol à 0,1 $ .

Enseignant : OK, daccord. Mais supposons que je vous dise que la valeur se situe quelque part près de $ 0,1 $ , comme entre $ 0 $ et 0,2 $ . Cela vous aide-t-il à lire certaines probabilités de ces graphiques?

Élève : Bien sûr, car je peux utiliser des zones. Je dois juste estimer les aires sous chaque courbe entre $ 0 $ et 0,2 $ . Mais cela semble assez difficile.

Enseignant : Vous n’avez pas besoin d’aller aussi loin. Pouvez-vous simplement dire quelle zone est la plus grande?

Élève : celui sous la courbe la plus haute, bien sûr. Les trois zones ont la même base, donc plus la courbe est haute, plus il y a de zone en dessous et la base. Cela signifie lhistogramme le plus haut – celui que jai dessiné, avec les tirets rouges – est le plus probable pour un déplacement de $ 0,1 $ . Je pense que je vois où vous en êtes, mais je « un peu inquiet: » n « t-je pas besoin de regarder tous les histogrammes pour toutes les alternatives, pas seulement une ou deux montrées ici? Comment pourrais-je faire cela?

Enseignant : Vous êtes doué pour saisir des modèles, alors dites-moi: à mesure que l’appareil de mesure est de plus en plus précis, qu’arrive-t-il à son histogramme?

Élève : Il se rétrécit – oh, et il doit aussi devenir plus grand, donc sa superficie totale reste la même. Cela rend la comparaison assez difficile les histogrammes. Les autres sont tous supérieurs à la valeur nulle à droite à $ 0 $ , cest évident. Mais à dautres valeurs, les alternatives sont parfois plus élevées et parfois plus faibles! Par exemple, [pointant sur une valeur proche de $ 3/4 $ ], ici mon histogramme rouge est le plus bas, lhistogramme jaune est le le plus élevé et lhistogramme nul dorigine se trouve entre eux. Mais à droite, la valeur nulle est la plus élevée.

Enseignant : En général, comparer des histogrammes est une affaire compliquée. Pour nous aider, jai demandé à lordinateur de faire un autre tracé: il a divisé chacune des hauteurs dhistogramme alternatives (ou  » densités « ) par la hauteur dhistogramme nulle, créant des valeurs appelées  » rapports de vraisemblance.  » En conséquence , une valeur supérieure à $ 1 $ signifie que lalternative est plus probable, tandis quune valeur inférieure à $ 1 $ signifie lalternative est moins probable. Il a dessiné encore une alternative: il est plus étalé que les deux autres, mais toujours moins étalé que ne létait lappareil dorigine.

Figure 8: Rapports de vraisemblance

Enseignant (continuant): Pouvez-vous me montrer où les alternatives ont tendance à être plus probables que la valeur nulle?

Élève (coloration): Ici au milieu, évidemment. Et comme ce ne sont plus des histogrammes, je suppose que nous devrions regarder des hauteurs plutôt que des aires, donc je marque juste une plage de valeurs sur laxe horizontal. Mais comment savoir quelle part du milieu à colorier? Où dois-je arrêter de colorier?

Figure 9: Diagrammes de rapport de vraisemblance balisés

Enseignant : Il ny a pas de règle ferme. Tout dépend de la façon dont nous prévoyons dutiliser nos conclusions et de la férocité des sceptiques.Mais asseyez-vous et réfléchissez à ce que vous avez accompli: vous réalisez maintenant que les résultats avec des rapports de vraisemblance élevés sont des preuves pour lalternative et les résultats avec des rapports de vraisemblance faibles sont des preuves contre lalternative . Ce que je vais vous demander de faire, cest de colorier une zone qui, dans la mesure du possible, a une faible chance de se produire sous lhypothèse nulle et une chance relativement grande de se produire sous les alternatives. Pour en revenir au premier diagramme que vous avez coloré, au début de notre conversation, vous avez coloré les deux queues du null parce quelles étaient  » extrêmes.  » Feraient-ils encore du bon travail?

Etudiant : Je ne pense pas. Même sils étaient assez extrêmes et rares sous lhypothèse nulle, elles sont pratiquement impossibles pour lune ou lautre des alternatives. Si ma nouvelle mesure était, disons 3,0 $ , je pense que je me rangerais du côté du sceptique et nierais quune amélioration se soit produite, même si $ 3.0 $ était un résultat inhabituel dans tous les cas. Je veux changer cette coloration. Ici – laissez-moi avoir un autre crayon.

Figure 10: Balisage amélioré

Enseignant : Quest-ce que cela représente?

Élève : Nous avons commencé par vous demander de ne dessiner que 10% de la zone sous lhistogramme dorigine – celui décrivant le nul. Alors maintenant Jai dessiné dans 10% de la zone où les alternatives semblent plus susceptibles de se produire. Je pense que lorsquune nouvelle mesure est dans ce domaine, elle nous dit que nous devons croire à lalternative.

Enseignant : Et comment le sceptique devrait-il réagir à cela?

Etudiant : Un sceptique na jamais à admettre quil a tort, nest-ce pas? Mais je pense que sa foi devrait être un peu ébranlée. Après tout, nous lavons arrangé de manière à ce quune mesure puisse être à lintérieur de la zone que je viens de dessiner, elle na que 10% de chances dy être lorsque la valeur nulle est vraie. Et il a une plus grande chance dêtre là lorsque lalternative est vraie. Je ne peux pas vous dire combien cette chance est beaucoup plus grande, car cela dépendrait de combien le scientifique a amélioré lappareil. Je sais juste que cest plus grand. Donc, les preuves seraient contre le sceptique.

Enseignant : Très bien. Pourriez-vous résumer votre compréhension afin que nous « soyons parfaitement clairs sur ce que vous avez appris?

Élève : jai appris que pour comparer des hypothèses alternatives à des hypothèses nulles, nous devons comparer leurs histogrammes. Nous divisons les densités des alternatives par la densité de la valeur nulle: cest ce que vous avez appelé le  » rapport de vraisemblance.  » Pour faire un bon test, je devrais choisir un petit nombre comme 10% ou tout ce qui pourrait suffire à ébranler un sceptique. Ensuite, je devrais trouver des valeurs où le rapport de vraisemblance est aussi élevé que possible et les colorier jusquà ce que 10% (ou autre) aient été colorés.

Enseignant : Et comment utiliseriez-vous cette coloration?

Élève : Comme vous me lavez rappelé plus tôt, la coloration doit être entre les lignes verticales. Les valeurs (sur laxe horizontal) qui se trouvent sous la coloration sont des preuves contre lhypothèse nulle. Autres valeurs – eh bien, il est difficile de dire ce qu’elles pourraient signifier sans examiner plus en détail tous les histogrammes concernés.

Enseignant : Revenons à la valeur de $ 0,1 $ dans le manuscrit, que concluriez-vous?

Élève : Cest dans la zone que jai colorée pour la dernière fois , donc je pense que le scientifique avait probablement raison et que l’appareil a été vraiment amélioré.

Enseignant : Une dernière chose. Votre conclusion était basée sur la sélection de 10% comme critère ou  » size  » du test. Beaucoup de gens préfèrent utiliser 5%. Certains préfèrent 1%. Que pourriez-vous leur dire?

Étudiant : Je ne pourrais pas faire tous ces tests en même temps! Eh bien, peut-être que je pourrais en quelque sorte. Je peux voir cela quelle que soit la taille le test devrait être, je devrais commencer la coloration à partir de $ 0 $ , qui est en ce sens le  » le plus extrême  » et travaillez vers lextérieur dans les deux sens à partir de là. Si je marrêtais juste à 0,1 $ – la valeur réellement observée – Je pense que jaurais colorié une zone quelque part entre 0,05 $ et 0,1 $ , disons 0,08 $ $ . Les 5% et 1% des gens pourraient dire tout de suite que jai trop coloré: sils voulaient colorier seulement 5% ou 1%, ils le pourraient, mais ils ne le feraient pas « T aller aussi loin que 0,1 $ . Ils ne parviendraient pas à la même conclusion que moi: ils diraient quil ny a pas assez de preuves quun changement sest réellement produit.

Enseignant : Vous venez de me dire ce que tout ces citations au début vraiment signifient.Il devrait être évident daprès cet exemple quils ne peuvent pas être  » plus extrêmes  » ou  » supérieur ou égal à  » ou  » au moins aussi grand  » au sens de ayant une valeur plus grande ou même une valeur où la densité nulle est petite. Ils signifient vraiment ces choses dans le sens des grands rapports de vraisemblance que vous avez décrits. Soit dit en passant, le nombre autour de 0,08 $ que vous avez calculé est appelé la valeur p « .  » Il ne peut être correctement compris que de la manière que vous avez décrite: en ce qui concerne une analyse des hauteurs relatives dhistogramme – les rapports de vraisemblance.

Élève : Merci. Je ne suis pas sûr de bien comprendre tout cela pour le moment, mais vous mavez donné beaucoup de matière à réflexion.

Enseignant : Si vous souhaitez aller plus loin, prenez un regardez le Lemme Neyman-Pearson . Vous êtes probablement prêt à le comprendre maintenant.


Synopsis

De nombreux tests basés sur une seule statistique comme celle de la boîte de dialogue lappelleront  » $ z $  » ou  » $ t $ « . Ce sont des moyens dindiquer à quoi ressemble lhistogramme nul, mais ce ne sont que des indices: ce que nous nommons ce nombre na pas vraiment dimportance. La construction résumée par létudiant, comme illustré ici, montre comment elle est liée à la valeur p. La valeur p est la plus petite taille de test qui entraînerait une observation de $ t = 0,1 $ pour conduire à un rejet de lhypothèse nulle.

Figure 11: valeur p en tant que zone.

Dans cette figure, qui est agrandie pour montrer les détails, lhypothèse nulle est tracée dans bleu uni et deux alternatives typiques sont tracés avec des lignes pointillées. La région où ces alternatives ont tendance à être beaucoup plus grandes que la valeur nulle est ombrée. Lombrage commence là où les probabilités relatives des alternatives sont les plus grandes (à $ 0 $ ). Lombrage sarrête lorsque lobservation $ t = 0,1 $ est atteinte. La valeur p est la zone de la région ombrée sous lhistogramme nul: cest la chance, en supposant que la valeur nulle est vraie, dobserver un résultat dont les rapports de vraisemblance ont tendance à être grands quelle que soit lalternative qui se trouve être vraie. En particulier, cette construction dépend intimement de lhypothèse alternative. Il ne peut pas être réalisé sans spécifier les alternatives possibles.


Pour deux exemples pratiques du test décrit ici – lun publié, lautre hypothétique – voir https://stats.stackexchange.com/a/5408/919 .

Commentaires

  • Cela a a parfaitement traité mon commentaire sur une autre réponse, quaucune des réponses précédentes à cette question navait abordé, en général, les  » ou plus extrêmes aspect dune valeur p . (Bien que la  » tea-testing  » réponse comprenait un bon exemple spécifique.) Jadmire particulièrement la façon dont cet exemple a été délibérément construit pour mettre en évidence que  » plus extrême  » peut vouloir dire tout le contraire de  » plus grand  » ou  » plus loin de zéro « .
  • Jaimerais que les enseignants et les manuels ne ‘ utilisent pas lexpression  » ou plus extrême « , vraiment. Deux variantes que jai entendues pourraient être paraphrasées comme  » plus favorables à $ H_1 $  » ou  » plus convaincant de $ H_1 $ « . Dans ce cas, des valeurs plus proches de zéro seraient en effet plus convaincantes que le télescope est devenu plus fiable, mais cela nécessite quelques acrobaties linguistiques (plausiblement argumentées, mais potentiellement déroutantes) pour les décrire comme  » plus extrême « .
  • Uniquement perspicace comme toujours, merci davoir pris le temps décrire ces réponses incroyablement utiles. Je me demande vraiment pourquoi les manuels ne sont jamais écrits dune manière qui offre à peu près ces niveaux de clarté et dintuition.
  • Il ‘ est dangereux dutiliser le sarcasme dans un commentaire , @baxx, car lespace ‘ ne nous a pas permis de le faire poliment et élégamment. Par conséquent, il ‘ nest généralement pas une bonne idée de supposer quun commentaire est sarcastique à moins quil ne vous lindique explicitement.Supposons simplement que les commentaires visent à vous aider. Si vous suiviez simplement le tout premier résultat de la recherche que jai fournie, je pense que vos questions trouveraient une réponse.
  • Tout simplement fantastique! Merci @whuber!

Réponse

Avant daborder ce sujet, je massure toujours que les élèves sont heureux de se déplacer entre les pourcentages, les décimales, les cotes et les fractions. Sils ne sont pas complètement satisfaits de cela, ils peuvent être très vite confus.

Jaime expliquer les tests dhypothèse pour la première fois (et donc les valeurs p et les statistiques de test) via Fisher  » Jai plusieurs raisons à cela:

(i) Je pense que travailler sur une expérience et définir les termes au fur et à mesure est plus logique que de définir tous ces termes pour commencer. (ii) Vous navez pas besoin de vous fier explicitement aux distributions de probabilités, aux aires sous la courbe, etc. pour franchir les points clés des tests dhypothèse. (iii) Cela explique cette notion ridicule de «comme ou plus extrême que ceux observés» dune manière assez sensible (iv) Je trouve que les étudiants aiment comprendre lhistoire, les origines et lhistoire de ce quils étudient car cela le rend plus réel que certaines théories abstraites. (v) Peu importe la discipline ou la matière dont les étudiants viennent, ils peuvent se rapporter à lexemple du thé (NB Certains étudiants internationaux ont des difficultés avec cette institution particulièrement britannique du thé au lait.)

[Note: Jai eu cette idée à lorigine du merveilleux article de Dennis Lindley « Lanalyse des données expérimentales: lappréciation du thé & Wine » dans lequel il montre pourquoi les méthodes bayésiennes sont supérieures à méthodes classiques.]

Lhistoire de fond est que Muriel Bristol rend visite à Fisher un après-midi dans les années 1920 à la station expérimentale de Rothamsted pour une tasse de thé. Lorsque Fisher a mis le lait en dernier, elle sest plainte en disant quelle pouvait dire aussi si le lait a été versé en premier (ou en dernier) et quelle préférait le premier. Pour mettre cela à lépreuve, il a conçu son expérience de thé classique où Muriel se voit présenter une paire de tasses à thé et elle doit identifier laquelle avait le lait ajouté en premier. Cette opération est répétée avec six paires de tasses à thé. Les glaces sont soit bonnes (R) soit fausses (W) et ses résultats sont: RRRRRW.

Supposons que Muriel est en fait juste en train de deviner et na aucune capacité de discrimination. Cest ce quon appelle l Hypothèse nulle . Selon Fisher, le but de lexpérience est de discréditer cette hypothèse nulle. Si Muriel devine, elle identifiera correctement la tasse de thé avec une probabilité de 0,5 à chaque tour et comme elles sont indépendantes, le résultat observé a 0,5 $ ^ 6 $ = 0,016 (ou 1/64). Fisher soutient ensuite que soit:

(a) lhypothèse nulle (Muriel devine) est vraie et un événement de faible probabilité sest produit ou,

(b) lhypothèse nulle est fausse et Muriel a des pouvoirs discriminatoires.

La valeur p (ou valeur de probabilité) est la probabilité dobserver ce résultat (RRRRRW) étant donné que lhypothèse nulle est vraie – cest la petite probabilité mentionnée en (a) , ci-dessus. Dans ce cas, cest 0,016. Comme les événements avec de faibles probabilités ne se produisent que rarement (par définition), la situation (b) pourrait être une explication plus préférable de ce qui sest passé que la situation (a). Lorsque nous rejetons lhypothèse nulle, nous acceptons en fait lhypothèse opposée que nous appelons lhypothèse alternative. Dans cet exemple, Muriel a des pouvoirs discriminatoires est lhypothèse alternative.

Une considération importante est ce que nous faisons classe comme une « petite » probabilité? Quel est le seuil auquel nous « sommes disposés à dire quun événement est improbable? Le repère standard est de 5% (0,05) et cest ce quon appelle le niveau de signification. Lorsque la valeur p est plus petit que le niveau de signification nous rejetons lhypothèse nulle comme étant fausse et acceptons notre hypothèse alternative. Il est courant daffirmer quun résultat est « significatif » lorsque la valeur p est plus petite que le niveau de signification, cest-à-dire lorsque la probabilité de ce que nous observées étant donné que lhypothèse nulle est vraie est plus petite que notre seuil. Il est important dêtre clair que lutilisation de 5% est complètement subjective (tout comme lutilisation des autres niveaux de signification courants de 1% et 10%).

Fisher sest rendu compte que cela ne « t travailler; chaque résultat possible avec une mauvaise paire suggérait également des pouvoirs discriminatoires. La probabilité pertinente pour la situation (a) ci-dessus est donc 6 (0,5) ^ 6 = 0,094 (ou 6/64), ce qui est maintenant non significatif à un niveau de signification de 5%. Pour surmonter cela, Fisher a fait valoir que si 1 erreur sur 6 est considérée comme une preuve de pouvoir discriminatoire, aucune erreur ne lest aussiles résultats qui indiquent plus fortement des pouvoirs discriminatoires que celui observé doivent être inclus dans le calcul de la valeur p. Cela a abouti à la modification suivante du raisonnement, soit:

(a) lhypothèse nulle (Muriel suppose) est vraie et la probabilité dévénements comme, ou plus, extrêmes que celle observée est faible, ou

(b) lhypothèse nulle est fausse et Muriel a des pouvoirs discriminatoires.

Revenons à notre expérience du thé et nous trouvons que la valeur p sous cette configuration est de 7 (0,5 ) ^ 6 = 0,109 qui nest toujours pas significatif au seuil de 5%.

Je demande ensuite aux élèves de travailler avec dautres exemples tels que le tirage au sort pour déterminer si une pièce est juste ou non. Cet exercice explique les concepts de lhypothèse nulle / alternative, des valeurs p et des niveaux de signification. Nous passons ensuite au cas dune variable continue et introduisons la notion de statistique-test. Comme nous avons déjà couvert la distribution normale, la distribution normale standard et la transformation z en profondeur, il sagit simplement de rassembler plusieurs concepts.

En plus de calculer les statistiques de test, les valeurs p et prendre une décision (significative / non significative) Jinvite les élèves à travailler sur des articles publiés dans un jeu de remplissage des blancs manquants.

Commentaires

  • I je sais que je ‘ relance un peu un fil très ancien, mais voilà … Jappréciais vraiment votre réponse, mais la partie valeur t me manque 🙁 Pourriez-vous veuillez utiliser les exemples que vous avez donnés pour en parler? Personne na répondu à propos de la partie test t
  • @sosi Il ‘ est probablement parce que les valeurs p sont bien plus général que les valeurs t. Cela ‘ est comme poser une question sur les voitures puis sur les freins dune Ford Fiesta.
  • La réponse est très intéressante (+ 1), mais quelques éléments sont confondus à la fin. 1. W Quest-ce que cela signifie pour une valeur $ p $ dêtre  » significative au niveau de 5% « ? Soit la valeur $ p $ est inférieure à 5%, soit elle ne lest pas. Je ne ‘ pas voir l’intérêt d’utiliser une phrase aussi obscure, laissant  » une signification  » indéfini. 2. Que signifie  » décider  » si une valeur $ p $ est significative ou non? Il ne semble pas justifié d’introduire la théorie de la décision dans le mélange de cette manière (d’autant plus que Fisher était un fervent opposant à l’application du cadre de test Neyman-Pearson dans les sciences).

Réponse

Aucune explication verbale ni aucun calcul ne ma vraiment aidé à comprendre au niveau instinctif ce quétaient les valeurs p, mais cela sest vraiment mis au point pour moi une fois que jai suivi un cours sur la simulation. Cela ma donné la possibilité de voir les données générées par lhypothèse nulle et de tracer les moyennes / etc. déchantillons simulés, puis regardez où se situe la statistique de mon échantillon sur cette distribution.

Je pense que le principal avantage est que cela permet aux élèves doublier les distributions mathématiques et statistiques de test pendant une minute et se concentrer sur les concepts à portée de main. Certes, il fallait que japprenne comment simuler ce genre de choses, ce qui posera des problèmes à un groupe d’étudiants entièrement différent. simulation dinnombrables fois pour aider à expliquer les statistiques à dautres avec un grand succès (par exemple, « Voici à quoi ressemblent vos données; voici à quoi ressemble une distribution de Poisson superposée. Êtes-vous sûr de vouloir faire une régression de Poisson? »).

Cela ne répond pas exactement aux questions que vous avez posées, mais pour moi, au moins, cela les a rendues triviales.

Commentaires

  • Je suis tout à fait daccord sur lutilisation de la simulation pour expliquer cela. Mais juste une petite note sur lexemple à la fin: je trouve que les gens (pas seulement les étudiants) le trouvent di fficult de distinguer pour toute hypothèse distributionnelle particulière, par ex. le poisson, entre être marginalement poisson distribué et être distribué conditionnellement poisson. Puisque seul ce dernier compte pour un modèle de régression, un tas de valeurs de variables dépendantes qui ne sont pas ‘ t poisson ne doivent pas nécessairement être préoccupantes.
  • Jai avouer que je ne ‘ que je ne le savais pas. ‘ jai vraiment apprécié vos commentaires sur ce site au cours des derniers jours de votre adhésion. Jespère que vous ‘ resterez dans les parages.
  • @MattParker connaissez-vous des ressources dapprentissage axées sur lutilisation de la simulation pour développer la compréhension? Ou sagit-il simplement dassembler des scripts python / R et dexécuter un tas de tests?
  • @baxx Le [site Web de Seeing Theory par Daniel Kunin] (étudiants.brown.edu/seeing-theory/ ) a quelques outils intéressants pour cela, mais ‘ est encore en construction.Sinon, oui, je ‘ ai largement expérimenté les outils intégrés de simulation de R ‘ – les utiliser pour me prouver comment une méthode fonctionne, ou pour voir ce qui se passerait si un prédicteur était remplacé par une variable aléatoire, etc. Désolé, jaurais aimé connaître de meilleures ressources pour cela!
  • @MattParker merci cool. Ouais – un peu de poule et dœuf là-dedans, pour construire les expériences dont vous (je suppose?) Avez besoin au moins pour les écrire. Pas de soucis cependant ….. Je viens de vérifier le site que vous avez lié, il ‘ est gentil, merci

Réponse

Une belle définition de la valeur p est « la probabilité dobserver une statistique de test au moins aussi grande que celle calculée en supposant que lhypothèse nulle est vraie ».

Le problème avec cela est que cela nécessite une compréhension de la « statistique de test » et de « lhypothèse nulle ». Mais, « est facile à comprendre. Si lhypothèse nulle est vraie, généralement quelque chose comme » le paramètre de la population A est égal au paramètre de la population B « , et vous calculez des statistiques pour estimer ces paramètres, quelle est la probabilité de voir un statistique de test qui dit, « ils » sont si différents « ?

Par exemple, si la pièce est juste, quelle est la probabilité que je » verrais 60 têtes sur 100 lancers? Cela teste lhypothèse nulle , « la pièce est juste », ou « p = .5 » où p est la probabilité de têtes.

La statistique de test dans ce cas serait le nombre de têtes.

Maintenant, je suppose que ce que vous « appelez » valeur t « est une » statistique de test « générique, pas une valeur dune » distribution t « . pas la même chose, et le terme « valeur t » nest pas (nécessairement) largement utilisé et pourrait prêter à confusion.

Ce que vous « appelez » valeur t « est probablement ce que jappelle « statistique de test ». Pour calculer une valeur p (rappelez-vous, cest juste une probabilité) vous avez besoin dune distribution, et une valeur à brancher sur cette distribution qui renverra une probabilité. Une fois que vous faites cela, la probabilité que vous retournez est votre valeur p. Vous pouvez voir quils sont liés car sous la même distribution, différentes statistiques de test vont renvoyer des valeurs p différentes. Des statistiques de test plus extrêmes renverront des valeurs de p plus faibles, donnant une meilleure indication que lhypothèse nulle est fausse.

Jai ignoré le problème des valeurs p unilatérales et bilatérales ici.

Réponse

Imaginez que vous ayez un sac contenant 900 billes noires et 100 blanches, cest-à-dire que 10% des billes sont blanches. Imaginez maintenant que vous sortez 1 bille, regardez-la et enregistrez sa couleur, en prenez une autre, enregistrez sa couleur etc. . et faites-le 100 fois. À la fin de ce processus, vous aurez un numéro pour les billes blanches qui, idéalement, nous nous attendrions à être 10, cest-à-dire 10% de 100, mais en fait peut être 8, ou 13 ou autre simplement en raison du caractère aléatoire. Si vous répétez cette expérience de retrait de 100 billes plusieurs fois, puis tracez un histogramme du nombre de billes blanches tirées par expérience, vous constaterez que vous aurez une courbe en cloche centrée sur 10.

Ceci représente votre hypothèse de 10%: avec nimporte quel sac contenant 1000 billes dont 10% sont blanches, si vous sortez 100 billes au hasard, vous trouverez 10 billes blanches dans la sélection, donnez ou prenez 4 ou plus. La valeur p est tout à propos de ce « donner ou prendre 4 ou plus. » Disons quen vous référant à la courbe en cloche créée précédemment, vous pouvez déterminer que moins de 5% du temps vous obtiendrez 5 billes blanches ou moins et une autre < 5% du temps représente 15 billes blanches ou plus, cest-à-dire> 90% du temps, votre sélection de 100 billes contiendra entre 6 et 14 billes blanches incluses.

Maintenant, en supposant que quelquun plonge un sac de 1000 billes avec un nombre inconnu de billes billes blanches dedans, nous avons les outils pour répondre à ces questions

i) Y a-t-il moins de 100 billes blanches?

ii) Y a-t-il plus de 100 billes blanches?

iii) Le sac contient-il 100 billes blanches?

Sortez simplement 100 billes du sac et comptez combien de cet échantillon sont blanches.

a) Sil y en a sont de 6 à 14 blancs dans léchantillon, vous ne pouvez pas rejeter lhypothèse quil y a 100 billes blanches dans le sac et les valeurs de p correspondantes pour 6 à 14 seront> 0,05.

b) Sil y en a 5 ou moins de blancs dans léchantillon, vous pouvez rejoindre ct lhypothèse quil y a 100 billes blanches dans le sac et que les valeurs de p correspondantes pour 5 ou moins seront < 0,05. Vous vous attendez à ce que le sac contienne < 10% de billes blanches.

c) Sil y a 15 blancs ou plus dans léchantillon, vous pouvez rejeter lhypothèse selon laquelle sont 100 billes blanches dans le sac et les valeurs de p correspondantes pour 15 ou plus seront < 0,05. Vous vous attendez à ce que le sac contienne plus de 10% de billes blanches.

En réponse au commentaire de Baltimark

Compte tenu de lexemple ci-dessus, il y a environ : –

4.8% de chance dobtenir 5 boules blanches ou moins

1,85% de chance de 4 ou moins

0,55% de chance de 3 ou moins

0,1% de chance de 2 ou moins

6,25% de chance davoir 15 ou plus

3,25% de chance davoir 16 ou plus

1,5% de chance davoir 17 ou plus

0,65% de chance davoir 18 ou plus

0,25% de chance davoir 19 ou plus

0,1% de chance davoir 20 ou plus

0,05% de chance de 21 ou plus

Ces nombres ont été estimés à partir dune distribution empirique générée par une simple routine de Monte Carlo exécutée dans R et des quantiles résultants de la distribution déchantillonnage.

Pour répondre à la question initiale, supposons que vous tiriez 5 boules blanches, il y a seulement environ 4,8% de chances que si le sac de 1000 billes contient vraiment 10% de boules blanches, vous nen retiriez que 5 blancs dans un échantillon de 100. Cela équivaut à une valeur p < 0,05. Vous devez maintenant choisir entre

i) Il y a vraiment 10% de boules blanches dans le sac et je viens dêtre « malchanceux » den tirer si peu

ou

ii) Jai dessiné si peu de boules blanches quil ne peut « pas y avoir vraiment 10% de boules blanches (rejeter lhypothèse de 10% de boules blanches)

Commentaires

  • Tout dabord, ceci nest quun grand exemple et nexplique pas ‘ vraiment le concept de valeur p et de statistique de test. Deuxièmement, vous ‘ prétend simplement que si vous obtenez moins de 5 ou plus de 15 billes blanches, vous rejetez lhypothèse nulle. Quelle ‘ est votre distribution que vous ‘ calculer ces probabilités à partir de? Ceci peut être approximé avec une dist. normale centrée sur 10, avec un écart type de 3. Vos critères de rejet ne sont pas assez stricts.
  • Je conviens que ce nest quun exemple, et je suis vrai que je viens de choisir les nombres 5 et 15 sur un ir à des fins dillustration. Quand jaurai le temps, je publierai une deuxième réponse, qui, je lespère, sera plus complète.

Réponse

Ce que la valeur p ne vous dit pas, cest la probabilité que lhypothèse nulle soit vraie. Dans le cadre de test de signification conventionnel (Fisher), nous calculons dabord la probabilité dobserver les données en supposant que lhypothèse nulle est vraie, cest la Valeur p. Il semble alors intuitivement raisonnable de supposer que lhypothèse nulle est probablement fausse si les données sont suffisamment improbables pour être observées sous lhypothèse nulle. Cest tout à fait raisonnable. Les statisticiens utilisent couramment un seuil et « rejettent lhypothèse nulle à 95 % niveau de signification « si (1 – p)> 0,95; il ne sagit toutefois que dune convention qui sest avérée raisonnable en pratique – cela ne signifie pas quil y a moins de 5% de probabilité que lhypothèse nulle soit fausse (et donc un 95 % de probabilité que lhypothèse alternative soit vraie). Une des raisons pour lesquelles nous ne pouvons pas dire cela est que nous navons pas encore examiné lhypothèse alternative.

Imagerie dune fonction f () qui mappe la valeur p sur la probabilité que lhypothèse alternative soit vraie. Il serait raisonnable daffirmer que cette fonction est strictement décroissante (de sorte que plus les observations sous lhypothèse nulle sont probables, moins lhypothèse alternative est vraie), et quelle donne des valeurs comprises entre 0 et 1 (car elle donne une estimation Cependant, cest tout ce que nous savons sur f (), donc sil existe une relation entre p et la probabilité que lhypothèse alternative soit vraie, elle nest pas étalonnée. Cela signifie que nous ne pouvons pas utiliser la valeur p pour faire des énoncés quantitatifs sur la plausibilité des hypothèses nulll et alternatif.

Mise en garde du lecteur: Il nest pas vraiment dans le cadre fréquentiste de parler de la probabilité quune hypothèse soit vraie, car ce nest pas une variable aléatoire – cest soit vrai, soit ce nest pas le cas. Donc, là où jai parlé de la probabilité de la vérité dune hypothèse, je suis implicitement passé à une interprétation bayésienne. Il est incorrect de mélanger bayésien et fréquentiste, mais il y a toujours une tentation de le faire car ce que nous voulons vraiment, cest une indication quantitative de la plausibilité / probabilité relative des hypothèses. Mais ce nest pas ce que fournit la valeur p.

Réponse

Dans les statistiques, vous ne pouvez jamais dire que quelque chose est absolument certain, donc les statisticiens utilisent une autre approche pour évaluer si une hypothèse est vraie ou non. Ils essaient de rejeter toutes les autres hypothèses qui ne sont pas étayées par les données.

Pour ce faire, les tests statistiques ont une hypothèse nulle et une hypothèse alternative. La valeur p rapportée à partir dun test statistique est la probabilité du résultat étant donné que lhypothèse nulle était correcte. Cest pourquoi nous voulons de petites valeurs p. Plus elles sont petites, moins le résultat serait probable si lhypothèse nulle était correcte. Si la valeur p est suffisamment petite (cest-à-dire quil est très peu probable que le résultat ait survenue si lhypothèse nulle était correcte), alors lhypothèse nulle est rejetée.

De cette manière, des hypothèses nulles peuvent être formulées puis rejetées. Si lhypothèse nulle est rejetée, vous acceptez lhypothèse alternative comme la meilleure explication. Rappelez-vous cependant que lhypothèse alternative nest jamais certaine, puisque lhypothèse nulle aurait pu, par hasard, générer les résultats.

Commentaires

  • a p -value est la probabilité dun résultat égal ou supérieur à  » extrême  » que le résultat donné, pas du résultat réel. La valeur p est $ Pr (T \ geq t | H_0) $ et non $ Pr (T = t | H_0) $ (T est la statistique de test, et t est sa valeur observée).

Réponse

Je suis un peu hésitant à faire revivre lancien sujet, mais jai sauté de ici , donc je poste ceci en réponse à la question dans le lien.

La valeur p est un terme concret, il ne devrait pas y avoir de malentendu. Mais, il est en quelque sorte mystique que les traductions familières de la définition de la valeur p conduisent à de nombreuses interprétations erronées. Je pense que la racine du problème réside dans lutilisation des expressions « au moins aussi défavorable à lhypothèse nulle » ou « au moins aussi extrême que celle de vos exemples de données », etc.

Par exemple, Wikipedia dit

… la valeur p est la probabilité dobtenir les résultats de léchantillon observé (ou un résultat plus extrême) lorsque lhypothèse nulle est réellement vraie .

La signification de $ p $ -value est floue lorsque les gens tombent pour la première fois sur « (ou un résultat plus extrême) » et commencent à réfléchir «  plus extreeeme ? « .

Je pense quil vaut mieux laisser le » résultat plus extrême « à quelque chose comme acte de parole indirect . Donc, ma prise est

La valeur p est la probabilité de voir ce que vous voyez dans un « monde imaginaire » où lhypothèse nulle est vraie.

Pour concrétiser lidée, supposons que vous ayez un échantillon x composé de 10 observations et que vous émettez lhypothèse que la population la moyenne est $ \ mu_0 = 20 $. Donc, dans votre monde hypothétique, la répartition de la population est $ N (20,1) $.

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

Vous calculez t-stat comme $ t_0 = \ sqrt {n} \ frac {\ bar {X} – \ mu_0} {s} $, et découvrez que

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

Alors, quelle est la probabilité dobserver $ | t_0 | $ aussi grand que 2,97 (« plus extrême » vient ici) dans le un monde imaginaire? Dans le monde imaginaire $ t_0 \ sim t (9) $, ainsi, la valeur p doit être $$ p-value = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$

2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

Puisque la valeur p est petite, il est très peu probable que léchantillon x ait été dessiné dans le monde hypothétique. Par conséquent, nous concluons quil est très improbable que le monde hypothétique soit en fait le monde réel.

Commentaires

  • +1, mais quand vous écrivez  » probabilité de voir ce que vous voyez  » et omettre les  » plus extrêmes  » partie, cette phrase devient à proprement parler fausse (et potentiellement trompeuse, même si peut-être moins déroutante). Ce nest pas la probabilité de voir ce que vous voyez (elle est généralement nulle). Il sagit de la probabilité de voir ce que vous voyez  » ou plus extrême « . Même si cela peut être un peu déroutant pour beaucoup, cela reste crucial (et on peut discuter sans cesse du degré de subjectivité qui se cache derrière ce  » plus extrême  » libellé).
  • @amoeba Jai pensé que, lorsquun exemple adéquat était fourni, cela pourrait servir de proxy pour  » obtenir les résultats des échantillons observés (ou un résultat plus extrême) « . Peut-être faudrait-il une meilleure formulation.
  • Jallais faire la même observation que @amoeba; la partie  » ou plus extrême  » est bien gérée par lexemple dans les hauteurs des élèves et les réponses au thé, mais je ne ‘ Je ne pense pas que les réponses de ce fil de discussion aient donné une explication générale claire, en particulier une explication qui couvre différentes hypothèses alternatives. Je suis daccord avec cette réponse suggérant que la partie  » ou plus extrême  » est un point de friction conceptuel pour de nombreux étudiants.
  • @Silverfish: et pas seulement les étudiants. Combien de diatribes bayésiennes contre fréquentistes ai-je lu pour discuter de la question de la subjectivité / objectivité de ce bit  » plus extrême « !
  • @Silver Je suis daccord avec votre critique et jai publié une réponse pour y répondre.  » Ou plus extrême  » est le nœud du problème.

Réponse

Jai également trouvé que les simulations étaient utiles dans lenseignement.

Voici une simulation pour le cas sans doute le plus élémentaire dans lequel nous échantillonnons $ n $ fois à partir de $ N (\ mu, 1) $ (doù $ \ sigma ^ 2 = 1 $ est connu pour sa simplicité ) et testez $ H_0: \ mu = \ mu_0 $ par rapport à une alternative gauche.

Alors, la $ t $ -statistique $ \ text {tstat}: = \ sqrt {n} (\ bar {X} – \ mu_0) $ est $ N (0,1) $ sous $ H_0 $, de sorte que la valeur $ p $ soit simplement $ \ Phi (\ text {tstat}) $ ou pnorm(tstat) dans R.

Dans la simulation , cest la fraction de fois que les données générées sous la valeur nulle $ N (\ mu_0,1) $ (ici, $ \ mu_0 = 2 $) donnent des exemples de moyennes stockées dans nullMeans qui sont inférieurs (cest-à-dire «  plus extrêmes «  » dans ce test du côté gauche) que celui calculé à partir des données observées.

# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

Réponse

Je trouve utile de suivre une séquence dans laquelle vous expliquez les concepts dans lordre suivant: (1) Le score z et les proportions au-dessus et au-dessous du score z en supposant un courbe normale. (2) La notion de distribution déchantillonnage et le score z pour une moyenne déchantillon donnée lorsque lécart-type de la population est connu (et de là le test z à un échantillon) (3) Le test t à un échantillon et la vraisemblance dun moyenne de léchantillon lorsque lécart type de la population est inconnu (rempli dhistoires sur lidentité secrète dun certain statisticien industriel et pourquoi la Guinness est bonne pour les statistiques). (4) Le test t à deux échantillons et la distribution déchantillonnage des différences moyennes. La facilité avec laquelle les étudiants introductifs appréhendent le test t a beaucoup à voir avec le travail préparatoire à ce sujet.

/ * le mode de linstructeur des étudiants terrifiés est désactivé * /

Réponse

Que signifie une « valeur p » par rapport à lhypothèse testée?

Au sens ontologique (quest-ce que la vérité?), cela signifie rien . Tout test dhypothèse est basé sur hypothèses non testées . Cela fait normalement partie du test lui-même, mais fait également partie du modèle que vous utilisez (par exemple dans un modèle de régression). Puisque nous ne faisons que les supposer, nous ne pouvons pas savoir si la raison pour laquelle la valeur p est inférieure à notre seuil est que la valeur nulle est fausse. Cest un non sequitur de déduire inconditionnellement quen raison dune p-value faible, nous devons rejeter la valeur nulle. Par exemple, quelque chose dans le modèle pourrait être erroné.

Dans un sens épistémologique (que pouvons-nous apprendre?), cela signifie quelque chose . Vous acquérez des connaissances conditionnelles sur les prémisses non testées étant vraies. Puisque (au moins jusquà présent) nous ne pouvons pas prouver chaque édifice de la réalité, toutes nos connaissances seront nécessairement conditionnelles. Nous natteindrons jamais la « vérité ».

Réponse

Je nai pas encore prouvé largument suivant, il peut donc contenir des erreurs , mais je veux vraiment apporter mes deux cents (jespère que je vais bientôt le mettre à jour avec une preuve rigoureuse). Une autre façon de voir le $ p $ – la valeur est

$ p $ -value – Une statistique $ X $ telle que $$ \ forall 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x: F_ {X | H_0} (x) \ ge c \}) = c $$ $ F_ {X | H_0} $ est la fonction de distribution de $ X $ sous $ H_0 $ .

Plus précisément, si $ X $ a un distribution et vous n’utilisez pas d’approximation, alors

  1. Tous les $ p $ -value est une statistique avec une distribution uniforme sur $ [0, 1] $ , et
  2. Chaque statistique avec une distribution uniforme sur $ [0, 1] $ est un $ p $ -value.

Vous pouvez considérer ceci comme une description généralisée des valeurs de $ p $ .

Commentaires

  • Cette définition na de sens que pour les distributions discrètes (et nest donc pas correcte), car la deuxième apparition de  » $ P $  » indique clairement quil se réfère aux probabilités et non aux densités de probabilité. De plus, il existe extrêmement peu de distributions (le cas échéant) qui ont la propriété indiquée, ce qui suggère quil doit y avoir des erreurs typographiques dans la déclaration. En ce qui concerne vos affirmations ultérieures, (1) est idéalement vrai, mais (2) ne lest pas, à moins que vous ne permettiez à lhypothèse nulle de dépendre de la statistique!
  • @whuber Merci pour la contribution. Jai édité la définition, et cela devrait avoir plus de sens maintenant!
  • Cela a du sens, merci: si je ‘ m le lire correctement, il affirme que la distribution nulle de $ X $ est uniforme sur $ [0, 1]. $ Cependant, cela ne capture quune partie des propriétés des valeurs p; il ne caractérise pas les valeurs p; et il ne dit rien sur ce quils veulent dire ou comment les interpréter. Pensez à étudier certaines des autres réponses de ce fil pour obtenir des informations sur ce qui manque.
  • Voici un exemple que vous pourriez trouver intéressant. La famille de distribution est Uniform $ (\ theta, \ theta + 1) $ pour $ \ theta \ in \ mathbb {R}, $ lhypothèse nulle est $ \ theta = 0, $ et lalternative est son complément. Prenons un échantillon aléatoire $ \ mathbf {X} = (X_1, \ ldots, X_n). $ Définissez la statistique $ X (\ mathbf {X}) = X_1. $ Cela a évidemment une distribution uniforme sur $ [0,1] $ sous $ H_0: $ mais en quel sens est-ce une valeur p? Quel est le test dhypothèse correspondant? Supposons que nous prenions un échantillon de taille $ n = 1 $ et observions la valeur $ X_1 = -2: $ prétendez-vous que la valeur p est $ -2 $ ??

Réponse

Je pense que les exemples impliquant des billes ou des pièces de monnaie ou la mesure de la hauteur peuvent convenir pour pratiquer les mathématiques, mais ils ne sont pas bons pour développer lintuition. Vous aimez remettre en question la société, nest-ce pas? Pourquoi ne pas utiliser un exemple politique?

Imaginons quune candidate politique ait mené une campagne en promettant quune politique aidera léconomie. Elle a été élue, elle a fait adopter la politique et deux ans plus tard, léconomie est en plein essor. Elle est réélue et prétend que sa politique est la raison de la prospérité de tous. Devriez-vous la réélire?

Le citoyen attentionné devrait dire  » Eh bien, cest vrai que léconomie se porte bien, mais pouvons-nous vraiment attribuer cela à votre politique? Pour vraiment répondre à cela, il faut se poser la question « est-ce que léconomie aurait bien fonctionné au cours des 2 dernières années sans elle? » Si la réponse est oui (par exemple, léconomie est en plein essor en raison dun nouveau développement technologique indépendant), alors nous rejetons lexplication des données par le politicien.

Cest-à-dire dexaminer une hypothèse (la politique a aidé léconomie ), nous devons construire un modèle du monde où cette hypothèse est nulle (la politique na jamais été appliquée). Nous faisons ensuite une prédiction sous ce modèle. Nous appelons la probabilité dobserver ces données dans ce monde alternatif la valeur p . Si la valeur p est trop élevée, alors nous ne sommes pas convaincus par lhypothèse – la politique na fait aucune différence. Si la valeur de p est faible, alors nous faisons confiance à lhypothèse – la politique était essentielle.

Commentaires

  • Je ne suis pas daccord avec le p étant défini comme  » Nous appelons la probabilité dobserver ces données dans ce monde alternatif la valeur p  » et aussi la force de la conclusion tirée ( en particulier léchec de rejeter la null).
  • @Silverfish Pourriez-vous élaborer? Il serait probablement plus correct dappeler la valeur p la probabilité de faire cette observation OU une observation plus extrême. Mais il semble que vous ayez une critique plus profonde.
  • Puisque la question initiale est de savoir ce quest une valeur p, jai pensé quil était important de faire passer cette définition clairement. Dire simplement  » plus extrême  » nest pas ‘ est en soi très utile sans expliquer ce que  » plus extrême  » pourrait signifier – que ‘ est une faiblesse de la plupart des réponses dans ce fil I pense. Seules la réponse de whuber ‘ et le  » tea test  » semblent vraiment expliquer pourquoi les  » plus extrêmes  » importent aussi.
  • Jai également estimé que vos conclusions sont formulé trop fortement. Si nous rejetons la valeur nulle, nous avons des preuves significatives contre elle, mais ne ‘ ne savez pas que ‘ est faux. Lorsque nous ne parvenons pas à rejeter la valeur nulle, cela ne signifie certainement pas ‘ que la valeur nulle est vraie (bien que cela puisse être). En guise de commentaire plus général, j’ai l’impression que le test que vous ‘ décrivez, en termes assez abstraits, n’est pas susceptible d’être clair pour un apprenant qui apprend simplement à effectuer un test . Labsence dune statistique de test clairement définie ne ‘ ne correspond pas bien à la question initiale demandant comment interpréter t -statistique.
  • Une caractéristique de cette réponse que jaime beaucoup est lexplication claire selon laquelle les valeurs p sont calculées à laide dun modèle nul, même si nous ne ‘ t (subjectivement) que le modèle nul est en fait vrai. Je pense que les statistiques de test de faits sont calculées sous un modèle est un point clé avec lequel de nombreux élèves ont du mal.

Réponse

La valeur p nest pas aussi mystérieuse que la plupart des analystes le prétendent.Cest une façon de ne pas avoir à calculer lintervalle de confiance pour un test t mais simplement de déterminer le niveau de confiance avec lequel lhypothèse nulle peut être rejetée.

ILLUSTRATION. Vous exécutez un test. La valeur p sélève à 0,1866 pour la variable Q, 0,0023 pour la variable R. (Celles-ci sont exprimées en%).

Si vous testez à un niveau de confiance de 95% pour rejeter lhypo nulle;

pour Q: 100-18,66 = 81,34%

pour R: 100-0,23 = 99,77%.

À un niveau de confiance de 95%, Q donne une confiance de 81,34% à rejeter. Cela tombe en dessous de 95% et est inacceptable. ACCEPTER NULL.

R donne une confiance de 99,77% pour rejeter null. Clairement au-dessus des 95% souhaités. Nous rejetons donc la valeur nulle.

Je viens dillustrer la lecture de la valeur p par une « manière inverse » de la mesurer jusquau niveau de confiance auquel nous rejetons lhypo nulle.

Commentaires

  • Bienvenue sur le site. Quentendez-vous par $ Q $ -variable et $ R $ -variable? Précisez sil vous plaît. De plus, lutilisation de lexpression  » accept null  » est généralement considérée comme assez indésirable, voire trompeuse.
  • @cardinal souligne un point important. Vous ‘ naccepterez pas la valeur NULL.

Réponse

****** La valeur p lors du test dhypothèse mesure la sensibilité du test. Plus la valeur p est basse, plus la sensibilité est élevée. si le niveau de signification est fixé à 0,05, la valeur p de 0,0001 indique une forte probabilité que les résultats du test soient corrects ******

Commentaires

  • -1 Cest clairement faux. Vous voudrez peut-être lire dabord les réponses aux votes les plus élevés.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *