Je suis un noob en statistiques, alors pourriez-vous maider ici.
Ma question est la suivante: Quest-ce que la variance groupée en fait signifie?
Quand je cherche une formule pour la variance groupée sur Internet, je trouve beaucoup de littérature utilisant la formule suivante (par exemple, ici: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
\ begin {equation} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {équation}
Mais que signifie-t-il en fait calculer? Parce que lorsque jutilise cette formule pour calculer ma variance groupée, cela me donne une mauvaise réponse.
Par exemple, considérons ces « échantillons parents »:
\ begin {equation} \ label { eq: parentsample} 2,2,2,2,2,8,8,8,8,8 \ end {equation}
La variance de cet échantillon parent est $ S ^ 2_p = 10 $, et sa moyenne est $ \ bar {x} _p = 5 $.
Maintenant, supposons que je divise cet échantillon parent en deux sous-échantillons:
- Le premier sous-échantillon est 2,2,2,2,2 avec une moyenne $ \ bar {x} _1 = 2 $ et variance $ S ^ 2_1 = 0 $.
- Le deuxième sous-échantillon est 8,8,8,8,8 avec une moyenne $ \ bar {x} _2 = 8 $ et variance $ S ^ 2_2 = 0 $.
Maintenant, clairement, utiliser la formule ci-dessus pour calculer la variance poolée / parent de ces deux sous-échantillons produira zéro, car $ S_1 = 0 $ et $ S_2 = 0 $. Alors que calcule cette formule en fait ?
Dun autre côté, après une longue dérivation, jai trouvé la formule qui produit la bonne variance poolée / parent est:
\ begin {équation} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {equation}
Dans la formule ci-dessus, $ d_1 = \ bar {x_1} – \ bar {x} _p $ et $ d_2 = \ bar {x_2 } – \ bar {x} _p $.
Jai trouvé une formule similaire avec la mienne, par exemple ici: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html et aussi sur Wikipedia. Bien que je doive admettre quils ne ressemblent pas exactement au mien.
Encore une fois, que signifie réellement la variance groupée? Ne devrait-elle pas signifier la variance de léchantillon parent des deux sous-échantillons ? Ou je me trompe complètement ici?
Merci davance.
EDIT 1: Quelquun dit que mes deux sous-échantillons ci-dessus sont pathologiques car ils ont une variance nulle. Eh bien, je pourrais vous donner un exemple différent. Considérez cet exemple parent:
\ begin {equation} \ label {eq: parentsample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}
La variance de cet échantillon parent est $ S ^ 2_p = 564,7 $, et sa moyenne est $ \ bar {x} _p = 25,5 $.
Maintenant, supposons que je divise cet échantillon parent en deux sous-échantillons:
- Le premier sous-échantillon est 1,2,3,4,5 avec une moyenne $ \ bar {x} _1 = 3 $ et variance $ S ^ 2_1 = 2,5 $.
- Le deuxième sous-échantillon est 46,47,48,49,50 avec une moyenne $ \ bar {x} _2 = 48 $ et variance $ S ^ 2_2 = 2,5 $.
Maintenant, si vous utilisez la « formule de la littérature » « pour calculer la variance groupée, vous obtiendrez 2,5, ce qui est complètement faux, car la variance parent / mise en commun devrait être 564,7. Au lieu de cela, si vous utilisez « ma formule », vous obtiendrez une réponse correcte.
Comprenez bien, jutilise des exemples extrêmes ici pour montrer aux gens que la formule est en effet fausse. Si jutilise des « données normales » qui nont pas beaucoup de variations (cas extrêmes), alors les résultats de ces deux formules seront très similaires et les gens pourraient ignorer la différence en raison dune erreur darrondi, pas parce que la formule elle-même est faux.
Commentaires
- Quelques liens connexes vers laide: stats.stackexchange.com/q / 214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q / 43159/3277 .
- En tant quétudiant en statistique, je pense que la première formule est utilisée pour estimer la variance de la différence de la moyenne de deux échantillons , afin que vous puissiez former Statistiques Z ~ N (0,1) sous hypothèse nulle. Cependant, la deuxième formule est la variance de concaténation de deux échantillons . Si nous voulons les distinguer, non seulement de leur aspect littéral mais aussi de leur fonctionnalité .
Réponse
En termes simples, la variance groupée est une estimation (sans biais) de la variance au sein de chaque échantillon, sous lhypothèse / contrainte que ces variances sont égales.
Ceci est expliqué, motivé et analysé en détail dans l entrée Wikipedia pour la variance groupée .
Cest le cas pas estimer la variance dun nouveau » méta-échantillon « formé en concaténant les deux échantillons individuels, comme vous lavez supposé. Comme vous lavez déjà découvert, lestimation de cela nécessite une formule complètement différente.
Commentaires
- Lhypothèse de l » égalité » (cest-à-dire que la même population a réalisé ces échantillons) nest pas nécessaire en général pour définir ce que cest – » groupé « . Pooled signifie simplement en moyenne, omnibus (voir mon commentaire à Tim).
- @ttnphns Je pense que lhypothèse dégalité est nécessaire pour donner à la variance groupée un sens conceptuel (que lOP a demandé) qui va au-delà du simple verbal décrivant lopération mathématique quil effectue sur les variances de léchantillon. Si les variances de population ne sont pas supposées égales, alors ‘ ne sait pas ce que nous pourrions considérer comme une estimation de la variance groupée. Bien sûr, nous pourrions simplement y penser comme étant une fusion des deux variances et en rester là, mais cela ‘ nest guère éclairant en labsence de toute motivation pour vouloir combiner les écarts en premier lieu.
- Jake, je ‘ ne suis pas en désaccord avec cela, étant donné la question spécifique du PO, mais je voulais en parler définition du mot » pooled « , que ‘ s pourquoi jai dit, » en général « .
- @JakeWestfall Votre réponse est la meilleure à ce jour. Merci. Bien que je ne sois toujours pas clair sur une chose. Selon Wikipédia, la variance groupée est une méthode destimation de la variance de plusieurs populations différentes lorsque la moyenne de chaque population peut être différente , mais on peut supposer que la variance de chaque population est identique .
- @JakeWestfall: Donc, si nous calculons la variance combinée de deux populations différentes avec des moyennes différentes, que calcule-t-il réellement? Parce que la première variance mesure la variation par rapport à la première moyenne, et la seconde variance est par rapport à la seconde moyenne. ‘ je ne sais pas quelles informations supplémentaires peuvent être obtenues en le calculant.
Réponse
La variance groupée est utilisée pour combiner les variances de différents échantillons en prenant leur moyenne pondérée, pour obtenir la variance « globale ». Le problème avec votre exemple est quil sagit dun cas pathologique, puisque chacun des sous-échantillons a une variance égale à zéro. Un tel cas pathologique a très peu de points communs avec les données que nous rencontrons habituellement, car il y a toujours une certaine variabilité et sil ny a pas de variabilité, nous ne nous soucions pas de ces variables car elles ne portent aucune information. Vous devez noter quil sagit dun méthode très simple et il existe des méthodes plus compliquées destimation de la variance dans les structures de données hiérarchiques qui ne sont pas sujettes à de tels problèmes.
En ce qui concerne votre exemple dans lédition, cela montre quil est important dénoncer clairement vos hypothèses avant de commencer lanalyse. Disons que vous avez $ n $ points de données dans des groupes $ k $, nous le désignerons par $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, où le $ i $ -th index dans $ x_ {i, j} $ représente les cas et $ j $ -th index représente les index de groupe. Il existe plusieurs scénarios possibles, vous pouvez supposer que tous les points proviennent de la même distribution (pour simplifier, supposons une distribution normale),
$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$
vous pouvez supposer que chacun des sous-échantillons a sa propre moyenne
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$
ou, sa propre variance
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$
ou, chacun deux a ses propres paramètres distincts
$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$
Selon vos hypothèses, une méthode particulière peut, ou peut ne pas convenir pour analyser les données.
Dans le premier cas, vous ne seriez pas intéressé à estimer les variances intra-groupe, puisque vous supposeriez quelles sont toutes identiques. Néanmoins, si vous agrégiez la variance globale à partir des variances de groupe, vous obtiendriez le même résultat quen utilisant la variance groupée puisque la définition de la variance est
$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$
et dans lestimateur groupé, vous le multipliez dabord par $ n-1 $, puis additionnez, et enfin divisez par $ n_1 + n_2 – 1 $.
Dans le second cas, signifie différent, mais vous avez une variance commune. Cet exemple est le plus proche de votre exemple dans lédition. Dans ce scénario, la variance groupée estimerait correctement la variance globale, tandis que si la variance estimée sur lensemble de données, vous obtiendriez des résultats incorrects, car vous ne teniez pas compte du fait que les groupes ont des moyennes différentes .
Dans le troisième cas, il n’est pas logique d’estimer la variance «globale» puisque vous supposez que chacun des groupes a sa propre variance.Vous voudrez peut-être toujours obtenir lestimation pour lensemble de la population, mais dans ce cas à la fois (a) calcul des variances individuelles par groupe et (b) calcul de la variance globale à partir de lensemble de données, peut vous donner des résultats trompeurs . Si vous avez affaire à ce type de données, vous devriez penser à utiliser un modèle plus compliqué qui tient compte de la nature hiérarchique des données.
Le quatrième cas est le plus extrême et assez similaire au précédent. Dans ce scénario, si vous vouliez estimer la moyenne et la variance globales, vous auriez besoin dun modèle différent et dun ensemble dhypothèses différent. Dans ce cas, vous supposeriez que vos données sont de structure hiérarchique, et en plus des moyennes et des variances intra-groupe, il existe une variance commune de niveau supérieur, par exemple en supposant le modèle suivant
$$ \ begin {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$
où chaque échantillon a ses propres moyennes et variances $ \ mu_j, \ sigma ^ 2_j $ qui sont elles-mêmes tirées de distributions courantes. Dans ce cas, vous utiliseriez un modèle hiérarchique qui prend en compte à la fois la variabilité de niveau inférieur et de niveau supérieur. Pour en savoir plus sur ce type de modèles, vous pouvez consulter le livre Bayesian Data Analysis de Gelman et al. et leur exemple de huit écoles . Cest cependant un modèle beaucoup plus compliqué que lestimateur de variance groupée simple.
Commentaires
- Jai mis à jour ma question avec un exemple différent. Dans ce cas, la réponse de la formule » ‘ » est toujours erronée. Je comprends que nous avons généralement affaire à des » données normales » où il ny a pas de cas extrême comme mon exemple ci-dessus. Cependant, en tant que mathématiciens, vous ne devriez ‘ t vous soucier de quelle formule est effectivement correcte, au lieu de quelle formule sapplique dans » problème quotidien / courant « ? Si une formule est fondamentalement fausse, elle doit être écartée, surtout si il y a une autre formule qui tient dans tous les cas, pathologique ou non.
- Dailleurs, vous avez dit quil y a des moyens plus compliqués destimation de la variance. Pouvez-vous me montrer ces moyens? Merci
- Tim, la variance groupée nest pas la variance totale de léchantillon combiné » « . En statistique, » pooled » signifie moyenné pondéré (quand on parle de quantités moyennes telles que les variances, les poids étant les n ‘ s) ou simplement additionnés (quand on parle de sommes telles que les scatters, les sommes de carrés) . Veuillez reconsidérer votre terminologie (choix des mots) dans la réponse.
- Bien que hors du sujet actuel, voici une question intéressante sur » common » concept de variance. stats.stackexchange.com/q/208175/3277
- Hanciong. Jinsiste sur le fait que » pooled » en général et même spécifiquement » pooled variance » le concept ne nécessite, en général, aucune hypothèse telle que: les groupes provenaient de populations avec des variances égales. La mise en commun consiste simplement en un mélange (moyenne pondérée ou addition). Cest dans lANOVA et dans des circonstances similaires que nous ajoutons cette hypothèse statistique.
Réponse
Le problème est si il suffit de concaténer les échantillons et destimer sa variance. Vous supposez quils sont issus de la même distribution et vous avez donc la même moyenne. Mais nous nous intéressons en général à plusieurs échantillons de moyenne différente. Cela a-t-il un sens?
Réponse
Le cas dutilisation de la variance groupée est lorsque vous avez deux échantillons de distributions qui:
- peut avoir des moyennes différentes, mais
- que vous pensez avoir une variance vraie égale.
Un exemple de ceci est une situation où vous mesurez la longueur du nez dAlice $ n $ fois pour un échantillon, et mesurez la longueur du nez de Bob $ m $ fois pour le second. Ceux-ci sont susceptibles de produire un tas de mesures différentes à léchelle du millimètre, en raison dune erreur de mesure. Mais vous vous attendez à ce que la variance de lerreur de mesure soit la même quel que soit le nez que vous mesurez.
Dans ce cas, prendre la variance groupée vous donnerait une meilleure estimation de la variance de lerreur de mesure que de prendre la variance dun seul échantillon.
Commentaires
- Merci pour votre réponse, mais je ne ‘ pas comprendre une chose . Les premières données vous donnent la variance par rapport à la longueur du nez dAlice ‘, et les secondes données vous donnent la variance par rapport à Bob ‘ s longueur du nez. Si vous calculez une variance groupée à partir de ces données, quest-ce que cela signifie réellement? Parce que la première variance mesure la variation par rapport à Alice ‘ s, et la seconde par rapport à Bob ‘ s, alors quoi de plus peut-on obtenir des informations en calculant leur variance groupée? Ce sont des nombres complètement différents.
Réponse
Grâce à la variance mise en commun, nous nessayons pas destimer la variance dun échantillon plus grand, en utilisant des échantillons plus petits. Par conséquent, les deux exemples que vous avez donnés ne font pas exactement référence à la question.
La variance groupée est nécessaire pour obtenir une meilleure estimation de la variance de la population, à partir de deux échantillons qui ont été prélevés au hasard dans cette population et qui proviennent avec des estimations de variance différentes.
Par exemple, vous essayez dévaluer la variance des habitudes de tabagisme chez les hommes à Londres. Vous échantillonnez deux fois 300 hommes de Londres. Vous obtenez deux variances (probablement un peu différentes !). Maintenant que vous avez effectué un échantillonnage aléatoire équitable (au mieux de vos capacités! Car un véritable échantillonnage aléatoire est presque impossible), vous avez tous les droits de dire que les deux variances sont de véritables estimations ponctuelles de la variance de la population (les hommes de London dans ce cas).
Mais comment est-ce possible? cest-à-dire deux estimations ponctuelles différentes !! Ainsi, nous allons de lavant et trouvons une estimation ponctuelle commune qui est la variance mise en commun. Ce nest rien dautre quune moyenne pondérée de deux estimations ponctuelles, où les poids sont le degré de liberté associé à chaque échantillon.
Jespère que cela clarifie.
Réponse
Bien que je sois très en retard dans la conversation, je peux peut-être ajouter quelque chose dutile:
Il me semble que lOP veut savoir pourquoi (pour quoi) nous aurions besoin dune estimation de la variabilité groupée $ \ hat \ sigma_ {pooled} $ comme une moyenne pondérée de deux échantillons (soit (variance ou écart-type).
Pour autant que je sache, le besoin principal le type de mesure de dispersion provient du fait de vouloir comparer les moyennes de (sous-) groupes: donc si je veux comparer la longueur moyenne du nez pour 1) les personnes qui nont pas subi de thérapie génique, 2) les personnes qui ont subi une thérapie génique A et 3) personnes qui ont suivi une thérapie génique B.
Pour être mieux en mesure de comparer le montant des différences moyennes de longueur (mm), je divise la différence moyenne, disons, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ par lestimation de la variabilité (ici écart-type ation). En fonction de la taille de la racine carrée de la variance groupée (écart-type groupé), nous pouvons mieux juger de la taille de la différence de 2 mm entre ces groupes (par exemple, $ d = 2 mm / 0,5 mm = 4 $ vs $ d = 2mm / 4mm = 0,5 $ – > La thérapie génique A fait-elle quelque chose à la longueur du nez? Et si oui, combien? Quand $ d = 4 $ ou 2 $ \ pm 0,5 mm $ il semble y avoir une » stable » ou » cohérente » ou » big » (par rapport à la variabilité) différence entre les longueurs moyennes de nez, lorsque $ d = 0,5 $ ou $ 2 \ pm 4mm $ cela ne semble pas tellement, relativement parlant. cas toutes les valeurs dans les deux groupes sont les mêmes et donc il ny a pas de variabilité wit hdans les groupes, $ d $ ne serait pas défini mais linterprétation serait $ 2 \ pm 0mm = 2mm $ exactement).
Cest lidée de taille de leffet (dabord théoriquement introduite par Neyman et Pearson pour autant que je sache, mais sous une forme ou une autre utilisée bien avant, voir Stigler, 1986 , par exemple).
Ce que je fais, cest comparer la différence moyenne entre les groupes avec les différences moyennes au sein de ces mêmes groupes, cest-à-dire la moyenne pondérée des variances (écarts-types). Cela a plus de sens que de comparer la différence moyenne entre les (sous-) groupes avec la différence moyenne au sein du groupe » entier « , car , comme vous (Hanciong) lavez montré, la variance (et lécart type) de lensemble du groupe contient également la (les) différence (s) des moyennes du groupe.
Le théorique besoin de la mesure découle de la capacité dutiliser les mathématiques $ t $ -distribution pour trouver la probabilité de la différence moyenne observée ou une différence plus extrême, étant donné une valeur attendue pour la différence moyenne (valeur p pour, par exemple, Null-Hypothesis-Significance-Test , NHST, ou test dhypothèse Neyman-Pearson ou test dhypothèse de Fisher, intervalles de confiance, etc.): $ p (e \ ge e_ {observé} | \ mu_e = 0) $ .
Pour autant que je sache, la p-value obtenue par la $ t $ -distribution (et en particulier le $ F $ -distribution dans les cas avec plus de 2 moyens à comparer) ne donnera des estimations correctes de la probabilité que lorsque les deux (ou tous) échantillons sont tirés de populations avec des variances égales (homogénéité de la variance, comme indiqué dans les autres réponses déjà; cela devrait être décrit en (plus) détail en m la plupart des manuels de statistiques). Je pense que toutes les distributions basées sur la distribution normale ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) supposent une variance de plus de 0 et de moins de $ \ infty $ , donc ce serait impossible de trouver la valeur p pour un cas avec une variabilité intra de 0 (dans ce cas, vous ne supposeriez évidemment pas avoir tiré votre échantillon dune distribution normale).
(Cela semble aussi intuitivement raisonnable: si je veux pour comparer deux ou plusieurs moyennes, la précision de ces moyennes doit être la même ou au moins comparable:
si jexécute ma thérapie génique A sur des personnes dont la longueur du nez est assez similaire, disons $ \ bar x \ pm 0,5 mm $ mais jai un groupe de personnes avec une grande variabilité de la longueur du nez dans mon groupe de contrôle, disons $ \ bar x \ pm 4 mm $ il ne semble pas juste de comparer directement ces moyens, car ces moyens n’ont pas le même » signifie-signification « ; en fait, la variance / écart-type beaucoup plus élevée dans mon groupe témoin pourrait indiquer dautres sous-groupes, peut-être des différences de longueurs de nez dues à des différences sur certains gènes.)