Supposons que jai un échantillon aléatoire $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.
Supposons $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$
et $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$
Quelle est la différence entre $ \ beta_1 $ et $ \ hat {\ beta} _1 $?
Commentaires
- $ \ beta $ est votre coefficient réel et $ \ hat {\ beta} $ est votre estimateur de $ \ beta $.
- Isn ‘ Est-ce une copie dun article précédent? Je serais surpris …
Réponse
$ \ beta_1 $ est une idée – ce nest pas le cas Mais si lhypothèse de Gauss-Markov est vraie, $ \ beta_1 $ vous donnerait cette pente optimale avec des valeurs au-dessus et en dessous sur une « tranche » verticale verticale à la variable dépendante formant une belle distribution gaussienne normale des résidus. $ \ hat \ beta_1 $ est lestimation de $ \ beta_1 $ basée sur léchantillon.
Lidée est que vous travaillez avec un échantillon dune population. Votre échantillon forme un nuage de données, si vous voulez . Lune des dimensions correspond à la variable dépendante et vous essayez dajuster la ligne qui minimise les termes derreur – dans OLS, il sagit de la projection de la variable dépendante sur le sous-espace vectoriel formé par lespace des colonnes de la matrice du modèle. Ces les estimations des paramètres de population sont indiquées par le symbole $ \ hat \ beta $. Plus vous avez de points de données, plus les coefficients estimés sont précis, $ \ hat \ beta_i $ et le pari ter lestimation de ces coefficients de population idéalisés, $ \ beta_i $.
Voici la différence de pentes ($ \ beta $ versus $ \ hat \ beta $) entre la « population » en bleu et la échantillon dans des points noirs isolés:
La ligne de régression est en pointillé et en noir, tandis que la ligne «population» synthétiquement parfaite est en bleu uni. Labondance des points donne une idée tactile de la normalité de la distribution des résidus.
Réponse
Le » hat » symbole indique généralement une estimation, par opposition au » true » valeur. Par conséquent, $ \ hat {\ beta} $ est une estimation de $ \ beta $ . Quelques symboles ont leurs propres conventions: la variance de léchantillon, par exemple, est souvent écrite comme $ s ^ 2 $ , pas $ \ hat {\ sigma} ^ 2 $ , bien que certaines personnes utilisent les deux pour faire la distinction entre les estimations biaisées et non biaisées.
Dans votre cas particulier, le $ \ hat {\ beta} $ sont des estimations de paramètres pour un modèle linéaire. Le modèle linéaire suppose que la variable de résultat $ y $ est générée par une combinaison linéaire des valeurs de données $ x_i $ s, chacun pondéré par la valeur correspondante de $ \ beta_i $ (plus une erreur $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$
En pratique, bien sûr, les valeurs » true » $ \ beta $ sont généralement inconnu et peut même ne pas exister (peut-être que les données ne sont pas générées par un modèle linéaire). Néanmoins, nous pouvons estimer des valeurs à partir des données qui se rapprochent de $ y $ et ces estimations sont notées $ \ hat {\ beta } $ .
Réponse
Léquation $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $
est ce quon appelle le vrai modèle. Cette équation dit que la relation entre la variable $ x $ et la variable $ y $ peut être expliquée par une ligne $ y = \ beta_0 + \ beta_1x $. Cependant, comme les valeurs observées ne suivront jamais cette équation exacte (en raison derreurs), un terme derreur supplémentaire $ \ epsilon_i $ est ajouté pour indiquer les erreurs. Les erreurs peuvent être interprétées comme des écarts naturels par rapport à la relation entre $ x $ et $ y $. Ci-dessous, je montre deux paires de $ x $ et $ y $ (les points noirs sont des données). En général, on peut voir que lorsque $ x $ augmente, $ y $ augmente. Pour les deux paires, la vraie équation est $$ y_i = 4 + 3x_i + \ epsilon_i $$ mais les deux graphiques présentent des erreurs différentes. Le tracé de gauche contient de grandes erreurs et le tracé de droite de petites erreurs (car les points sont plus serrés). (Je connais la vraie équation parce que jai généré les données moi-même. En général, vous ne connaissez jamais la vraie équation)
Regardons le tracé sur la gauche. Le vrai $ \ beta_0 = 4 $ et le vrai $ \ beta_1 $ = 3.Mais dans la pratique, lorsquon leur donne des données, nous ne connaissons pas la vérité. Nous estimons la vérité. Nous estimons $ \ beta_0 $ avec $ \ hat {\ beta} _0 $ et $ \ beta_1 $ avec $ \ hat {\ beta} _1 $. Selon les méthodes statistiques utilisées, les estimations peuvent être très différentes. Dans le paramètre de régression, les estimations sont obtenue via une méthode appelée Moindres carrés ordinaires. Cette méthode est également connue sous le nom de méthode de la ligne de meilleur ajustement. En gros, vous devez tracer la ligne qui correspond le mieux aux données. Je ne parle pas ici de formules, mais en utilisant la formule pour OLS, vous obtenez
$$ \ hat {\ beta} _0 = 4.809 \ quad \ text {et} \ quad \ hat {\ beta} _1 = 2.889 $$
et le résultat la ligne de meilleur ajustement est,
Un exemple simple serait la relation entre la taille des mères et des filles. Soit $ x = $ taille des mères et $ y $ = taille des filles. Naturellement, on sattendrait à des mères plus grandes avoir des filles plus grandes (en raison de la similitude génétique). Cependant, pensez-vous quune équation puisse résumer exactement la taille dune mère et dune fille, de sorte que si je connais la taille de la mère, je serai capable de prédire la taille exacte de la fille? Non. Dun autre côté, on pourrait être en mesure de résumer la relation à laide dune sur une instruction moyenne.
TL DR: $ \ beta $ est la vérité sur la population. Il représente la relation inconnue entre $ y $ et $ x $. Comme nous ne pouvons pas toujours obtenir toutes les valeurs possibles de $ y $ et $ x $, nous collectons un échantillon de la population et essayons et estimer $ \ beta $ en utilisant les données. $ \ hat {\ beta} $ est notre estimation. Cest une fonction des données. $ \ beta $ nest pas une fonction des données, mais la vérité.