Care este diferența dintre $ \ beta_1 $ și $ \ hat {\ beta} _1 $?

Să presupunem că am un eșantion aleatoriu $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.

Să presupunem $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$

și $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$

Care este diferența dintre $ \ beta_1 $ și $ \ hat {\ beta} _1 $?

Comentarii

  • $ \ beta $ este coeficientul dvs. real, iar $ \ hat {\ beta} $ este estimatorul dvs. de $ \ beta $.
  • Isn ‘ nu este un duplicat al unei postări anterioare? Aș fi surprins …

Răspuns

$ \ beta_1 $ este o idee – nu este există cu adevărat în practică. Dar dacă presupunerea lui Gauss-Markov se menține, $ \ beta_1 $ ți-ar oferi acea pantă optimă cu valori deasupra și dedesubt pe o verticală „felie” verticală la variabila dependentă formând o distribuție gaussiană normală a reziduurilor. $ \ hat \ beta_1 $ este estimarea de $ \ beta_1 $ pe baza eșantionului.

Ideea este că lucrați cu un eșantion dintr-o populație. Eșantionul dvs. formează un nor de date, dacă doriți Una dintre dimensiuni corespunde variabilei dependente și încercați să se potrivească liniei care minimizează termenii de eroare – în OLS, aceasta este proiecția variabilei dependente pe subspaiul vector format din spațiul coloanei din matricea modelului. estimările parametrilor populației sunt notate cu simbolul $ \ hat \ beta $. Cu cât aveți mai multe puncte de date, cu atât sunt mai corecți coeficienții estimate, $ \ hat \ beta_i $ și pariul după estimarea acestor coeficienți de populație idealizați, $ \ beta_i $.

Iată diferența de pante ($ \ beta $ versus $ \ hat \ beta $) între „populația” în albastru și proba în puncte negre izolate:

introduceți descrierea imaginii aici

Linia de regresie este punctată și în negru, în timp ce linia „populație” sintetic perfectă este în albastru continuu. Abundența de puncte oferă un sens tactil al normalității distribuției reziduurilor.

Răspuns

” simbolul ” indică, în general, o estimare, spre deosebire de ” true ” valoare. Prin urmare, $ \ hat {\ beta} $ este o estimare a $ \ beta $ . Câteva simboluri au propriile convenții: varianța eșantionului, de exemplu, este adesea scrisă ca $ s ^ 2 $ , nu $ \ hat {\ sigma} ^ 2 $ , deși unii oameni folosesc ambele pentru a face distincția între estimările părtinitoare și cele imparțiale.

În cazul dvs. specific, Valorile $ \ hat {\ beta} $ sunt estimări ale parametrilor pentru un model liniar. Modelul liniar presupune că variabila de rezultat $ y $ este generată de o combinație liniară a valorilor datelor $ x_i $ s, fiecare ponderat de valoarea $ \ beta_i $ corespunzătoare (plus unele erori $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$

În practică, desigur, ” adevărat ” $ \ beta $ sunt de obicei necunoscut și poate să nu existe (poate că datele nu sunt generate de un model liniar). Cu toate acestea, putem estima valori din datele care aproximează $ y $ , iar aceste estimări sunt notate ca $ \ hat {\ beta } $ .

Răspuns

Ecuația $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $

este ceea ce se numește adevăratul model. Această ecuație spune că relația dintre variabila $ x $ și variabila $ y $ poate fi explicată printr-o linie $ y = \ beta_0 + \ beta_1x $. Cu toate acestea, deoarece valorile observate nu vor urma niciodată acea ecuație exactă (din cauza erorilor), se adaugă un termen suplimentar de eroare $ \ epsilon_i $ pentru a indica erori. Erorile pot fi interpretate ca abateri naturale de la relația $ x $ și $ y $. Mai jos arăt două perechi de $ x $ și $ y $ (punctele negre sunt date). În general, se poate vedea că pe măsură ce $ x $ crește $ y $ crește. Pentru ambele perechi, adevărata ecuație este $$ y_i = 4 + 3x_i + \ epsilon_i $$, dar cele două grafice au erori diferite. Complotul din stânga are erori mari, iar complotul din dreapta, erori mici (deoarece punctele sunt mai strânse). (Știu adevărata ecuație, deoarece am generat datele pe cont propriu. În general, nu știi niciodată adevărata ecuație) introduceți descrierea imaginii aici

Să vedem complotul din stânga. Adevăratul $ \ beta_0 = 4 $ și adevăratul $ \ beta_1 $ = 3.Dar, în practică, atunci când sunt date, nu cunoaștem adevărul. Deci, estimăm adevărul. Estimăm $ \ beta_0 $ cu $ \ hat {\ beta} _0 $ și $ \ beta_1 $ cu $ \ hat {\ beta} _1 $. În funcție de metodele statistice utilizate, estimările pot fi foarte diferite. În setarea de regresie, estimările sunt obținut printr-o metodă numită Ordinary Least Squares. Aceasta este, de asemenea, cunoscută sub numele de metoda liniei celei mai potrivite. Practic, trebuie să trasați linia care se potrivește cel mai bine datelor. Nu discutăm formulele aici, ci folosesc formula pentru OLS, primiți

$$ \ hat {\ beta} _0 = 4.809 \ quad \ text {și} \ quad \ hat {\ beta} _1 = 2.889 $$

și rezultatul linia cea mai potrivită este, introduceți descrierea imaginii aici

Un exemplu simplu ar fi relația dintre înălțimile mamelor și fiicelor. Fie $ x = $ înălțimea mamelor și $ y $ = înălțimea fiicelor. Bineînțeles, ne-am aștepta la mame mai înalte a avea fiice mai înalte (datorită similitudinii genetice). Cu toate acestea, credeți că o ecuație poate rezuma exact înălțimea unei mame și a unei fiice, astfel încât, dacă știu înălțimea mamei, voi putea prezice înălțimea exactă a fiicei? Nu. Pe de altă parte, s-ar putea rezuma relația cu ajutorul unei pe o declarație medie .

TL DR: $ \ beta $ este adevărul populației. Reprezintă relația necunoscută între $ y $ și $ x $. Deoarece nu putem obține întotdeauna toate valorile posibile de $ y $ și $ x $, colectăm un eșantion de la populație și încercăm și estimăm $ \ beta $ folosind datele. $ \ hat {\ beta} $ este estimarea noastră. Este o funcție a datelor. $ \ beta $ nu nu este o funcție a datelor, ci adevărul.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *