Jaka jest różnica między $ \ beta_1 $ a $ \ hat {\ beta} _1 $?

Załóżmy, że mam losową próbkę $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.

Załóżmy, że $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$

i $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$

Jaka jest różnica między $ \ beta_1 $ a $ \ hat {\ beta} _1 $?

Komentarze

  • $ \ beta $ to Twój rzeczywisty współczynnik, a $ \ hat {\ beta} $ to Twój szacunkowy $ \ beta $.
  • Isn ' czy to jest duplikat wcześniejszego postu? Byłbym zaskoczony …

Odpowiedź

$ \ beta_1 $ to pomysł – nie naprawdę istnieją w praktyce. Ale jeśli założenie Gaussa-Markowa się utrzyma, $ \ beta_1 $ da to optymalne nachylenie z wartościami powyżej i poniżej na pionowym „wycinku” prostopadłym do zmiennej zależnej, tworząc ładny normalny rozkład reszt Gaussa. $ \ hat \ beta_1 $ to oszacowanie $ \ beta_1 $ na podstawie próbki.

Pomysł jest taki, że pracujesz z próbką z populacji. Twoja próbka tworzy chmurę danych, jeśli chcesz Jeden z wymiarów odpowiada zmiennej zależnej i próbujesz dopasować linię, która minimalizuje składniki błędu – w OLS jest to rzut zmiennej zależnej na podprzestrzeń wektorową utworzoną przez przestrzeń kolumnową macierzy modelu. szacunki parametrów populacji są oznaczone symbolem $ \ hat \ beta $. Im więcej masz punktów danych, tym dokładniejsze są szacowane współczynniki, $ \ hat \ beta_i $, a zakład ter oszacowanie tych wyidealizowanych współczynników populacji, $ \ beta_i $.

Oto różnica w nachyleniach ($ \ beta $ w porównaniu z $ \ hat \ beta $) między „populacją” zaznaczoną na niebiesko, a próbka w pojedynczych czarnych kropkach:

tutaj wprowadź opis obrazu

Linia regresji jest przerywana i czarna, podczas gdy syntetycznie doskonała linia „populacji” jest zaznaczona ciągłym niebieskim kolorem. Obfitość punktów daje dotykowe poczucie normalności rozkładu reszt.

Odpowiedź

" hat " ogólnie oznacza szacunek, a nie " true " wartość. Dlatego $ \ hat {\ beta} $ to szacunkowa wartość $ \ beta $ . Kilka symboli ma swoje własne konwencje: na przykład przykładowa wariancja jest często zapisywana jako $ s ^ 2 $ , a nie $ \ hat {\ sigma} ^ 2 $ , chociaż niektórzy używają obu, aby odróżnić szacunki tendencyjne i obiektywne.

W Twoim przypadku $ \ hat {\ beta} $ to szacunki parametrów modelu liniowego. Model liniowy zakłada, że zmienna wynikowa $ y $ jest generowana przez liniową kombinację wartości danych $ x_i $ s, każda ważona przez odpowiednią wartość $ \ beta_i $ (plus błąd $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$

W praktyce oczywiście wartości " true " $ \ beta $ są zwykle nieznany i może nawet nie istnieć (być może dane nie są generowane przez model liniowy). Niemniej jednak możemy oszacować wartości na podstawie danych, które przybliżają $ y $ , a te szacunki są oznaczone jako $ \ hat {\ beta } $ .

Odpowiedź

Równanie $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $

jest tym, co określa się jako prawdziwy model. To równanie mówi, że relację między zmienną $ x $ a zmienną $ y $ można wyjaśnić linią $ y = \ beta_0 + \ beta_1x $. Ponieważ jednak obserwowane wartości nigdy nie będą następować po tym dokładnym równaniu (z powodu błędów), dodawany jest dodatkowy składnik błędu $ \ epsilon_i $, aby wskazać błędy. Błędy można interpretować jako naturalne odchylenia od relacji x $ i $ y $. Poniżej pokazuję dwie pary $ x $ i $ y $ (czarne kropki to dane). Ogólnie można zauważyć, że gdy $ x $ rośnie, $ y $ rośnie. Dla obu par, prawdziwe równanie to $$ y_i = 4 + 3x_i + \ epsilon_i $$, ale oba wykresy mają różne błędy. Wykres po lewej ma duże błędy, a wykres po prawej małe błędy (ponieważ punkty są ciaśniejsze). (Znam prawdziwe równanie, ponieważ sam wygenerowałem dane. Ogólnie rzecz biorąc, nigdy nie znasz prawdziwego równania) wprowadź opis obrazu tutaj

Spójrzmy na wykres po lewej. Prawdziwe $ \ beta_0 = 4 $ i prawdziwe $ \ beta_1 $ = 3.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *