Załóżmy, że mam losową próbkę $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.
Załóżmy, że $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$
i $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$
Jaka jest różnica między $ \ beta_1 $ a $ \ hat {\ beta} _1 $?
Komentarze
- $ \ beta $ to Twój rzeczywisty współczynnik, a $ \ hat {\ beta} $ to Twój szacunkowy $ \ beta $.
- Isn ' czy to jest duplikat wcześniejszego postu? Byłbym zaskoczony …
Odpowiedź
$ \ beta_1 $ to pomysł – nie naprawdę istnieją w praktyce. Ale jeśli założenie Gaussa-Markowa się utrzyma, $ \ beta_1 $ da to optymalne nachylenie z wartościami powyżej i poniżej na pionowym „wycinku” prostopadłym do zmiennej zależnej, tworząc ładny normalny rozkład reszt Gaussa. $ \ hat \ beta_1 $ to oszacowanie $ \ beta_1 $ na podstawie próbki.
Pomysł jest taki, że pracujesz z próbką z populacji. Twoja próbka tworzy chmurę danych, jeśli chcesz Jeden z wymiarów odpowiada zmiennej zależnej i próbujesz dopasować linię, która minimalizuje składniki błędu – w OLS jest to rzut zmiennej zależnej na podprzestrzeń wektorową utworzoną przez przestrzeń kolumnową macierzy modelu. szacunki parametrów populacji są oznaczone symbolem $ \ hat \ beta $. Im więcej masz punktów danych, tym dokładniejsze są szacowane współczynniki, $ \ hat \ beta_i $, a zakład ter oszacowanie tych wyidealizowanych współczynników populacji, $ \ beta_i $.
Oto różnica w nachyleniach ($ \ beta $ w porównaniu z $ \ hat \ beta $) między „populacją” zaznaczoną na niebiesko, a próbka w pojedynczych czarnych kropkach:
Linia regresji jest przerywana i czarna, podczas gdy syntetycznie doskonała linia „populacji” jest zaznaczona ciągłym niebieskim kolorem. Obfitość punktów daje dotykowe poczucie normalności rozkładu reszt.
Odpowiedź
" hat " ogólnie oznacza szacunek, a nie " true " wartość. Dlatego $ \ hat {\ beta} $ to szacunkowa wartość $ \ beta $ . Kilka symboli ma swoje własne konwencje: na przykład przykładowa wariancja jest często zapisywana jako $ s ^ 2 $ , a nie $ \ hat {\ sigma} ^ 2 $ , chociaż niektórzy używają obu, aby odróżnić szacunki tendencyjne i obiektywne.
W Twoim przypadku $ \ hat {\ beta} $ to szacunki parametrów modelu liniowego. Model liniowy zakłada, że zmienna wynikowa $ y $ jest generowana przez liniową kombinację wartości danych $ x_i $ s, każda ważona przez odpowiednią wartość $ \ beta_i $ (plus błąd $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$
W praktyce oczywiście wartości " true " $ \ beta $ są zwykle nieznany i może nawet nie istnieć (być może dane nie są generowane przez model liniowy). Niemniej jednak możemy oszacować wartości na podstawie danych, które przybliżają $ y $ , a te szacunki są oznaczone jako $ \ hat {\ beta } $ .
Odpowiedź
Równanie $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $
jest tym, co określa się jako prawdziwy model. To równanie mówi, że relację między zmienną $ x $ a zmienną $ y $ można wyjaśnić linią $ y = \ beta_0 + \ beta_1x $. Ponieważ jednak obserwowane wartości nigdy nie będą następować po tym dokładnym równaniu (z powodu błędów), dodawany jest dodatkowy składnik błędu $ \ epsilon_i $, aby wskazać błędy. Błędy można interpretować jako naturalne odchylenia od relacji x $ i $ y $. Poniżej pokazuję dwie pary $ x $ i $ y $ (czarne kropki to dane). Ogólnie można zauważyć, że gdy $ x $ rośnie, $ y $ rośnie. Dla obu par, prawdziwe równanie to $$ y_i = 4 + 3x_i + \ epsilon_i $$, ale oba wykresy mają różne błędy. Wykres po lewej ma duże błędy, a wykres po prawej małe błędy (ponieważ punkty są ciaśniejsze). (Znam prawdziwe równanie, ponieważ sam wygenerowałem dane. Ogólnie rzecz biorąc, nigdy nie znasz prawdziwego równania)
Spójrzmy na wykres po lewej. Prawdziwe $ \ beta_0 = 4 $ i prawdziwe $ \ beta_1 $ = 3.