Jaký je rozdíl mezi $ \ beta_1 $ a $ \ hat {\ beta} _1 $?

Předpokládám, že mám náhodný vzorek $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.

Předpokládejme $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$

a $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$

Jaký je rozdíl mezi $ \ beta_1 $ a $ \ hat {\ beta} _1 $?

Komentáře

  • $ \ beta $ je váš skutečný koeficient a $ \ hat {\ beta} $ je váš odhadce $ \ beta $.
  • Není ' nejde o duplikát dřívějšího příspěvku? Byl bych překvapen …

Odpověď

$ \ beta_1 $ je nápad – není v praxi skutečně existují. Pokud ale platí Gauss-Markovův předpoklad, $ \ beta_1 $ vám dá ten optimální sklon s hodnotami nad a pod ním na svislém „řezu“ svisle k závislé proměnné a vytvoří pěkné normální Gaussovo rozdělení zbytků. $ \ hat \ beta_1 $ je odhad $ \ beta_1 $ na základě vzorku.

Myšlenka je, že pracujete se vzorkem z populace. Váš vzorek vytvoří datový mrak, pokud chcete . Jedna z dimenzí odpovídá závislé proměnné a pokusíte se přizpůsobit čáře, která minimalizuje chybové výrazy – v OLS se jedná o projekci závislé proměnné na vektorový podprostor tvořený prostorem sloupců matice modelu. odhady parametrů populace jsou označeny symbolem $ \ hat \ beta $. Čím více datových bodů máte, tím přesnější jsou odhadované koeficienty, $ \ hat \ beta_i $ a sázka Odhad těchto idealizovaných populačních koeficientů, $ \ beta_i $.

Zde je rozdíl ve sklonech ($ \ beta $ proti $ \ hat \ beta $) mezi „populací“ modře a ukázka v izolovaných černých tečkách:

zde zadejte popis obrázku

Regresní čára je tečkovaná a černá, zatímco synteticky dokonalá čára „populace“ je plná modrá. Množství bodů poskytuje hmatový smysl pro normálnost distribuce zbytků.

Odpověď

" hat " symbol obecně označuje odhad, na rozdíl od " true " hodnota. $ \ hat {\ beta} $ je tedy odhadem $ \ beta $ . Několik symbolů má své vlastní konvence: například ukázkový rozptyl se často píše jako $ s ^ 2 $ , nikoli $ \ hat {\ sigma} ^ 2 $ , i když někteří lidé rozlišují mezi zkreslenými a nezaujatými odhady.

Ve vašem konkrétním případě je $ \ hat {\ beta} $ jsou odhady parametrů pro lineární model. Lineární model předpokládá, že výsledná proměnná $ y $ je generována lineární kombinací datových hodnot $ x_i $ s, každý vážený odpovídající hodnotou $ \ beta_i $ (plus nějaká chyba $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$

V praxi hodnoty " true " $ \ beta $ jsou samozřejmě obvykle neznámé a možná ani neexistují (data možná nejsou generována lineárním modelem). Můžeme nicméně odhadnout hodnoty z údajů, které se přibližují $ y $ a tyto odhady jsou označeny jako $ \ hat {\ beta } $ .

Odpověď

Rovnice $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $

je to, co se nazývá skutečný model. Tato rovnice říká, že vztah mezi proměnnou $ x $ a proměnnou $ y $ lze vysvětlit řádkem $ y = \ beta_0 + \ beta_1x $. Protože však pozorované hodnoty nikdy nebudou následovat tuto přesnou rovnici (kvůli chybám), přidá se další chybový termín $ \ epsilon_i $, který označuje chyby. Chyby lze interpretovat jako přirozené odchylky od vztahu $ x $ a $ y $. Níže zobrazuji dva páry $ x $ a $ y $ (černé tečky jsou data). Obecně lze vidět, že s nárůstem $ x $ se zvyšuje $ y $. Pro oba páry je skutečná rovnice $$ y_i = 4 + 3x_i + \ epsilon_i $$, ale tyto dva grafy mají různé chyby. Obrázek vlevo má velké chyby a obrázek vpravo malé chyby (protože body jsou těsnější). (Pravou rovnici znám, protože jsem si data generoval sám. Obecně pravou rovnici nikdy neznáte) zde zadejte popis obrázku

Podívejme se na graf vlevo. Pravda $ \ beta_0 = 4 $ a pravda $ \ beta_1 $ = 3.Ale v praxi, když dostáváme data, neznáme pravdu. Takže odhadujeme pravdu. Odhadujeme $ \ beta_0 $ s $ \ hat {\ beta} _0 $ a $ \ beta_1 $ s $ \ hat {\ beta} _1 $. Podle toho, jaké statistické metody jsou použity, se odhady mohou velmi lišit. V nastavení regrese jsou odhady získáno metodou zvanou Obyčejné nejmenší čtverce. To je také známé jako metoda řady nejvhodnější. V zásadě musíte nakreslit čáru, která nejlépe odpovídá datům. Zde nebudu diskutovat o vzorcích, ale o použití vzorce pro OLS dostanete

$$ \ hat {\ beta} _0 = 4,809 \ quad \ text {a} \ quad \ hat {\ beta} _1 = 2,889 $$

a výsledný řádek, který nejlépe vyhovuje, zde zadejte popis obrázku

Jednoduchý příklad by byl vztah mezi výškami matek a dcer. Nechť $ x = $ výška matek a $ y $ = výška dcer. Přirozeně by se dalo očekávat vyšší matky mít vyšší dcery (kvůli genetické podobnosti). Myslíte si však, že jedna rovnice dokáže přesně shrnout výšku matky a dcery, takže když budu znát výšku matky, budu schopen předpovědět přesnou výšku dcery? Ne. Na druhou stranu je možné shrnout vztah pomocí na průměrné prohlášení.

TL DR: $ \ beta $ je populační pravda. Představuje neznámý vztah mezi $ y $ a $ x $. Protože nemůžeme vždy získat všechny možné hodnoty $ y $ a $ x $, shromáždíme vzorek z populace a zkusíme odhadnout $ \ beta $ pomocí dat. $ \ hat {\ beta} $ je náš odhad. Je to funkce dat. $ \ beta $ není funkcí dat, ale pravdou.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *