Předpokládám, že mám náhodný vzorek $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.
Předpokládejme $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$
a $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$
Jaký je rozdíl mezi $ \ beta_1 $ a $ \ hat {\ beta} _1 $?
Komentáře
- $ \ beta $ je váš skutečný koeficient a $ \ hat {\ beta} $ je váš odhadce $ \ beta $.
- Není ' nejde o duplikát dřívějšího příspěvku? Byl bych překvapen …
Odpověď
$ \ beta_1 $ je nápad – není v praxi skutečně existují. Pokud ale platí Gauss-Markovův předpoklad, $ \ beta_1 $ vám dá ten optimální sklon s hodnotami nad a pod ním na svislém „řezu“ svisle k závislé proměnné a vytvoří pěkné normální Gaussovo rozdělení zbytků. $ \ hat \ beta_1 $ je odhad $ \ beta_1 $ na základě vzorku.
Myšlenka je, že pracujete se vzorkem z populace. Váš vzorek vytvoří datový mrak, pokud chcete . Jedna z dimenzí odpovídá závislé proměnné a pokusíte se přizpůsobit čáře, která minimalizuje chybové výrazy – v OLS se jedná o projekci závislé proměnné na vektorový podprostor tvořený prostorem sloupců matice modelu. odhady parametrů populace jsou označeny symbolem $ \ hat \ beta $. Čím více datových bodů máte, tím přesnější jsou odhadované koeficienty, $ \ hat \ beta_i $ a sázka Odhad těchto idealizovaných populačních koeficientů, $ \ beta_i $.
Zde je rozdíl ve sklonech ($ \ beta $ proti $ \ hat \ beta $) mezi „populací“ modře a ukázka v izolovaných černých tečkách:
Regresní čára je tečkovaná a černá, zatímco synteticky dokonalá čára „populace“ je plná modrá. Množství bodů poskytuje hmatový smysl pro normálnost distribuce zbytků.
Odpověď
" hat " symbol obecně označuje odhad, na rozdíl od " true " hodnota. $ \ hat {\ beta} $ je tedy odhadem $ \ beta $ . Několik symbolů má své vlastní konvence: například ukázkový rozptyl se často píše jako $ s ^ 2 $ , nikoli $ \ hat {\ sigma} ^ 2 $ , i když někteří lidé rozlišují mezi zkreslenými a nezaujatými odhady.
Ve vašem konkrétním případě je $ \ hat {\ beta} $ jsou odhady parametrů pro lineární model. Lineární model předpokládá, že výsledná proměnná $ y $ je generována lineární kombinací datových hodnot $ x_i $ s, každý vážený odpovídající hodnotou $ \ beta_i $ (plus nějaká chyba $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$
V praxi hodnoty " true " $ \ beta $ jsou samozřejmě obvykle neznámé a možná ani neexistují (data možná nejsou generována lineárním modelem). Můžeme nicméně odhadnout hodnoty z údajů, které se přibližují $ y $ a tyto odhady jsou označeny jako $ \ hat {\ beta } $ .
Odpověď
Rovnice $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $
je to, co se nazývá skutečný model. Tato rovnice říká, že vztah mezi proměnnou $ x $ a proměnnou $ y $ lze vysvětlit řádkem $ y = \ beta_0 + \ beta_1x $. Protože však pozorované hodnoty nikdy nebudou následovat tuto přesnou rovnici (kvůli chybám), přidá se další chybový termín $ \ epsilon_i $, který označuje chyby. Chyby lze interpretovat jako přirozené odchylky od vztahu $ x $ a $ y $. Níže zobrazuji dva páry $ x $ a $ y $ (černé tečky jsou data). Obecně lze vidět, že s nárůstem $ x $ se zvyšuje $ y $. Pro oba páry je skutečná rovnice $$ y_i = 4 + 3x_i + \ epsilon_i $$, ale tyto dva grafy mají různé chyby. Obrázek vlevo má velké chyby a obrázek vpravo malé chyby (protože body jsou těsnější). (Pravou rovnici znám, protože jsem si data generoval sám. Obecně pravou rovnici nikdy neznáte)
Podívejme se na graf vlevo. Pravda $ \ beta_0 = 4 $ a pravda $ \ beta_1 $ = 3.Ale v praxi, když dostáváme data, neznáme pravdu. Takže odhadujeme pravdu. Odhadujeme $ \ beta_0 $ s $ \ hat {\ beta} _0 $ a $ \ beta_1 $ s $ \ hat {\ beta} _1 $. Podle toho, jaké statistické metody jsou použity, se odhady mohou velmi lišit. V nastavení regrese jsou odhady získáno metodou zvanou Obyčejné nejmenší čtverce. To je také známé jako metoda řady nejvhodnější. V zásadě musíte nakreslit čáru, která nejlépe odpovídá datům. Zde nebudu diskutovat o vzorcích, ale o použití vzorce pro OLS dostanete
$$ \ hat {\ beta} _0 = 4,809 \ quad \ text {a} \ quad \ hat {\ beta} _1 = 2,889 $$
a výsledný řádek, který nejlépe vyhovuje,
Jednoduchý příklad by byl vztah mezi výškami matek a dcer. Nechť $ x = $ výška matek a $ y $ = výška dcer. Přirozeně by se dalo očekávat vyšší matky mít vyšší dcery (kvůli genetické podobnosti). Myslíte si však, že jedna rovnice dokáže přesně shrnout výšku matky a dcery, takže když budu znát výšku matky, budu schopen předpovědět přesnou výšku dcery? Ne. Na druhou stranu je možné shrnout vztah pomocí na průměrné prohlášení.
TL DR: $ \ beta $ je populační pravda. Představuje neznámý vztah mezi $ y $ a $ x $. Protože nemůžeme vždy získat všechny možné hodnoty $ y $ a $ x $, shromáždíme vzorek z populace a zkusíme odhadnout $ \ beta $ pomocí dat. $ \ hat {\ beta} $ je náš odhad. Je to funkce dat. $ \ beta $ není funkcí dat, ale pravdou.