Mi a különbség a $ \ beta_1 $ és a $ \ hat {\ beta} _1 $ között?

Tegyük fel, hogy van egy véletlenszerű mintám: $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.

Tegyük fel, hogy $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$

és $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$

Mi a különbség a $ \ beta_1 $ és a $ \ hat {\ beta} _1 $ között?

Megjegyzések

  • $ \ beta $ a tényleges együttható, az $ \ hat {\ beta} $ pedig a $ \ beta $ becslője.
  • Isn ‘ ez egy korábbi bejegyzés másolata? Meglepődnék …

Válasz

$ \ beta_1 $ egy ötlet – nem “t” De ha a Gauss-Markov feltételezés érvényesül, akkor a $ \ beta_1 $ megadná ezt az optimális meredekséget, amelynek értéke fölötte és alatt egy függőleges “szeleten” függőleges “függőleges” szeleten áll, és a maradványok szép normális Gauss-eloszlását képezi. A $ \ hat \ beta_1 $ a minta $ \ beta_1 $ becslése a minta alapján.

Az ötlet az, hogy egy populációból származó mintával dolgozol. A mintád adatfelhőt képez, ha akarod Az egyik dimenzió megfelel a függő változónak, és megpróbálja illeszteni azt a vonalat, amely minimalizálja a hibakifejezéseket – az OLS-ben ez a függő változó vetülete a vektor altérre, amelyet a modellmátrix oszloptere alkot. a populációs paraméterek becsléseit a $ \ hat \ beta $ szimbólummal jelölik. Minél több adatponttal rendelkezik, annál pontosabbak a becsült együtthatók, a $ \ hat \ beta_i $ és a tét ezen idealizált népességi együtthatók becslésén, $ \ beta_i $.

Itt található a lejtők közötti különbség ($ \ beta $ versus $ \ hat \ beta $) a kék színű “populáció” és a minta elszigetelt fekete pontokban:

írja ide a kép leírását

A regressziós vonal pontozott és fekete színű, míg a szintetikusan tökéletes “populációs” vonal egyszínű kék színű. A pontok bősége érzékeli a maradék eloszlás normalitását.

Válasz

A ” hat ” szimbólum általában becslést jelöl, szemben a ” true ” érték. Ezért a $ \ hat {\ beta} $ a $ \ beta $ becsült értéke. Néhány szimbólumnak megvan a maga konvenciója: a minta varianciát például $ s ^ 2 $ , nem pedig $ \ hat {\ sigma} ^ 2 $ , bár egyesek mind az elfogult, mind az elfogulatlan becslés megkülönböztetésére használják.

Az Ön esetére a $ \ hat {\ beta} $ értékek egy lineáris modell paraméterbecslései. A lineáris modell feltételezi, hogy a $ y $ kimeneti változót a $ x_i $ adatérték lineáris kombinációja generálja. span> s, mindegyiket a megfelelő $ \ beta_i $ értékkel súlyozva (plusz némi hiba $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$

A gyakorlatban természetesen a ” true ” $ \ beta $ értékek általában ismeretlen és lehet, hogy nem is létezik (lehet, hogy az adatokat nem lineáris modell generálja). Ennek ellenére megbecsülhetjük azokat az adatokat, amelyek közelítik a $ y $ értéket, és ezeket a becsléseket $ \ hat {\ beta } $ .

Válasz

A $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ egyenlet A $

az igazi modell. Ez az egyenlet azt mondja, hogy az $ x $ változó és az $ y $ változó közötti összefüggést meg lehet magyarázni egy $ y = \ beta_0 + \ beta_1x $ vonallal. Mivel azonban a megfigyelt értékek soha nem fogják követni ezt a pontos egyenletet (hibák miatt), egy további $ \ epsilon_i $ hiba kifejezés kerül hozzáadásra a hibák jelzésére. A hibák természetes eltérésekként értelmezhetők a $ x $ és $ y $ viszonyától. Az alábbiakban két $ x $ és $ y $ pár látható (a fekete pontok adatok). Általában látható, hogy amint a $ x $ nő, a $ y $ növekszik. Mindkét pár esetében az igaz egyenlet $$ y_i = 4 + 3x_i + \ epsilon_i $$, de a két ábrán eltérõ hibák vannak. A bal oldali ábrán nagy hibák vannak, a jobb oldali ábrán apró hibák (mert a pontok szorosabbak). (Ismerem a valódi egyenletet, mert az adatokat egyedül állítottam elő. Általában soha nem lehet tudni az igaz egyenletet) írja ide a kép leírását

Nézzük meg a bal oldali ábrát. Az igaz $ \ beta_0 = 4 $ és a valódi $ \ beta_1 $ = 3.De a gyakorlatban adatok megadásakor nem tudjuk az igazságot. Tehát megbecsüljük az igazságot. Becsüljük $ \ beta_0 $ with $ \ hat {\ beta} _0 $ és $ \ beta_1 $ with $ \ hat {\ beta} _1 $. Az alkalmazott statisztikai módszerektől függően a becslések nagyon eltérőek lehetnek. A regressziós beállításban a becslések a szokásos legkisebb négyzetek nevű módszerrel nyerjük. Ez más néven a legjobban illeszkedő vonal módszere. Alapvetően azt a vonalat kell meghúznia, amely a legjobban illeszkedik az adatokhoz. Itt nem képleteket tárgyalok, hanem az OLS képletét kapsz

$$ \ hat {\ beta} _0 = 4.809 \ quad \ text {és} \ quad \ hat {\ beta} _1 = 2.889 $$

és az eredményül kapott a legjobban illeszkedő sor: írja ide a kép leírását

Egy egyszerű példa erre: az anyák és a lányok magasságának kapcsolata. Legyen $ x = $ az anyák magassága és $ y $ = a lányok magassága. Természetes, hogy magasabb anyákra számítanánk hogy magasabb lányaik legyenek (genetikai hasonlóság miatt). Szerinted azonban egy egyenlet pontosan összefoglalhatja az anya és a lánya magasságát, így ha tudom az anya magasságát, meg tudom jósolni a lány pontos magasságát? Nem. Másrészt összefoglalhatja a kapcsolatot egy segítségével egy átlagos utasításban.

TL DR: $ \ beta $ a népesség igazsága. A $ y $ és $ x $ közötti ismeretlen kapcsolatot képviseli. Mivel nem mindig tudjuk megkapni a $ y $ és $ x $ összes lehetséges értékét, összegyűjtünk egy mintát a populációból, és megpróbálunk megbecsülni $ \ beta $ az adatok felhasználásával. $ \ hat {\ beta} $ a becslésünk. Ez az adatok függvénye. A $ \ beta $ nem az adatok függvénye, hanem az igazság.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük