Mitä eroa on dollareilla $ \ beta_1 $ ja $ \ hat {\ beta} _1 $?

Oletetaan, että minulla on satunnainen näyte $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.

Oletetaan, että $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$

ja $$ \ hat {y} _n = \ hattu {\ beta} _0 + \ hattu {\ beta} _1 x_n $$

Mitä eroa on $ \ beta_1 $ ja $ \ hat {\ beta} _1 $?

Kommentit

  • $ \ beta $ on todellinen kerroin ja $ \ hat {\ beta} $ on arviosi $ \ beta $.
  • Isn ’ onko tämä kopio aiemmasta viestistä? Olisin yllättynyt …

Vastaa

$ \ beta_1 $ on idea – se ei ”t Mutta jos Gauss-Markov-oletus pitää paikkansa, $ \ beta_1 $ antaisi sinulle optimaalisen kaltevuuden, jonka arvot ovat sen ylä- ja alapuolella pystysuorassa ”viipaleessa” pystysuoraan riippuvaan muuttujaan nähden, muodostaen mukavan normaalin jäännösten Gaussin jakauman. $ \ hat \ beta_1 $ on $ \ beta_1 $: n arvio otoksen perusteella.

Ajatuksena on, että työskentelet populaation otoksen kanssa. Otossi muodostaa datapilven, jos haluat Yksi mitoista vastaa riippuvaa muuttujaa ja yrität sovittaa linjan, joka minimoi virhetermit – OLS: ssä tämä on riippuvan muuttujan projektio mallimatriisin saraketilan muodostamaan vektorialatilaan. arviot populaatioparametreista on merkitty symbolilla $ \ hat \ beta $. Mitä enemmän datapisteitä sinulla on, sitä tarkemmat arvioidut kertoimet ovat, $ \ hat \ beta_i $ ja panos näiden idealisoitujen väestökertoimien, $ \ beta_i $, arvio.

Tässä on ero rinteissä ($ \ beta $ vs. $ \ hat \ beta $) sinisen ”väestön” ja näyte eristetyillä mustilla pisteillä:

kirjoita kuvan kuvaus tähän

Regressioviiva on pisteviiva ja musta, kun taas synteettisesti täydellinen ”populaatio” -viiva on kiinteä sininen. Pisteiden runsaus antaa tuntuman jäännösjakauman normaaluudesta.

Vastaus

” hat ” -symboli tarkoittaa yleensä estimaattia, toisin kuin ” true ” -arvo. Siksi $ \ hat {\ beta} $ on arvio arvista $ \ beta $ . Muutamilla symboleilla on omat käytäntönsä: esimerkiksi esimerkkivarianssi kirjoitetaan usein nimellä $ s ^ 2 $ , ei $ \ hat {\ sigma} ^ 2 $ , vaikka jotkut ihmiset käyttävät molempia erottaakseen puolueelliset ja puolueettomat arviot.

Sinun tapauksessasi $ \ hat {\ beta} $ -arvot ovat lineaarisen mallin parametriarvioita. Lineaarinen malli olettaa, että tulosmuuttuja $ y $ luodaan lineaarisella yhdistelmällä data-arvoja $ x_i $ s, kukin painotettu vastaavalla $ \ beta_i $ -arvolla (plus virhe $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$

Käytännössä tietenkin arvot ” true ” $ \ beta $ ovat yleensä tuntematon ja sitä ei ehkä edes ole olemassa (tietoja ei ehkä tuota lineaarinen malli). Voimme kuitenkin arvioida arvot datasta, joka arvioi $ y $ , ja nämä arviot on merkitty nimellä $ \ hat {\ beta } $ .

vastaus

Yhtälö $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $

kutsutaan tosi malliksi. Tämä yhtälö sanoo, että muuttujan $ x $ ja muuttujan $ y $ välinen suhde voidaan selittää viivalla $ y = \ beta_0 + \ beta_1x $. Koska havaitut arvot eivät kuitenkaan koskaan seuraa tarkkaa yhtälöä (virheiden takia), lisätään $ \ epsilon_i $ -virhetermi virheiden osoittamiseksi. Virheet voidaan tulkita luonnollisina poikkeamina $ x $: n ja $ y $: n suhteesta. Alla näytän kaksi paria $ x $ ja $ y $ (mustat pisteet ovat tietoja). Yleensä voidaan nähdä, että kun $ x $ kasvaa, $ y $ kasvaa. Molemmille pareille todellinen yhtälö on $$ y_i = 4 + 3x_i + \ epsilon_i $$, mutta kahdella juovalla on erilaiset virheet. Vasemmalla käyrällä on suuria virheitä ja oikealla pienillä virheillä (koska pisteet ovat tiukempia). (Tiedän todellisen yhtälön, koska olen luonut tiedot itse. Yleensä et koskaan tiedä todellista yhtälöä) kirjoita kuvan kuvaus tähän / div>

Katsotaan vasemmalla olevaa juonia. Todellinen $ \ beta_0 = 4 $ ja todellinen $ \ beta_1 $ = 3.Mutta käytännössä, kun meille annetaan tietoja, emme tiedä totuutta. Joten arvioimme totuuden. Arvioimme $ \ beta_0 $ kanssa $ \ hat {\ beta} _0 $ ja $ \ beta_1 $ kanssa $ \ hat {\ beta} _1 $. Arviot voivat olla hyvin erilaisia riippuen käytetyistä tilastomenetelmistä. Regressioasetuksessa arviot ovat saatu tavallisten vähiten neliöiden menetelmällä. Tämä tunnetaan myös parhaiten sopivan linjan menetelmänä. Pohjimmiltaan sinun on piirrettävä viiva, joka parhaiten sopii tietoihin. En keskustele tässä kaavoista, mutta käytän OLS-kaavaa, saat

$$ \ hattu {\ beta} _0 = 4.809 \ quad \ text {ja} \ quad \ hat {\ beta} _1 = 2.889 $$

ja tuloksena olevan parhaiten sopiva rivi on, kirjoita kuvan kuvaus tähän

Yksinkertainen esimerkki olisi äitien ja tyttärien korkeuksien välinen suhde. Olkoon $ x = $ äitien korkeus ja $ y $ = tyttärien korkeus. Luonnollisesti voidaan odottaa pitempiä äitejä saada pitempiä tyttäriä (geneettisen samankaltaisuuden vuoksi). Luuletko kuitenkin, että yksi yhtälö voi tiivistää tarkalleen äidin ja tyttären pituuden, niin että jos tiedän äidin korkeuden, voin ennustaa tyttären tarkan pituuden? Ei. Toisaalta voi olla mahdollista tiivistää suhde avulla keskimääräisessä lausekkeessa .

TL DR: $ \ beta $ on väestön totuus. Se edustaa tuntematonta yhteyttä $ y $: n ja $ x $: n välillä. Koska emme voi aina saada kaikkia mahdollisia arvoja $ y $ ja $ x $, keräämme otoksen populaatiosta ja yritämme arvioida $ \ beta $ tietojen avulla. $ \ hat {\ beta} $ on arviomme. Se on tietojen funktio. $ \ beta $ ei ole tietojen funktio, mutta totuus.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *