Wat is het verschil tussen $ \ beta_1 $ en $ \ hat {\ beta} _1 $?

Stel dat ik een willekeurige steekproef $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $ heb.

Stel dat $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$

en $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$

Wat is het verschil tussen $ \ beta_1 $ en $ \ hat {\ beta} _1 $?

Opmerkingen

  • $ \ beta $ is uw werkelijke coëfficiënt en $ \ hat {\ beta} $ is uw schatter van $ \ beta $.
  • Isn ‘ is dit een duplicaat van een eerder bericht? Ik zou verrast zijn …

Antwoord

$ \ beta_1 $ is een idee – het is niet echt bestaan in de praktijk.Maar als de Gauss-Markov-aanname klopt, zou $ \ beta_1 $ je die optimale helling geven met waarden erboven en eronder op een verticale “plak” verticaal ten opzichte van de afhankelijke variabele die een mooie normale Gaussiaanse verdeling van residuen vormt. $ \ hat \ beta_1 $ is de schatting van $ \ beta_1 $ op basis van de steekproef.

Het idee is dat u werkt met een steekproef uit een populatie. Uw steekproef vormt een datawolk, zo u wilt Een van de dimensies komt overeen met de afhankelijke variabele, en u probeert de lijn te passen die de fouttermen minimaliseert – in OLS is dit de projectie van de afhankelijke variabele op de vectordeelruimte die wordt gevormd door de kolomruimte van de modelmatrix. schattingen van de populatieparameters worden aangegeven met het $ \ hat \ beta $ -symbool. Hoe meer gegevenspunten u heeft, des te nauwkeuriger zijn de geschatte coëfficiënten, $ \ hat \ beta_i $, en de inzet ter de schatting van deze geïdealiseerde populatiecoëfficiënten, $ \ beta_i $.

Hier is het verschil in hellingen ($ \ beta $ versus $ \ hat \ beta $) tussen de “populatie” in blauw en de monster in geïsoleerde zwarte stippen:

voer de afbeeldingsbeschrijving hier in

De regressielijn is gestippeld en in het zwart, terwijl de synthetisch perfecte “populatie” -lijn effen blauw is. De overvloed aan punten geeft een tastbaar gevoel van de normaliteit van de verdeling van de residuen.

Antwoord

De ” hat ” -symbool geeft over het algemeen een schatting aan, in tegenstelling tot het ” true ” waarde. Daarom is $ \ hat {\ beta} $ een schatting van $ \ beta $ . Enkele symbolen hebben hun eigen conventies: de steekproefvariantie wordt bijvoorbeeld vaak geschreven als $ s ^ 2 $ , niet als $ \ hat {\ sigma} ^ 2 $ , hoewel sommige mensen beide gebruiken om onderscheid te maken tussen bevooroordeelde en onbevooroordeelde schattingen.

In uw specifieke geval is de $ \ hat {\ beta} $ -waarden zijn parameterschattingen voor een lineair model. Het lineaire model veronderstelt dat de uitkomstvariabele $ y $ wordt gegenereerd door een lineaire combinatie van de gegevenswaarden $ x_i $ s, elk gewogen door de corresponderende $ \ beta_i $ waarde (plus een fout $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$

In de praktijk natuurlijk zijn de ” true ” $ \ beta $ waarden meestal onbekend en bestaat misschien niet eens (misschien worden de gegevens niet gegenereerd door een lineair model). Desalniettemin kunnen we waarden schatten op basis van de gegevens die bij benadering $ y $ zijn en deze schattingen worden aangeduid als $ \ hat {\ beta } $ .

Antwoord

De vergelijking $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $

is wat wordt genoemd als het ware model. Deze vergelijking zegt dat de relatie tussen de variabele $ x $ en de variabele $ y $ verklaard kan worden door een regel $ y = \ beta_0 + \ beta_1x $. Aangezien waargenomen waarden echter nooit die exacte vergelijking zullen volgen (vanwege fouten), wordt een extra $ \ epsilon_i $ foutterm toegevoegd om fouten aan te geven. De fouten kunnen worden geïnterpreteerd als natuurlijke afwijkingen weg van de relatie van $ x $ en $ y $. Hieronder laat ik twee paar $ x $ en $ y $ zien (de zwarte stippen zijn gegevens). In het algemeen kan men zien dat naarmate $ x $ stijgt, $ y $ toeneemt. Voor beide paren is de ware vergelijking $$ y_i = 4 + 3x_i + \ epsilon_i $$ maar de twee plots hebben verschillende fouten. De plot aan de linkerkant heeft grote fouten en de plot aan de rechterkant kleine fouten (omdat de punten strakker zijn). (Ik ken de ware vergelijking omdat ik de gegevens zelf heb gegenereerd. Over het algemeen ken je nooit de ware vergelijking) voer hier een afbeeldingsbeschrijving in

Laten we naar de plot aan de linkerkant kijken. De echte $ \ beta_0 = 4 $ en de echte $ \ beta_1 $ = 3.Maar in de praktijk weten we de waarheid niet wanneer we gegevens krijgen. Daarom schatten de waarheid. We schatten $ \ beta_0 $ met $ \ hat {\ beta} _0 $ en $ \ beta_1 $ met $ \ hat {\ beta} _1 $. Afhankelijk van welke statistische methoden worden gebruikt, kunnen de schattingen sterk verschillen. In de regressie-instelling zijn de schattingen verkregen via een methode genaamd Ordinary Least Squares. Dit staat ook bekend als de methode van de best passende lijn. Kortom, u moet de lijn trekken die het beste bij de gegevens past. Ik bespreek hier geen formules, maar gebruik de formule voor OLS, je krijgt

$$ \ hat {\ beta} _0 = 4.809 \ quad \ text {en} \ quad \ hat {\ beta} _1 = 2.889 $$

en het resulterende best passende regel is: voer hier de beschrijving van de afbeelding in

Een eenvoudig voorbeeld zou zijn de relatie tussen lengtes van moeders en dochters. Laat $ x = $ lengte van moeders en $ y $ = lengtes van dochters. Natuurlijk zou je langere moeders verwachten langere dochters hebben (vanwege genetische gelijkenis). Denk je echter dat één vergelijking precies de lengte van een moeder en een dochter kan samenvatten, zodat ik, als ik de lengte van de moeder weet, de exacte lengte van de dochter kan voorspellen? Nee. Aan de andere kant kan men de relatie misschien samenvatten met behulp van een op een gemiddelde -instructie.

TL DR: $ \ beta $ is de waarheid van de bevolking. Het vertegenwoordigt de onbekende relatie tussen $ y $ en $ x $. Omdat we niet altijd alle mogelijke waarden van $ y $ en $ x $ kunnen krijgen, verzamelen we een steekproef van de populatie en proberen een schatting te maken van $ \ beta $ met behulp van de gegevens. $ \ hat {\ beta} $ is onze schatting. Het is een functie van de gegevens. $ \ beta $ is niet een functie van de gegevens, maar de waarheid.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *