Qual é a diferença entre $ \ beta_1 $ e $ \ hat {\ beta} _1 $?

Suponha que eu tenha uma amostra aleatória $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $.

Suponha que $$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$

e $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat {\ beta} _1 x_n $$

Qual é a diferença entre $ \ beta_1 $ e $ \ hat {\ beta} _1 $?

Comentários

  • $ \ beta $ é o seu coeficiente real e $ \ hat {\ beta} $ é o seu estimador de $ \ beta $.
  • Isn ‘ esta é uma duplicata de uma postagem anterior? Eu ficaria surpreso …

Resposta

$ \ beta_1 $ é uma ideia – não é mas se a suposição de Gauss-Markov for válida, $ \ beta_1 $ daria a você aquela inclinação ótima com valores acima e abaixo dela em uma “fatia” vertical em relação à variável dependente formando uma boa distribuição gaussiana normal de resíduos. $ \ hat \ beta_1 $ é a estimativa de $ \ beta_1 $ com base na amostra.

A ideia é que você esteja trabalhando com uma amostra de uma população. Sua amostra forma uma nuvem de dados, se desejar . Uma das dimensões corresponde à variável dependente, e você tenta ajustar a linha que minimiza os termos de erro – em OLS, esta é a projeção da variável dependente no subespaço vetorial formado pelo espaço da coluna da matriz do modelo. as estimativas dos parâmetros da população são denotadas com o símbolo $ \ hat \ beta $. Quanto mais pontos de dados você tiver, mais precisos serão os coeficientes estimados $ \ hat \ beta_i $ e a aposta ter a estimativa desses coeficientes de população idealizados, $ \ beta_i $.

Aqui está a diferença nas inclinações ($ \ beta $ versus $ \ hat \ beta $) entre a “população” em azul e o amostra em pontos pretos isolados:

insira a descrição da imagem aqui

A linha de regressão é pontilhada e em preto, enquanto a linha de “população” sinteticamente perfeita está em azul sólido. A abundância de pontos fornece uma sensação tátil da normalidade da distribuição dos resíduos.

Resposta

O ” hat ” símbolo geralmente denota uma estimativa, em oposição ao true “. Portanto, $ \ hat {\ beta} $ é uma estimativa de $ \ beta $ . Alguns símbolos têm suas próprias convenções: a variância da amostra, por exemplo, é frequentemente escrita como $ s ^ 2 $ , não $ \ hat {\ sigma} ^ 2 $ , embora algumas pessoas usem ambos para distinguir entre estimativas tendenciosas e imparciais.

Em seu caso específico, o $ \ hat {\ beta} $ os valores são estimativas de parâmetros para um modelo linear. O modelo linear supõe que a variável de resultado $ y $ é gerada por uma combinação linear dos valores de dados $ x_i $ s, cada um ponderado pelo valor $ \ beta_i $ correspondente (mais algum erro $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$

Na prática, é claro, os valores ” true ” $ \ beta $ geralmente são desconhecido e pode até não existir (talvez os dados não sejam gerados por um modelo linear). No entanto, podemos estimar valores a partir dos dados que se aproximam de $ y $ e essas estimativas são indicadas como $ \ hat {\ beta } $ .

Resposta

A equação $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $

é o que se denomina o verdadeiro modelo. Esta equação diz que a relação entre a variável $ x $ e a variável $ y $ pode ser explicada por uma linha $ y = \ beta_0 + \ beta_1x $. No entanto, uma vez que os valores observados nunca irão seguir essa equação exata (devido a erros), um termo de erro $ \ epsilon_i $ adicional é adicionado para indicar erros. Os erros podem ser interpretados como desvios naturais da relação de $ x $ e $ y $. Abaixo, mostro dois pares de $ x $ e $ y $ (os pontos pretos são dados). Em geral, pode-se ver que à medida que $ x $ aumenta, $ y $ aumenta. Para ambos os pares, a equação verdadeira é $$ y_i = 4 + 3x_i + \ epsilon_i $$, mas os dois gráficos têm erros diferentes. O gráfico à esquerda contém erros grandes e o gráfico à direita pequenos erros (porque os pontos são mais estreitos). (Eu conheço a equação verdadeira porque gerei os dados sozinho. Em geral, você nunca conhece a equação verdadeira) insira a descrição da imagem aqui

Vamos dar uma olhada no gráfico à esquerda. O verdadeiro $ \ beta_0 = 4 $ e o verdadeiro $ \ beta_1 $ = 3.Mas, na prática, quando dados dados, não sabemos a verdade. Portanto, estimamos a verdade. Estimamos $ \ beta_0 $ com $ \ hat {\ beta} _0 $ e $ \ beta_1 $ com $ \ hat {\ beta} _1 $. Dependendo dos métodos estatísticos usados, as estimativas podem ser muito diferentes. Na configuração de regressão, as estimativas são obtido por meio de um método denominado Ordinary Least Squares. Também é conhecido como o método da linha de melhor ajuste. Basicamente, você precisa desenhar a linha que melhor se ajusta aos dados. Não estou discutindo fórmulas aqui, mas usando a fórmula para OLS, você obtém

$$ \ hat {\ beta} _0 = 4,809 \ quad \ text {e} \ quad \ hat {\ beta} _1 = 2,889 $$

e o resultado linha de melhor ajuste é insira a descrição da imagem aqui

Um exemplo simples seria a relação entre as alturas das mães e das filhas. Seja $ x = $ altura das mães e $ y $ = alturas das filhas. Naturalmente, seria de esperar que mães mais altas ter filhas mais altas (devido à semelhança genética). No entanto, você acha que uma equação pode resumir exatamente a altura de uma mãe e de uma filha, de modo que, se eu souber a altura da mãe, poderei prever a altura exata da filha? Não. Por outro lado, pode-se resumir o relacionamento com a ajuda de uma em uma instrução média.

TL DR: $ \ beta $ é a verdade da população. Ele representa a relação desconhecida entre $ y $ e $ x $. Como nem sempre podemos obter todos os valores possíveis de $ y $ e $ x $, coletamos uma amostra da população e tentamos estimar $ \ beta $ usando os dados. $ \ hat {\ beta} $ é nossa estimativa. É uma função dos dados. $ \ beta $ não é uma função dos dados, mas da verdade.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *