Otrzymałem to podstawowe pytanie e-mailem:
W równaniu regresji mam rację sądząc, że jeśli wartość beta jest dodatnia, zmienna zależna wzrosła w odpowiedzi na większe użycie zmiennej niezależnej, a jeśli jest ujemna, zmienna zależna zmniejszyła się w odpowiedzi na wzrost zmienna niezależna – podobnie jak czytasz korelacje?
Komentarze
- @Jeromy, przez wagi beta masz na myśli współczynniki regresji liniowej?
- @mp Konwencjonalnie bety to współczynniki, gdy wszystkie zmienne zostały ustandaryzowane. (Powinno to natychmiast uczynić je rozpoznawalnymi jako korelacje częściowe, odpowiadając na pytanie … 🙂
- @ayush Zdaję sobie sprawę, że jest to elementarne pytanie, więc nie odpowiadaj na nie samodzielnie. Myślę jednak, że witryna może skorzystać na zadawaniu pytań o różnym stopniu trudności; a ja ' chciałbym dodać własną odpowiedź, dając innym szansę na odpowiedź, która obejmuje kilka ogólnych kwestii.
- Słuszna uwaga, @Jeromy. ' na pewno @ayush nie dostarczyłby takiego komentarza (który można łatwo zinterpretować jako niegrzeczny lub gorszy), gdyby to samo pytanie zadał nowy użytkownik. Niech ' potraktuje to jako dowód twojej wysokiej reputacji tutaj i zobacz, czy którakolwiek z odpowiedzi pomoże oświecić twojego korespondenta.
- @whuber. Słuszna uwaga. Będąc konsultantem ds. Statystyk w psychologii, czasami otrzymuję e-maile z dość podstawowymi pytaniami. Moją idealną sytuacją jest zachęcenie takich uczniów do bezpośredniego zamieszczania postów tutaj. Ogólnie wolę odpowiadać na te pytania na tej stronie, zamiast wysyłać e-mail z odpowiedzią do ucznia. W ten sposób moja odpowiedź może być stałym źródłem informacji w Internecie, a inni mogą wymyślić jeszcze lepszą odpowiedź.
Odpowiedź
Przy wyjaśnianiu znaczenia współczynnika regresji stwierdziłem, że poniższe wyjaśnienie jest bardzo przydatne. Załóżmy, że mamy regresję
$$ Y = a + bX $$
Powiedzmy, że $ X $ zmienia się o $ \ Delta X $ i $ Y $ zmienia się o $ \ Delta Y $ . Ponieważ mamy liniową zależność, mamy
$$ Y + \ Delta Y = a + b (X + \ Delta X) $$
Ponieważ $ Y = a + bX $ otrzymujemy to
$$ \ Delta Y = b \ Delta X. $$
Łatwo zauważyć, że jeśli $ b $ dodatnie, to dodatnia zmiana w $ X $ spowoduje dodatnia zmiana w $ Y $. Jeśli $ b $ jest ujemne, to dodatnia zmiana w $ X $ spowoduje ujemną zmianę w $ Y $.
Uwaga: Potraktowałem to pytanie jako pedagogiczne, tj. podaj proste wyjaśnienie.
Uwaga 2: Jak zauważył @whuber, to wyjaśnienie zawiera ważne założenie, że związek zachodzi dla wszystkich możliwych wartości X $ i $ Y $. W rzeczywistości jest to bardzo ograniczające założenie, z drugiej strony wyjaśnienie jest ważne dla małych wartości $ \ Delta X $, ponieważ twierdzenie Taylora mówi, że relacje, które można wyrazić jako funkcje różniczkowalne (i jest to rozsądne założenie ) są lokalnie liniowe.
Komentarze
- … zakładając, że zachowanie jest prawdziwie liniowe w całym zakresie wartości $ X $! (Bardziej ostrożna odpowiedź może wysunąć ten sam pomysł pod względem średnich zmian, a także uniknąć wszelkich sugestii, że związek jest przyczynowy.)
- @whuber, wiedziałem, że umieszczając słowo najlepsze nie było mądrym wyborem 🙂 Dziękuję za komentarz, ' spróbuję przeformułować odpowiedź.
- @mp " Najlepiej " nie jest ' koniecznie problemem. ' staram się tylko sprawić ci kłopot 🙂 (Ale " nakłonić " zwrócił moją uwagę …) Jeśli ' naprawdę jesteś po " najlepszym " wyjaśnienie, pamiętaj, że częstym nieporozumieniem wśród niewtajemniczonych jest sposób interpretacji współczynników interakcji: w końcu możesz ' t niezależnie zmieniać (powiedzmy) $ XY $; robisz to, zmieniając $ X $ lub $ Y $ lub oba. Tak więc wyjaśnienie, które radzi sobie z tą sytuacją, byłoby mile widziane.
- @whuber, tak induce był złym wyborem. ' zostawię wyjaśnienie terminów interakcji komuś innemu 🙂
- @mp re Uwaga 2: Ach, Taylor ' s Twierdzenie! Ale rzeczywiste dane nie są ' nawet ciągłe, a co za tym idzie są znacznie mniej zróżnicowane. model może mieć te właściwości matematyczne. Szczególnie w wyjaśnieniach dla niewtajemniczonych warto rozróżnić zachowanie modelu ' od zachowania, którego oczekujemy od danych.Ponadto twierdzenie Taylora ' s mówi niewiele o przedziale wartości $ X $, w których zachodzi prawie liniowość. Model regresji mówi, że ten zakres jest nieskończony!
Odpowiedź
Jak zauważa @gung, istnieją różne konwencje dotyczące znaczenie ($ \ beta $, czyli „beta”). W szerszej literaturze statystycznej beta jest często używany do reprezentowania współczynników niestandaryzowanych. Jednak w psychologii (i być może w innych obszarach) często istnieje rozróżnienie między b dla współczynników niestandaryzowanych i beta dla współczynników standaryzowanych. W tej odpowiedzi założono, że kontekst wskazuje, że beta reprezentuje standardowe współczynniki:
-
Wagi Beta: Jak wspomniał @whuber, „wagi beta” są zgodnie z konwencją ustandaryzowanymi współczynnikami regresji (patrz wikipedia o znormalizowanych współczynnikach ). W tym kontekście $ b $ jest często używane do niestandardowych współczynników, a $ \ beta $ jest często używane do standardowych współczynników.
-
Podstawowa interpretacja : Waga beta dla danej zmiennej predykcyjnej to przewidywana różnica w zmiennej wynikowej w jednostkach standardowych dla wzrostu o jedno odchylenie standardowe danej zmiennej predykcyjnej zawierającej wszystkie inne predyktory stała.
-
Ogólne zasoby dotyczące regresji wielokrotnej: Pytanie jest elementarne i sugeruje, że powinieneś przeczytać ogólny materiał na temat regresji wielorakiej ( tutaj jest podstawowy opis autorstwa Andyego Fielda ).
-
Przyczynowość: Uważaj na język w stylu „zmienna zależna wzrosła w odpowiedzi na większe użycie zmiennej niezależnej” . Taki język ma konotacje przyczynowe. Same wagi beta nie wystarczą, aby uzasadnić przyczynową interpretację. Potrzebowałbyś dodatkowych dowodów, aby uzasadnić przyczynową interpretację.
Komentarze
- +1 Uwaga, jednak obowiązują różne konwencje w odniesieniu do stosowania terminów w statystykach. Na przykład ' beta ' / $ \ beta $ jest często używany do oznaczenia prawdziwego parametru, który zarządza procesem generowania danych, & ' beta hat ' / $ \ hat \ beta $ odnosi się do szacowanego nachylenia obliczonego w Twoja próbka. W tym przypadku nie oznacza to, że zmienne zostały ustandaryzowane jako pierwsze. To zróżnicowane użycie jest niefortunne, ale mimo to rzeczywiste. Ważne jest, aby mieć jasność co do sposobu używania terminów, gdy ktoś je napotkał, zamiast zakładać, że każdy ma na myśli to samo.
- @gung dobra uwaga; ' zaktualizowałem swoją odpowiedź, aby to uwzględnić.