Pracuję nad zbiorem danych dotyczących obecności / nieobecności, przy czym moja zmienna odpowiedzi to „odsetek witryn, w których występuje X”. Poproszono mnie o podanie odchyleń standardowych obok średnich proporcji. Wydaje mi się jednak, że odchylenie standardowe dwumianowego zbioru danych jest funkcją wielomianu samej proporcji i nie dostarcza dodatkowych informacji o zmienności danych bazowych. Na przykład, jeśli proporcja z danych wynosi 0,3, nie powinno mieć znaczenia, czy ta proporcja pochodzi z danych o obecności / nieobecności z 10, 100 czy 100 000 witryn, standardowe dev powinno być takie samo.
Kiedy Tworzę przykładowy zestaw danych i wykres średniej proporcji względem st dev, mogę go modelować za pomocą funkcji wielomianu szóstego rzędu z R do kwadratu 1,00.
Czy ktoś może potwierdzić moje podejrzenie – że odchylenia standardowe są nieodłączną właściwość proporcji w dwumianowym zbiorze danych, a zatem nie dostarcza żadnych dodatkowych informacji o zbiorze danych, z którego pochodzi ta proporcja?
Komentarze
- Powinieneś być w stanie modelować SD nawet lepiej jako pierwiastek kwadratowy funkcji kwadratowej, ponieważ dla proporcji $ p $ w zbiorze danych o rozmiarze $ n $ SD całości wynosi $ \ sqrt {np (1-p)} $ .
- @whuber: Myślę, że dla zmiennej dwumianowej (czyli dla liczby sukcesów) odchylenie standardowe wynosi $ \ sqrt {np (1-p)} $ , ale dla proporcji sukcesów sta ndard odchylenie to $ \ sqrt {\ frac {p (1-p)} {n}} $, zobacz moją odpowiedź na to pytanie.
- @fcoppens To jest poprawne, dlatego zadbałem o opisz to jako SD całości.
- @whuber: ok :-), czy spojrzałeś na moją odpowiedź?
- Jeśli recenzent rękopisu poprosił o to , to może recenzent miał na myśli pewną miarę precyzji szacowanej proporcji, taką jak błąd standardowy. Czy nie ' czy nie mamy prawa, które mówi, że " Zawsze będziesz podawać miarę dokładności dla każdego oszacowania? " Jeśli recenzent naprawdę miał na myśli odchylenie standardowe, wówczas odpowiedź dyplomatyczna wyjaśniająca, dlaczego standardowe błędy są lepsze, może działać.
Odpowiedź
Jeśli masz dwumianową zmienną losową $ X $, o rozmiarze $ N $ i z prawdopodobieństwem sukcesu $ p $, tj. $ X \ sim Bin (N; p) $, to średnia X to $ Np $, a jego wariancja to $ Np (1-p) $, więc jak mówisz, wariancja jest wielomianem drugiego stopnia w $ p $. Zwróć jednak uwagę, że wariancja zależy również od $ N $! Ta ostatnia jest ważna przy szacowaniu $ p $:
Jeśli zaobserwujesz 30 sukcesów na 100, to ułamek sukcesów wynosi 30/100, co jest liczbą sukcesów podzieloną przez rozmiar dwumianu, tj. $ \ frac {X} {N} $.
Ale jeśli $ X $ oznacza $ Np $, to $ \ frac {X} {N} $ ma średnią równą średniej z $ X $ podzielonej przez $ N $, ponieważ $ N $ to stała. Innymi słowy $ \ frac {X} {N} $ oznacza $ \ frac {Np} {N} = p $. Oznacza to, że ułamek zaobserwowanych sukcesów jest nieobciążonym szacunkiem prawdopodobieństwa $ p $.
Aby obliczyć wariancję estymatora $ \ frac {X} {N} $, musimy podzielić wariancję $ X $ przez $ N ^ 2 $ (wariancja a (zmienna podzielona przez a stała) to (wariancja zmiennej) podzielona przez kwadrat stałej), więc wariancja estymatora wynosi $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. Odchylenie standardowe estymatora jest pierwiastkiem kwadratowym z wariancji, więc wynosi $ \ sqrt {\ frac {p (1-p)} {N}} $.
Jeśli więc rzucisz monetą 100 razy i zobaczysz 49 orłów, to $ \ frac {49} {100} $ jest estymatorem prawdopodobieństwa rzutu głową z tą monetą i odchyleniem standardowym tego oszacowania wynosi $ \ sqrt {\ frac {0,49 \ times (1-0,49)} {100}} $.
Jeśli rzucisz monetą 1000 razy i zaobserwujesz 490 orłów, oszacujesz prawdopodobieństwo rzucenia głową ponownie przy 0,49 $ i odchyleniu standardowym przy $ \ sqrt {\ frac {0,49 \ times (1-0,49)} {1000}} $.
Oczywiście w drugim przypadku odchylenie standardowe jest mniejsze, więc estymator jest dokładniejszy, gdy zwiększy się liczbę rzutów.
Możesz wywnioskować, że dla zmiennej losowej dwumianowej wariancja jest wielomianem kwadratowym w p, ale zależy również od N i myślę, że ten standard odchylenie zawiera informacje dodatkowe do prawdopodobieństwa sukcesu.
W rzeczywistości rozkład dwumianowy ma dwa parametry i zawsze będziesz potrzebować co najmniej dwóch momentów (w tym case średnia (= pierwszy moment) i odchylenie standardowe (pierwiastek kwadratowy z drugiego momentu)), aby w pełni je zidentyfikować.
P.S. Nieco bardziej ogólne rozwinięcie, również dla dwumianu Poissona, można znaleźć w mojej odpowiedzi na Oszacowanie dokładności oszacowania rozkładu dwumianowego Poissona .
Odpowiedź
Rodzina dystrybucji Bernouli jest całkowicie sparametryzowana przez jedną liczbę, zwykle nazywaną $ p $. Zatem każda statystyka populacji rozkładu Bernouliego musi być jakąś funkcją parametru $ p $. Nie oznacza to, że te statystyki są opisowo bezużyteczne!
Na przykład mogę całkowicie opisać pudełko, podając jego długość, szerokość i wysokość, ale objętość jest nadal użyteczną statystyką!
Komentarze
- Czekaj, czy to prawda? Czy nie ' t mam na myśli rozkład Bernoulliego? Czuję, że powinienem to zmienić, ale ma kilka pozytywnych głosów …
- Tak, to ' to całkiem zrozumiały błąd, ponieważ Bernouli i dwumianowe są tak ściśle powiązane. Edytowałem go dla Ciebie.
Odpowiedź
Możesz pomyśleć, że masz rację jeśli znasz już prawdziwą wartość parametru dwumianu $ p $ i naprawdę masz do czynienia z eksperymentem dwumianowym (niezależne próby Bernoulliego przy stałej $ p $). W przypadku N $ N $ wariancja liczby sukcesów w eksperymencie dwumianowym wynosi N $ p (1-p) $ i (naiwnie) podzielenie przez N $ w celu uzyskania wariancji proporcji sukcesów dałoby wartość niezależnie od $ N $. Ale są z tym dwa problemy. Po pierwsze, gdybyś znał wartość $ p $, nie musiałbyś wykonywać tej analizy. Po drugie, jak wskazuje @ f-coppens, to naiwne podejście do określania wariancji w obserwowanym odsetku sukcesu jest nieprawidłowe.
To, co masz, to oszacowanie $ p $ na podstawie próbki $ N $ przypadków. Przedziały ufności wokół twojego oszacowania $ p $ zależą od wartości $ N $, poprawiając się w przybliżeniu z pierwiastkiem kwadratowym $ N $. Podejrzewam, że właśnie o to stara się inkwizytor. Zobacz stronę Wikipedii w rozkładzie dwumianowym , aby znaleźć wzory na przedziały ufności. nie bierze nawet pod uwagę, czy wszystkie próbki są modelowane przez jeden parametr $ p $.
Komentarze
- jeśli dzielisz zmienną przez stałą N, to musisz podzielić wariancję przez $ N ^ 2 $! Zobacz moją odpowiedź na to pytanie.
- @ f-coppens Poprawiłem i odpowiednio zredagowałem odpowiedź. Dzięki.