저는 통계에 대한 관심을 개발하는 대학원생입니다. 나는 재료를 전반적으로 좋아하지만 때로는 실제 적용에 대해 생각하기가 어렵습니다. 특히, 제 질문은 일반적으로 사용되는 통계 분포 (정규-베타-감마 등)에 관한 것입니다. 어떤 경우에는 분포를 아주 멋지게 만드는 특정 속성을 얻습니다. 예를 들어 메모리가없는 지수 속성입니다. 그러나 다른 많은 경우에는 교과서에서 볼 수있는 공통 배포판의 중요성과 적용 영역에 대한 직관이 없습니다.
제 문제를 해결하는 좋은 출처가 많을 것입니다. 공유해 주시면 기쁩니다. 실제 사례와 연관시킬 수 있다면 자료에 더 많은 동기를 부여 할 것입니다.
댓글
- iv id = “b9e6e86ab0″의 ” 애플리케이션 “에 광범위한 배포를 포함하는 14 가지 종류의 애플리케이션이 설명되어 있습니다. >
Mathematica ‘ EstimatedDistribution
함수 에 대한 도움말 페이지
답변
Wikipedia에는 많은 확률 분포를 나열하는 페이지가 있습니다. 각 배포에 대한 자세한 내용에 대한 링크가 있습니다. 목록을 살펴보고 링크를 따라 가면 유형에 대한 더 나은 느낌을 얻을 수 있습니다. f 다른 분포가 일반적으로 사용되는 응용 프로그램입니다.
이러한 분포는 현실을 모델링하는 데 사용되며 Box가 말했듯이 “모든 모델이 잘못되었으며 일부 모델은 유용합니다.”
다음은 몇 가지 일반적인 분포와 유용한 이유입니다.
일반 : 평균 및 기타 선형 조합을 살펴볼 때 유용합니다 (예 : 회귀 계수) CLT로 인해. 이와 관련하여 여러 가지 작은 원인의 부가적인 영향으로 인해 어떤 일이 발생하는 것으로 알려진 경우 정상이 합리적인 분포가 될 수 있습니다. 예를 들어, 많은 생물학적 측정은 여러 유전자와 여러 환경 요인의 결과이며 따라서 종종 거의 정상입니다. .
감마 : 오른쪽으로 치우쳐 있고 자연 최소값이 0 인 항목에 유용합니다. 일반적으로 경과 시간과 일부 재무 변수에 사용됩니다.
지수 : 감마의 특수한 경우. 메모리가없고 쉽게 확장됩니다.
Chi-squared ($ \ chi ^ 2 $) : 감마의 특별한 경우. 정규 변수 제곱의 합으로 계산됩니다 (분산에 사용됨).
베타 : 0과 1 사이로 정의됩니다 (하지만 다른 값 사이에 있도록 변환 될 수 있음). 비율 또는 그 사이에 있어야하는 다른 수량에 유용합니다. 0과 1입니다.
이항 : 주어진 수의 독립 시행에서 “성공”확률이 같은 “성공”횟수.
푸 아송 : 개수에 공통입니다. 일정 기간 또는 영역의 이벤트 수가 포아송을 따르는 경우 시간 또는 영역의 두 배에있는 숫자가 여전히 포아송 (평균의 두 배)을 따릅니다. 이것은 포아송을 추가하거나 다음 이외의 값으로 스케일링하는 데 효과적입니다. 2.
이벤트가 시간이 지남에 따라 발생하고 발생 사이의 시간이 지수를 따르는 경우 해당 기간에 발생하는 숫자는 포아송을 따릅니다.
음 이항 : 최소값으로 계산 0 (또는 버전에 따라 다른 값) 및 상한 없음. 개념적으로 k “성공”이전의 “실패”수입니다. 음 이항은 또한 평균이 감마 분포에서 나오는 푸 아송 변수의 혼합물입니다.
기하학적 : 첫 번째 “성공”이전의 “실패”수인 음이 항의 특수한 경우입니다. 지수 변수를 잘라내어 (내림하여) 불연속 화하면 결과는 기하학적입니다.
댓글
- 답변 해 주셔서 감사합니다. 하지만 위키 백과에서는 제가 ‘ 원하는보다 일반적인 설명을 제공합니다. 기본적으로 내 질문은 일부 배포판이 좋은 이유입니다. 정규 분포의 경우 가능한 답을 제공하기 위해 중앙 제한 정리와 관련이있을 수 있습니다. 즉, 무한한 양의 관측치를 샘플링하면 실제로 그 관측치의 충분한 통계가 정규 분포를 가지고 있다는 것을 점근 적으로 볼 수 있습니다. . 더 많은 예제를 찾고 있습니다 ..
- 정확히 실제 분포는 아니지만 bimodal은 어떻습니까? ‘ 인간의 성별 차이 중 많은 부분이 바이 모달이 아니라는 사실을 알게 된 후에는 흔히 볼 수있는 실제 사례를 생각할 수 없습니다.
- 다항식 추가
답변
William J. Feller의 처음 6 개 장 (처음 218 페이지)을 구입하고 읽으십시오. ” 확률 이론 및 응용 프로그램 소개, Vol. 2 “ http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb 최소한 해결을위한 모든 문제를 읽고 가능한 한 많이 해결해보십시오. 제 생각에는 특별히 공로가없는 Vol 1을 읽을 필요는 없습니다.
저자가 45 년 반 전에 죽었음에도 불구하고 책이 완성되기도 전에 이것은 단순히 확률과 확률 과정에서 직관을 개발하고 다양한 분포에 대한 느낌, 실제 현상과의 관계, 발생할 수 있고 발생하는 다양한 확률 현상을 이해하고 개발하기위한 최고의 책은 없습니다. 기초를 구축하면 통계에서 잘 봉사 할 수 있습니다.
좀 더 어려워지는 후속 장을 통해 만들 수 있다면 거의 모든 사람보다 광년 앞서게 될 것입니다. 간단히 말해서, Feller Vol 2를 알고 있다면 확률 (및 확률 적 프로세스)을 알고 있습니다. 즉, 새로운 개발과 같이 알지 못하는 모든 것을 탄탄한 기반 위에 구축하여 빠르게 익히고 마스터 할 수 있습니다.
이 스레드에서 이전에 언급 한 거의 모든 내용은 Feller Vol 2 (Kendall Advanced Theory of Statistics의 모든 자료는 아니지만 Feller Vol 2 이후에 그 책을 읽는 것은 케이크 조각이 될 것입니다), 그리고 훨씬 더, 확률 론적 사고를 발전시켜야하는 방식으로 모든 것 그리고 직감. Johnson과 Kotz는 다양한 확률 분포에 대한 세부 사항에 유용하며 Feller Vol 2는 확률 적으로 사고하는 방법을 배우고 Johnson과 Kotz에서 추출 할 내용과 사용 방법을 아는 데 유용합니다.
답변
점근 이론은 정규 분포, 극단 값 유형, 안정 법칙 및 포아송으로 이어집니다. 지수 및 Weibull은 이벤트 분포에 대한 모수 적 시간으로 나타나는 경향이 있습니다. Weibull의 경우 샘플 최소값에 대한 극단 값 유형입니다. 정규 분포 관측에 대한 모수 모델과 관련하여 카이 제곱, t 및 F 분포는 가설 검정 및 신뢰 구간 추정에서 발생하며 카이 제곱은 분할 표 분석 및 적합도 검정에서도 나타납니다. 검정력을 연구하기 위해 비 중심 t 및 F 분포가 있습니다. 초기 하 분포는 Fisher의 분할 표에 대한 정확한 검정에서 발생합니다. 이항 분포는 비율을 추정하기위한 실험을 수행 할 때 중요합니다. 음 이항 분포는 점 프로세스에서 과대 산포를 모델링하는 데 중요한 분포입니다.이 분포는 실용에 대한 좋은 시작을 제공합니다. 모수 분포. (0, ∞)의 음이 아닌 랜덤 변수의 경우 감마 분포는 다양한 모양을 제공하는 데 유연하며 로그 정규도 일반적으로 사용됩니다. [0,1]에서 베타 계열은 균일도를 포함한 대칭 분포를 제공합니다. 분포가 왼쪽으로 치우 치거나 오른쪽으로 치우쳐 있습니다.
통계의 분포에 대한 모든 핵심적인 세부 사항을 알고 싶다면 이산 분포를 포함하는 Johnson과 Kotz의 고전적인 책 시리즈가 있습니다. 연속 단 변량 분포 및 연속 다변량 분포 및 Kendall 및 Stuart의 고급 통계 이론 1 권.
댓글
- 답변 해 주셔서 감사합니다. 매우 유용합니다. 다시 한 번 감사드립니다. 정말 도움이되었습니다.
답변
다른 훌륭한 답변에 추가하기 만하면됩니다.
Poisson 분포는 다른 사람들이 언급했듯이 계수 변수가있을 때마다 유용합니다. 그러나 더 많은 것을 말해야합니다! 푸아 송은 $ n $ (베르누이 실험의 수)가 한계없이 증가하고 $ p $ (각 개별 실험 ()의 성공 확률이 0이되는 방식으로 $ \가 될 때)에서 이항 분포 변수에서 점근 적으로 발생합니다. lambda = np $는 일정하게 유지되고 0과 무한대에서 멀어집니다. 이는 개별적으로 매우 불가능한 사건이 많을 때 유용하다는 것을 알려줍니다. 몇 가지 좋은 예는 다음과 같습니다. 하루에 두 대의 자동차가 통과 / 만날 때마다 충돌 가능성이 매우 낮으며 그러한 기회의 수는 실제로 천문학적입니다! 이제 세계의 총 비행기 충돌 수와 같은 다른 예를 직접 생각할 수 있습니다. Preussian 기병대에서 말차에 의한 사망자 수의 고전적인 예!
Poisson이 역학에서 일부 질병 사례 수를 모델링하는 데 사용되는 경우 종종 적합하지 않음을 발견합니다. 잘 : 분산도 너무 큰! Poisson은 variance = mean을 가지며, 이항 한계에서 쉽게 볼 수 있습니다. 이항에서 분산은 $ np (1-p) $이고 $ p $가 0이 될 때 반드시 $ 1-p $가 1이됩니다. 따라서 분산은 기대 값 인 $ np $로 이동하고 둘 다 $ \ lambda $로 이동합니다.한 가지 방법은 음 이항과 같이 평균과 동일하도록 조건이 지정되지 않은 더 큰 분산을 가진 포아송에 대한 대안을 검색하는 것입니다. ¿ 그러나 왜 더 큰 분산 현상이 발생합니까? 한 가지 가능성은 한 사람에 대한 질병의 개별 확률 $ p $가 일정하지 않으며 관찰 된 공변량 (예 : 연령, 직업, 흡연 상태 등)에 의존하지 않는다는 것입니다.이를 관찰되지 않은 이질성이라고하며 때로는 모델이 사용됩니다. for는 허약 한 모델 또는 혼합 모델이라고합니다. 이를 수행하는 한 가지 방법은 모집단의 $ p $ “가 일부 분포에서 비롯된 것으로 가정하고, 예를 들어 감마 분포라고 가정하면 (수학이 더 간단 해집니다 …) 감마-포아송 분포를 얻습니다. -음 이항을 복구합니다!
답변
최근 발표 된 연구 일반적인 생각과는 달리 인간의 성과는 일반적으로 분포되지 않는다고 제안합니다. 4 개 분야의 데이터가 분석되었습니다. (1) 가장 뛰어난 분야별 학술지의 출판 빈도를 기준으로 50 개 분야의 학자. (2 ) 배우, 뮤지션, 작가 등 연예인, 명망있는 상, 지명, 수상작의 수. (3) 10 개국의 정치인과 선거 / 재선 결과. 홈런 수, 팀 스포츠의 리셉션 및 개인의 총 승리와 같은 사용 가능한 측정 포트. 저자는 “데이터를 얼마나 좁게 또는 광범위하게 분석했는지에 관계없이 각 연구에서 명확하고 일관된 멱 법칙 분포가 전개되는 것을 보았습니다 …”라고 썼습니다.
댓글
- 사람의 성과가 정상적으로 분배된다고 제안한 사람은 누구입니까?! 80-20 원칙은 Pareto (1906!)에 의해 제안되었습니다.
Answer
Cauchy 분포가 자주 사용됩니다. 자산 수익을 모델링하는 재무 분야. 유연성으로 인해 Johnson의 Bounded 및 Unbounded 분포도 주목할 만합니다 (자산 가격, 발전 및 수 문학 모델링에 적용했습니다).
답변
일반적인 확률 분포; 여기
균일 배포 (이산) -주사위 1 개를 굴 렸고 1, 2, 3, 4, 5, 6 중 하나가 떨어질 확률이 같습니다.
( 여기 에서)
균일 분포 (연속) -벽을 향해 매우 미세한 분말을 뿌렸습니다. 벽의 작은 영역의 경우 벽의 한 지점에 먼지가 떨어질 가능성이 균일합니다.
큰 실린더의 가스를 가지고 있습니다. 모든 단위 면적에 대해 초당 내벽에서 평방 cm 당 충돌하는 기체 분자의 수는 균일 해 보입니다.
from 여기
Bernoulli 분포 -Bernoulli 시행 (또는 이항 시행)은 정확히 두 가지 결과, ” 성공 ” 및 ” 실패 “. 이러한 시행에서 성공 확률은 p이고 실패 확률은 q = 1-p입니다.
예를 들어 동전 던지기에서 우리는 두 가지 결과 (머리 또는 꼬리)를 가질 수 있습니다. 공정한 동전의 경우 앞면 확률은 1/2입니다. 꼬리의 확률은 1/2로 균일 한 베르누이 분포의 한 종류입니다.
코인 던지기에서 앞면이 나올 확률이 0.9와 같이 불공평하면 꼬리가 떨어질 확률이됩니다. 0.1이됩니다.
확률 0.6 및 0.4의 Bernauli 분포; 여기
이항 분포 -Bernoulli 시행 (각각 p 및 q = 1-p 확률로 2 개의 결과 포함)이 n 번 실행되는 경우; (예 : 동전을 n 번 던지는 경우) 모든 머리를 얻을 확률이 약간 있고 모든 꼬리를 얻을 확률이 약간 있습니다. 특정 값의 머리와 특정 값의 꼬리는 최대가됩니다. 이 분포를 이항 분포라고합니다.
바둑판이있는 이항 분포. WP
Poisson 배포판 – Wikipedia의 예 : 매일받는 메일의 양을 추적하는 개인은 하루에 평균 4 개의 편지를받는 것을 알 수 있습니다. 메일이 독립적 인 출처에서 온 경우 , 그러면 하루에 수신 된 메일의 수는 푸 아송 배포를 따릅니다. 즉, 하루에 0 개 또는 100 개의 메일을받을 가능성은 무시할 수 있지만 하루에 최대 특정 수 (여기서는 4 개)의 메일을받을 수 있습니다.
비슷하게; 가상의 초원에서 e가 1km ^ 2에 약 10 개의 자갈을 얻는다고 가정합니다. 비례 적으로 더 많은 면적을 사용하면 비례 적으로 더 많은 자갈을 얻습니다. 그러나 특정 1km ^ 2 샘플의 경우 0 또는 100 개의 자갈을 얻을 가능성이 거의 없습니다. 아마도 그것은 포아송 분포를 따를 것입니다.
Wikipedia에 따르면 방사성 소스로부터의 초당 붕괴 사건의 수는 포아송 분포를 따릅니다.
일반 분포 또는 가우스 분포 – n 개의 다이가 동시에 굴러지고 n이 매우 크다면; 각 다이의 결과의 합계는 중앙 값을 중심으로 클러스터링되는 경향이 있습니다. 너무 크지도 너무 작지도 않습니다. 이 분포를 정규 분포 또는 종 모양 곡선이라고합니다.
합계 여기
동시 다이 수가 증가함에 따라 분포는 가우시안에 접근합니다. central limit theorem
비슷하게 n 개의 코인을 동시에 던지고 n이 매우 크면 우리가 앞면이 많거나 뒷면이 너무 많습니다. 앞면의 수는 특정 값을 중심으로합니다. 이항 분포와 비슷하지만 코인의 수는 훨씬 더 많습니다.
코멘트
- 위의 노력에 대해 오해가 있는지 언급 해주세요. 통계의 복잡성이 두렵습니다.