표본 크기가 증가함에 따라 결과의 표준 편차가 작아지는 이유는 무엇입니까? 평신도 예제를 제공하고 왜

샘플 크기가 증가함에 따라 (예 : 80 % 우위를 가진 거래 전략) 표준이 왜 결과 편차가 작아 지나요? 누군가 표준 편차가 작아지고 결과가 실제 평균에 가까워지는 이유를 설명해 주시겠습니까? 간단하고 직관적 인 평신도 수학적 예를 제공 할 수 있습니다.

주석

  • 중심 극한 정리에 대해 어떤 직관적 인 설명이 있습니까?
  • " 결과의 표준 편차 "가 모호합니다 (What results ??)-그리고 따라서 제목의 매우 일반적인 진술은 완전히 사실이 아닙니다 (명백한 반례가 존재하며 ' 때때로 만 사실임). 특정 예를 지정하는 것이 더 좋을 수 있습니다 (예 : 표본 크기가 증가함에 따라 표준 편차가 감소하는 속성을 갖는 표본 평균의 표본 분포).
  • 표준 편차는 ' 샘플 크기가 커질수록 반드시 감소하지는 않습니다. 그러나 평균의 표준 오류는 ' 당신이 참조하는 ' 일 수 있습니다.이 경우 우리는 평균은 표본 크기가 증가 할 때입니다.
  • 예, 대신 표준 오류를 의미 했어야합니다. 평균의 표본 오차가 감소하는 이유는 무엇입니까? 이유를 시각적으로 보여주기 위해 간단하고 비 추상적 인 수학을 제공해 주시겠습니까? 왜 ' 더 확실하게 ' 표본 크기가 증가함에 따라 평균이 나타납니다 (제 경우에는 결과가 실제로 80 % 승률) 어떻게 발생합니까?

답변

샘플 크기가 증가하면 (예 : 에지가 80 % 인 거래 전략) 결과의 표준 편차가 작아지는 이유는 무엇입니까?

여기서 핵심 개념은 “결과”입니다. 이러한 결과 는 무엇입니까? 결과 는 평균 $ \ mu $와 같은 모집단 매개 변수 추정치의 분산입니다.

예를 들어 값의 표본 분산 $ s ^ 2_j $를 측정하는 경우 $ x_ {i_j} $ 샘플 $ j $에서 더 큰 샘플 크기로 더 작아지지 않습니다. $ n_j $ : $$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j} (x_ { i_j}-\ bar x_j) ^ 2 $$ 여기서 $ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $는 표본 평균입니다.

그러나 분산의 추정량 샘플의 $ s ^ 2_ \ mu $ 평균 $ \ bar x_j $는 샘플 크기에 따라 감소합니다. $$ \ frac 1 n_js ^ 2_j $$

평신도 설명은 다음과 같습니다. 전체 모집단 크기가 $ n $라고 가정합니다. 모든 값 $ x_ {j = 1 \ dots n} $를 살펴보면 샘플 평균은 실제 평균 인 $ \ bar x_j = \ mu $와 같을 것입니다. 즉, 불확실성은 0이되고 추정량의 분산도 0이됩니다. $ s ^ 2_j = 0 $

하지만 $ n_j $ 크기의 샘플 만 볼 때 . 불확도 $ s ^ 2_j > 0 $로 표본 평균 추정기 $ \ bar x_j $를 계산합니다. 따라서 표본 크기 $ n_j $와 $ n $ 사이 어딘가에 불확실성 (분산 ) 샘플 평균 $ \ bar x_j $가 0이 아닌 값에서 0으로 감소했습니다. 이것이 제가 생각 해낼 수있는 가장 간단한 설명입니다.

답변

아마 가장 쉽게 생각할 수있는 방법은 모집단과 표본의 차이에 관한 것입니다. 변수의 평균이 샘플에서 무엇인지 묻는다면, 당신은 저에게 추정치를주지 않습니까? 당신은 단지 그것을 계산하고 말해 주면됩니다. 샘플을 구성하고 따라서 관심 통계를 직접 관찰 할 수있는 데이터입니다. 상관 계수는 이런 의미에서 다르지 않습니다. 샘플에서 X와 Y 사이의 상관 관계가 무엇인지 묻는다면 명확하게 “표본 외부에 무엇이 있는지, 그리고 그것이 추출 된 더 큰 집단 (실제 또는 형이상학 적)에서 무엇인지에 대해 신경 쓰지 마십시오. 그런 다음 숫자를 부수고 저에게 말하십시오. 확률 이론은 포함되지 않습니다.

이제 우리가 표본 외부에서, 즉 일부 관찰되지 않은 인구 또는 관찰 할 수없고 어떤 의미에서는 일정한 인과 적 역학 관계에서이 두 변수 사이의 상관 관계에 대해 관심을 기울이면 어떨까요? (만약 우리가 그것을 후자로 생각한다면 인구는 “superpopulation”입니다. 예를 들어 https://www.jstor.org/stable/2529429 .) 그런 다음 물론 유의성 테스트를 수행하고 그렇지 않으면 표본에서 알고있는 것을 사용하여 모집단에서 도달하기 시작하는 표준 편차를 포함하여 모집단에서 당신의 질문.

하지만 먼저 다른 극단에서 생각해 봅시다. 우리는 너무 큰 샘플을 수집하여 단순히 인구가됩니다.조사 질문이 국가 전체의 실제 인구에 관한 것이거나 아마도 “일반 과학 이론이고 우리가 무한한”샘플 “을 가지고 있다면 인구 조사 데이터를 상상해보십시오. 다시 말하지만, 세계가 어떻게 작동하는지 알고 싶다면 저는 활용합니다. 내 전능함을 유지하고 단순히 내 관심 통계를 추정하는 것이 아니라 계산합니다. 그런 다음 뇌 방귀가 있고 더 이상 전능하지 않지만 여전히 그에 가까워서 하나의 관찰을 놓치고 내 샘플이 이제 전체 모집단을 캡처하는 데 부족한 관찰이면 어떻게됩니까? 이제 다양한 확률로 취할 수있는 값의 범위를 사용하여 다시 추정해야합니다. 더 이상 정확히 찾을 수 없습니다.하지만 제가 추정하는 것은 실제로는 단일 숫자입니다. 범위가 아닌 선-여전히 수많은 데이터가 있으므로 실제 관심 통계가 매우 작은 범위 내에 있다고 95 % 확신을 가지고 말할 수 있습니다. 물론 그 값이 무엇인지에 따라 다릅니다. 마지막 관찰은 일어납니다. 그러나 그것은 단지 하나의 관찰 일뿐입니다. 그래서 그것은 나의 관심 통계를 많이 변경하기 위해 미친 듯이 평범하지 않게 될 필요가있을 것입니다. 물론 이것은 가능성이없고 나의 좁은 신뢰 구간에 반영됩니다.

이 코인의 다른 쪽에서도 같은 이야기를 들려줍니다. 제가 가지고있는 엄청난 양의 데이터가 우연의 일치로 제가 계산할 때와 매우 다른 표본 통계를 계산하도록 이끌 수 있습니다. 내가 놓친 관측치로 데이터를 늘릴 수 있지만 순전히 우연히 오해의 소지가있는 편향된 샘플을 그린 것은 정말, 정말 낮습니다. 이것이 제가 관심있는 인구 통계가 실제로 어디에 있는지에 대한 매우 좁은 신뢰 구간을보고 할 때 기본적으로 설명하고 전달하는 것입니다.

이제 거기에서 거꾸로 걸어 가면 신뢰가 시작됩니다. 그럴듯한 모집단 값의 간격 (그 간격이 숫자 선의 어디에 있든 상관없이)이 넓어지기 시작합니다. 제 표본은 항상 결정적이며 표본 평균과 상관 관계를 계산할 수 있으며 이러한 통계를 처리 할 수 있습니다. 모집단에 대한 완전한 데이터가 있으면 계산할 내용에 대한 주장 인 것처럼, 표본이 작을수록 해당 주장에 대해 더 회의적이어야하며, 그 가능성에 대해 더 많은 신뢰를 제공해야합니다. 인구 데이터에서 실제로 볼 수있는 것은이 샘플에서 보는 것과는 다소 차이가있을 것입니다. 따라서이 모든 것은 귀하의 질문에 역으로 대답하는 것입니다. 샘플을 벗어난 통계에 대한 우리의 추정치는 더 확실 해지고 단일 지점에서 수렴됩니다. , 담당자 특정 지식을 완전한 데이터로 원망하는 이유는 데이터가 적을수록 불확실 해지고 범위가 넓어지기 때문입니다.

통계의 표준 편차 도 이해하는 것이 중요합니다. 은 동일한 모집단에서 무작위로 추출한 여러 표본에서 서로 다른 표본 통계를 얻을 확률을 구체적으로 언급하고 정량화합니다.이 통계는 해당 통계에 대한 실제 값이 하나뿐입니다. 모집단 자체에는 그 통계의 표준 편차가 전혀 없습니다. 이것은 상수이고 변하지 않습니다. 반면에 변수는 모집단과 특정 표본 모두에서 자체 표준 편차를 가지고 있으며, 그 모집단 표준 편차의 추정치 가 있습니다. 주어진 크기의 주어진 표본 내에서 해당 변수의 알려진 표준 편차입니다. 따라서 모집단의 점 추정치 주위에 표준 편차 (또는 표준 오차)를 가질 수있을 때 모든 참조를 똑바로 유지하는 것이 중요합니다. 표본에있는 해당 변수의 표준 편차를 기반으로 한 변수의 표준 편차입니다. 더 간단한 방법은 없습니다.

그리고 마지막으로, 예, 확실히 가능합니다. 모집단의 분산에 대한 편향된 표현을 제공하는 표본입니다. 비교적 가능성이 낮지 만 더 작은 표본이 관심있는 모집단 통계에 대해 거짓말을하는 것이 아니라 거짓말을 할 가능성이 항상 있습니다. 관심 통계가 샘플링과 다를 것으로 예상해야하는 정도 르 샘플. 그럴 방법이 없습니다. 누군가가 주장을하고 거짓말을하고 있는지 물어 보는 것처럼 생각하세요. 그들은 “예”라고 대답 할 수 있습니다.이 경우 고려할 가치가있는 어떤 것도 말하고 있지 않다는 것을 확신 할 수 있습니다. 그러나 그들이 아니오라고 대답하면 당신은 다시 원점으로 돌아온 것입니다. 그들이 “거짓말을하든 그렇지 않든”물어볼 사람이 없다면, 당신은 그들을 믿을 지 말지 선택해야합니다. (베이지안 사람들은 그 결정을 내리는 데 더 나은 방법이 있다고 생각하지만 겸손히 동의하지 않습니다.)

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다