통계 테스트에서 p 값과 t 값의 의미는 무엇입니까?

통계 과정을 수강 한 후 동료 학생들을 도우려고 노력한 결과, 통계 가설 테스트의 결과를 해석하는 것이 헤드 데스크를 많이 자극하는 주제를 발견했습니다. . 학생들은 주어진 시험에서 요구하는 계산을 수행하는 방법을 쉽게 배우지 만 결과 해석에 매달리는 것 같습니다. 많은 컴퓨터 도구는 “p 값”또는 “t 값”의 관점에서 테스트 결과를보고합니다.

통계학에서 첫 번째 과정을 수강하는 대학생에게 다음 사항을 어떻게 설명 하시겠습니까?

  • 검증되는 가설과 관련하여 “p- 값”은 무엇을 의미합니까? 높은 p- 값 또는 낮은 p- 값을 찾아야하는 경우가 있습니까?

  • p- 값과 t- 값의 관계는 무엇입니까?

댓글

  • 이 중 상당 부분은 기본적으로

    p 값 . ‘이를 이해했다면 많은 것이 분명해집니다.

  • 눈물없는 통계 책을 읽어보세요. 정신을 구할 수 있습니다 !!
  • @ user48700 눈물없는 통계 가 이것을 어떻게 설명하는지 요약 해 주시겠습니까?
  • 누군가와 관련된 p- 값 그래프를 그려야합니다. 시간이 지남에 따라 질문하고 ‘ 대학 또는 Coursera 데이터 과학 수업의 학사 일정에 대한 계절 성과 상관 관계를 확인할 수있을 것입니다.
  • 다른 멋지고 관련성있는 책 외에도 답변과 의견에 권장 사항이있는 경우, 적절하게 ” p- 값이란 무엇입니까? ” .

답변

$ p $ -value

대학에서 남학생의 평균 키가 $ 5 $ 피트 $ 7 $ 인치. 무작위로 선택한 $ 100 $ 학생의 키를 수집하고 표본 평균을 계산합니다 ( $ 5 $ ft $ 9 $ 인치). 적절한 공식 / 통계 루틴을 사용하여 가설에 대한 $ p $ -값을 계산하고 $ 0.06 인 것으로 밝혀졌습니다. $ .

$ p = 0.06 $ 을 적절하게 해석하려면 몇 가지 사항에 유의해야합니다.

  1. 고전적인 가설 검정의 첫 번째 단계는 고려중인 가설이 참이라는 가정입니다. (우리의 맥락에서 true 평균 높이는 $ 5 $ ft $ 7 $ 인치.)

  2. 다음 계산을 상상해보십시오. 표본이 의미하는 확률을 계산합니다. 가설이 실제로 옳다고 가정 할 때 $ 5 $ 피트 $ 9 $ 인치보다 큽니다 (포인트 1 참조). .

즉, $$ \ mathrm {P} (\ mathrm {Sample \ : mean} \ ge 5 \ : \ mathrm {ft} \ : 9 \ : \ mathrm {inches} \ : | \ : \ mathrm {True \ : value} = 5 \ : \ mathrm {ft} \ : 7 \ : \ mathrm { 인치}). $$

2 단계의 계산은 $ p $ -값입니다. 따라서 $ p $ -값이 $ 0.06 $ 이면 실험을 여러 번 반복하면 , 여러 번 ( $ 100 $ 학생을 무작위로 선택하고 표본 평균을 계산할 때마다) $ 6 $ $ 100 $ 중 시간이 $ 5 $ ft $ 9 $ 인치.

위의 이해를 감안할 때, 우리의 가설이 사실이라는 가정을 계속 유지해야합니까 (1 단계 참조)? 음, $ p = 0.06 $ 은 다음 두 가지 중 하나가 발생했음을 나타냅니다.

  • (A) 우리의 가설이 맞고 매우 가능성이 낮은 이벤트가 발생했습니다 (예 : 모든 $ 100 $ 학생은 학생 운동 선수 임)

또는

  • (B) 우리의 가정은 틀렸고 우리가 얻은 샘플은 그다지 특이하지 않습니다.

(A)와 (B) 사이에서 선택하는 전통적인 방법은 임의의 것을 선택하는 것입니다. $ p $ 의 마감입니다. $ p > 0 인 경우 (A)를 선택합니다.05 $ 및 (B) $ p < 0.05 $ 인 경우

댓글

  • 시간을 내십시오! 일주일 동안 ‘ ” 우수 답변 “을 선택하는 것에 대해 생각하지 않았습니다. 그래서.
  • 이제 ‘ 다시 돌아와서 전체 답변을 읽을 수있는 기회가 생겼습니다. 학생 키의 경우 큰 +1입니다. 매우 명확하고 잘 배치되어 있습니다.
  • 잘했습니다.하지만 (C) 모델을 추가해야합니다 (공식 / 통계 루틴에 포함됨).
  • A t -값 (또는 기타 테스트 통계)은 대부분 중간 단계입니다. ‘ 기본적으로 일부 가정 하에서 잘 알려진 분포를 가지고있는 것으로 입증 된 통계입니다. null 아래의 테스트 통계 분포를 알고 있으므로 표준 테이블 (오늘날 대부분 소프트웨어)을 사용하여 p- 값을 도출 할 수 있습니다.
  • Isn ‘ 카이-제곱 검정을 수행 한 다음 카이-제곱 표에서 파생 된 p- 값이 아닌가요? 위에서 계산 된 확률이 어떻게 p- 값 자체를 나타내는 지 궁금하십니까?!

답변

교사이자 사려 깊은 학생

이 스레드에서 지금까지 크레용이 충분하지 않다는 믿음으로 겸손하게 제출했습니다. 끝에 간략한 설명이 표시됩니다.


학생 : p- 값은 무엇을 의미합니까? 많은 사람들이 동의하는 것 같습니다. “우리가 ” 샘플 평균이

통계 또는 “이 결과를 관찰 할 확률입니다. .. 귀무 가설이 참인 경우 ” 또는 ” 내 샘플의 통계는 [시뮬레이션 된] 분포 ” ” 최소한 귀무 가설이 참이라고 가정하여 계산 된 것보다 큰 테스트 통계를 관찰 할 확률입니다 ” .

선생님 : 올바르게 이해했습니다. 이러한 모든 진술은 여러 상황에서 정확합니다.

학생 : 대부분이 관련성이 있는지 모르겠습니다. 귀무 가설 $ H_0 $ 과 대립 가설 $ H_A $ 을 명시해야한다고 가르치지 않았습니까? span>? ” ” 또는 ” 최소한 크거나 ” 매우 인기있는 ” 더 극단적 인 “?

선생님 : 일반적으로 복잡해 보일 수 있으므로 구체적인 예를 탐색하는 것이 도움이 되나요?

학생 : 물론입니다.하지만 가능하다면 현실적이면서도 간단한 것으로 만드세요.

선생님 :이 가설 테스트 이론은 역사적으로 천문학 자들이 관측 오류를 분석해야 할 때 시작되었습니다. 어느 날 과학자가 자신의 장치에서 측정 오류를 줄이려는 노력에 대해 설명하는 오래된 문서를 살펴 보았습니다. 알려진 위치에서 별을 수정하고 해당 위치의 앞뒤로 변위를 기록했습니다. 이러한 변위를 시각화하기 위해 그는 약간 부드럽게했을 때 이와 같은 히스토그램을 그렸습니다.

그림 1 : 변위 히스토그램

학생 : 히스토그램이 어떻게 작동하는지 기억합니다. 세로 축에는 ” 밀도 “라는 레이블이 지정되어 있습니다. 측정 값의 상대 빈도는 높이가 아닌 면적 으로 표시된다는 점을 상기시켜줍니다.

교사 : 맞습니다. ” 비정상적인 ” 또는 ” 극단적 인 ” 값은 꽤 좁은 지역에 위치해 있습니다. 여기 크레용이 있습니다. 면적이 전체의 1/10에 불과한 지역에서 색칠 할 수 있다고 생각하십니까?

학생 : 물론입니다. 간단합니다. [그림의 색상]

그림 2 : 학생

선생님 : 매우 좋습니다.이 영역의 약 10 %가 저에게있어 보입니다.하지만 히스토그램에서 중요한 영역은 수직선 사이의 영역뿐이라는 점을 기억하세요. 기회 또는 확률 은 변위가 수평축의 선 사이에 위치 할 것입니다. 즉, 아래쪽까지 채색해야하고 면적의 절반 이상이 될 것입니다. “그렇지?

학생 : 아, 그렇군요. 다시 해보겠습니다. 커브가 정말 낮은 곳을 색칠하고 싶습니다. 그렇지 않나요? 두 끝에서 가장 낮습니다.한 영역 만 색칠해야합니까? 아니면 여러 부분으로 나누어도 괜찮습니까?

선생님 : 여러 부분을 사용하는 것이 현명한 생각입니다. 그들은 어디에 있을까요?

학생 (가리키며) : 여기와 여기. 이 크레용은 “매우 날카롭지 않기 때문에 펜을 사용하여 제가 사용하는 선을 보여주었습니다.

그림 3 : 학생

선생님 : 아주 좋습니다! 나머지 이야기를 말씀 드리겠습니다. 과학자는 장치를 약간 개선 한 다음 추가 측정을 수행했습니다. 그는 첫 번째 변위가 $ 0.1 $ 에 불과하여 좋은 징조라고 생각했지만 신중한 과학자이기 때문에 수표로 더 많은 측정을 진행했습니다. . 안타깝게도 다른 측정 값은 손실됩니다.이 시점에서 원고가 분리됩니다. 우리가 가진 것은 하나의 숫자 인 $ 0.1 $ 뿐입니다.

학생 : 그건 너무 나쁩니다.하지만 “당신의 몸매에서 변위가 널리 퍼진 것보다 훨씬 낫지 않습니까?

선생님 : 저것 “이 질문에 답해 주셨으면합니다. 우선 $ H_0 $ 로 무엇을 가정해야합니까?

학생 : 글쎄요, 회의론자는 장치의 개선이 어떤 영향을 미쳤는지 궁금 할 것입니다. 증명의 부담은 과학자에게 있습니다. 그는 회의론자가 틀렸다는 것을 보여주고 싶어 할 것입니다. 과학자에게 좋지 않습니다. 우리가 알고있는 $ 0.1 $ 의 값을 포함하여 모든 새로운 측정은 첫 번째 설명대로 작동해야한다고합니다. 히스토그램입니다. 또는 그보다 더 나쁠 수도 있습니다. 더 많이 퍼져있을 수도 있습니다.

교사 : G o on, 당신은 잘하고 있습니다.

학생 : 그래서 대안은 새로운 측정이 퍼지는 것입니다. 맞죠?

선생님 : 아주 좋아요! 스프레드가 적은 히스토그램이 어떻게 생겼는지 그림을 그려 주시겠습니까? 여기에 첫 번째 히스토그램의 또 다른 사본이 있습니다. 그 위에 참조로 그릴 수 있습니다.

학생 (그림) : 저는 펜을 사용하여 새로운 히스토그램과 그 아래 영역에 색상을 지정합니다. 곡선의 대부분이 수평 축에서 0에 가까워서 그 영역의 대부분이 (수평) 값 0에 가까워 지도록 만들었습니다. 덜 퍼지거나 더 정확하다는 것을 의미합니다.

그림 4 : 학생

교사 : 좋은 시작입니다.하지만 찬스 를 보여주는 히스토그램의 총 면적은 $ 1 $ 이어야합니다. 첫 번째 히스토그램의 총 면적 따라서 $ 1 $ 입니다. 새 히스토그램 안에 얼마나 많은 면적이 있습니까?

학생 : 절반도 안되는 것 같습니다. . “문제인 것 같지만 해결 방법을 모르겠습니다. 어떻게해야합니까?

교사 : 비결은 새로운 히스토그램을 만드는 것입니다. 더 높음 l 영역은 $ 1 $ 입니다. 여기에서는 설명을 위해 컴퓨터에서 생성 한 버전을 보여 드리겠습니다.

그림 5 : 교사

학생 : 알겠습니다. 모양이 실제로 바뀌지 않도록 수직으로 늘 렸지만 이제 빨간색 영역과 회색 영역 (빨간색 아래 부분 포함)은 같은 양입니다.

선생님 : 맞습니다. 귀무 가설 (파란색으로 퍼짐)과 대립 가설의 일부 (빨간색으로 퍼짐이 적음)의 그림을보고 있습니다.

학생 : 대안의 ” 부분 “은 무엇을 의미합니까? 단지 대립 가설이 아닙니까?

선생님 : 통계 학자와 문법이 섞이지 않는 것 같습니다. 🙂 진지하게, ” 가설 “이 의미하는 바는 일반적으로 완전히 큰 가능성입니다. 여기서 대안은 (이전에 언급했듯이) 측정 값이 이전보다 ” 적은 분산 “이라는 것입니다. 하지만 얼마나 적습니까 ? 많은 가능성이 있습니다. 여기에서 다른 것을 보여 드리겠습니다. 노란색 대시로 그렸습니다. 이전 두 개 사이에 있습니다.

그림 6 : 대안의 두 요소와 함께 null

학생 : 알겠습니다. 스프레드의 양은 다를 수 있지만 실제로 스프레드가 얼마나 될지는 미리 알 수 없습니다. 그런데 왜이 그림에서 재미있는 음영을 만들었나요?

선생님 : 히스토그램이 어디에서 어떻게 다른지 강조하고 싶었습니다. 대체 히스토그램이 널보다 낮은 회색으로 음영 처리하고 대체 히스토그램이 높은 빨간색으로 음영 처리했습니다.

학생 : 그게 왜 중요할까요?

선생님 : 양쪽 꼬리의 첫 번째 히스토그램을 어떻게 채색했는지 기억하십니까? [신문을 훑어 보면서.] 아, 여기 있습니다.이 그림을 같은 방식으로 색칠 해 보겠습니다.

그림 7 : null 및 대체 색상.

학생 : 기억합니다 : 그것들은 극단적 인 값입니다. 나는 널 밀도가 가능한 한 작고 그곳 영역의 10 %에서 채색 된 곳을 발견했습니다.

선생님 : 극한 지역의 대안에 대해 알려주세요.

학생 : 크레용으로 덮었 기 때문에보기 어렵지만 거기에있는 것 같습니다. ” 내가 채색 한 영역에 대안이있을 가능성이 거의 없습니다. 히스토그램은 값 축에 대해 바로 아래에 있으며 그 아래 영역을위한 공간이 없습니다.

교사 : 그 생각을 계속합시다. 가설 적으로 측정치의 변위가 $-2 $ 라고 말하고이 세 가지 중 어느 것을 선택하라고 히스토그램은 그 출처 일 가능성이 가장 높은 것이 었습니다. 어떤 것이겠습니까?

학생 : 첫 번째는 파란색입니다. $-2 $ 가 발생할 가능성이있는 유일한 곳입니다.

선생님 : 그리고 원고에서 $ 0.1 $ 의 가치는 어떻습니까?

학생 : 음 … 이야기. 세 가지 히스토그램은 모두 $ 0.1 $ 로 상당히 높은 수준입니다.

선생님 : 좋습니다. 충분히 공평합니다. 하지만 값이 $ 0.1 $ (예 : $ 0 $ $ 0.2 $ . 이 그래프에서 확률을 읽는 데 도움이 되나요?

학생 : 물론 이죠. 영역을 사용할 수 있기 때문입니다. $ 0 $ 에서 $ 0.2 $ 사이의 각 곡선 아래 면적을 추정하면됩니다. 하지만 꽤 어려워 보입니다.

선생님 : 그렇게 멀리 갈 필요는 없습니다. 어느 영역이 가장 큰지 알 수 있습니까?

학생 : 물론 가장 높은 곡선 아래에있는 것입니다. 세 영역 모두 기준이 동일하므로 곡선이 클수록 곡선 아래에 더 많은 영역과 기준이 있습니다. 즉, 가장 높은 히스토그램을 의미합니다. 빨간색 대시로 그린 것은 $ 0.1 $ 의 변위에 대한 가장 가능성이 높은 것입니다. “조금 걱정이됩니다. 여기에 표시된 하나 또는 두 개의 대안이 아닌 모든 대안에 대한 히스토그램을 모두 볼 필요가 없습니까? 어떻게하면 될까요?

선생님 : 당신은 패턴을 잘 습득 하니까 말해봐 : 측정 장치가 점점 더 정확 해지면서 히스토그램?

학생 : 점점 좁아지고 키도 커져야하므로 전체 면적이 동일하게 유지됩니다. 비교하기가 매우 어렵습니다. 대체 항목은 $ 0 $ 의 null 오른쪽보다 모두 더 높습니다. 그러나 다른 값에서는 때때로 대안이 더 높고 때로는 더 낮습니다! 예를 들어 [ $ 3/4 $ 근처의 값을 가리키며] 여기에서 my 빨간색 히스토그램이 가장 낮고 노란색 히스토그램이 가장 높고 원래의 널 히스토그램이 그 사이에 있습니다. 그러나 오른쪽에서 null이 가장 높습니다.

교사 : 일반적으로 히스토그램을 비교하는 것은 복잡한 업무입니다. 이를 돕기 위해 컴퓨터에 다른 플롯을 만들도록 요청했습니다. 각 대체 히스토그램 높이 (또는 ” 밀도 iv id)를 분할 했습니다. = “fc4eb26749”>

)를 null 히스토그램 높이로 설정하여 ” 우도 비율로 알려진 값을 생성합니다. ” 결과 , $ 1 $ 보다 큰 값은 대안이 더 가능성이 있음을 의미하고 $ 1 $ 보다 작은 값은 대안은 가능성이 적습니다. 또 다른 대안이 하나 더 그려져 있습니다. “다른 두 개보다 더 많이 퍼져 있지만 원래 장치보다 여전히 덜 퍼져 있습니다.

그림 8 : 가능성 비율

선생님 (계속) : 대안이 null보다 가능성이 더 높은 곳을 보여 주시겠습니까?

학생 (색칠) : 여기 중간에 분명히 있습니다. 그리고 이것들은 더 이상 히스토그램이 아니기 때문에 우리는 영역보다는 높이를 봐야한다고 생각합니다. 그래서 저는 단지 가로축에 값의 범위를 표시하고 있습니다. 그러나 색상을 칠할 중간 부분을 어떻게 알 수 있습니까? 색상 지정은 어디에서 중지합니까?

그림 9 : 마크 업 우도 비 플롯

교사 : 확실한 규칙은 없습니다. 그것은 모두 우리가 우리의 결론을 어떻게 사용할 것인지와 회의론자들이 얼마나 맹렬한 지에 달려 있습니다.하지만 자리에 앉아 자신이 성취 한 것에 대해 생각해보십시오. 이제 큰 가능성 비율을 가진 결과가 대안에 대한 증거 이고 가능성 비율이 작은 결과가 대안에 반대 있다는 증거라는 것을 이제 깨달았습니다. . 제가 여러분에게 부탁 할 것은 가능한 한 귀무 가설 하에서 발생할 가능성이 적고 대안 하에서 발생할 가능성이 상대적으로 큰 영역을 색칠하는 것입니다. 채색 한 첫 번째 다이어그램으로 돌아가서 대화를 시작할 때 널의 두 꼬리를 채색했습니다. ” 극단적 이었기 때문입니다. ” 그래도 잘할까요?

학생 : 그렇게 생각하지 않습니다. 귀무 가설에서는 매우 극단적이고 드물지만 다른 대안으로는 사실상 불가능합니다. 새로운 측정 값이 $ 3.0 $ 이면 회의론자의 편에 서고 개선이 발생했음을 부인할 것입니다. 어쨌든 $ 3.0 $ 이 (가) 특이한 결과 였음에도 불구하고 색상을 변경하고 싶습니다. 여기에 크레용 하나 더 드릴게요.

그림 10 : 개선 된 마크 업

교사 : 이것이 무엇을 의미합니까?

학생

em> : 원래 히스토그램 아래 영역의 10 % (널을 설명하는 영역) 만 그려 달라는 요청으로 시작했습니다. 대안이 발생할 가능성이 더 높은 지역의 10 %를 그렸습니다. 새로운 측정이 그 영역에있을 때 우리는 대안을 믿어야한다고 생각합니다.

선생님 : 회의론자는 그것에 대해 어떻게 반응해야합니까?

학생 : 회의론자는 자신이 틀렸다는 것을 인정할 필요가 없습니다. 하지만 그의 믿음이 조금 흔들려 야한다고 생각합니다. 결국 우리는 측정 값이 방금 그린 영역 내부에 있을 수 있지만 널이 참일 때 거기에있을 확률이 10 %에 불과하도록 배열했습니다. 그리고 대안이 참일 때 거기에있을 가능성이 더 큽니다. 과학자가 장치를 얼마나 개선했는지에 따라 달라지기 때문에 그 기회가 어떻게 더 큰지 말할 수 없습니다. 단지 더 큰 것을 압니다. 따라서 증거는 회의론자에 반하는 것입니다.

선생님 : 좋습니다. 이해 한 내용을 요약하여 “당신이 배운 내용을 완전히 명확하게 해주시겠습니까?

학생 : 대립 가설과 귀무 가설을 비교해야한다는 것을 배웠습니다. 히스토그램. 대안의 밀도를 null 밀도로 나눕니다.이를 ” 우도 비라고합니다. ” 좋은 테스트를하려면 10 % 나 회의론자를 흔들기에 충분할 정도의 작은 숫자를 선택해야합니다. 그런 다음 가능성 비율이 가능한 한 높은 값을 찾아서 10 % (또는 어떤 것이 든) 색상이 지정 될 때까지 색상을 지정해야합니다.

선생님 : 그리고 어떻게 사용 하시겠습니까? 그 색상?

학생 : 앞서 말씀 드렸듯이 색상은 수직선 사이에 있어야합니다. 색상 아래에있는 값 (가로 축)은 귀무 가설에 대한 증거입니다. 다른 값-관련된 모든 히스토그램을 자세히 살펴 보지 않고는 그 값이 의미하는 바를 말하기가 어렵습니다.

교사 : 값으로 돌아 가기 원고에서 $ 0.1 $ 로 결론을 내릴 수 있나요?

학생 : 마지막으로 색칠 한 영역입니다. , 그래서 저는 과학자가 옳았을 것이고 장치가 정말 개선되었다고 생각합니다.

선생님 : 마지막 한 가지. 결론은 10 %를 기준으로 선택했거나 테스트의 ” 크기 “를 기반으로했습니다. 많은 사람들이 대신 5 %를 사용하고 싶어합니다. 일부는 1 %를 선호합니다. 그들에게 무엇을 말할 수 있나요?

학생 :이 모든 시험을 한꺼번에 할 수는 없었습니다. 글쎄요, 어쩌면 어떤 식 으로든 할 수 있습니다. 크기에 상관없이 알 수 있습니다. 테스트는 $ 0 $ 부터 시작해야합니다.이 점에서 ” 가장 극단적 인 ” 값이고 거기에서 양방향으로 바깥쪽으로 작업합니다. $ 0.1 $ 에서 바로 멈춘다면 실제로 관찰 된 값입니다. – $ 0.05 $ 에서 $ 0.1 $ 사이 어딘가에 색칠했을 것 같습니다. $ 0.08 $ . 5 % 및 1 %의 사람들은 내가 너무 많이 색칠했다고 즉시 말할 수 있습니다. 5 % 또는 1 % 만 색칠하고 싶을 경우에는 할 수 있지만 “ $ 0.1 $ 까지 도달하지 마십시오. 그들은 내가 한 것과 같은 결론에 도달하지 않았을 것입니다. 그들은 실제로 변화가 일어났다는 증거가 충분하지 않다고 말할 것입니다.

선생님 : 방금 모든 것을 말씀하셨습니다. 시작 부분의 인용문은 정말 을 의미합니다.이 예에서는 “보다 극단적 인 ” 또는 ” 크거나 같음 ” 또는 ” 최소한 큰 ” 이 더 크거나 널 밀도가 작은 값을가집니다. 실제로 설명하신 큰 가능성 비율 의 의미에서 이러한 의미를 갖습니다. 참고로 계산 한 $ 0.08 $ 주변의 숫자를 ” p- 값이라고합니다. ” 상대 히스토그램 높이 분석 (우도 비율)과 관련하여 설명한 방식으로 만 제대로 이해할 수 있습니다.

학생 : 감사합니다. 아직이 모든 것을 완전히 이해하고 있다고 확신하지 못합니다.하지만 여러분은 저에게 많은 생각을 해주셨습니다.

선생님 : 더 나아가고 싶다면 Neyman-Pearson Lemma 를보십시오. 이제 이해할 준비가되었을 것입니다.


시놉시스

대화 상자에있는 것과 같은 단일 통계를 기반으로하는 많은 테스트에서 ” $ z $ ” 또는 ” $ t $ ” 이것은 널 히스토그램이 어떻게 생겼는지 암시하는 방법이지만 힌트 일뿐입니다.이 숫자의 이름은 실제로 중요하지 않습니다. 여기에 설명 된대로 학생이 요약 한 구성은 p- 값과 어떻게 관련되어 있는지 보여줍니다. p- 값은 $ t = 0.1 $ 관찰 결과 귀무 가설을 거부하는 가장 작은 테스트 크기입니다.

그림 11 : 영역으로서의 p- 값.

세부 사항을 보여주기 위해 확대 된이 그림에서 귀무 가설은 다음과 같습니다. 단색 파란색과 두 가지 일반적인 대안이 점선으로 표시됩니다. 이러한 대안이 null보다 훨씬 더 큰 경향이있는 영역이 음영 처리됩니다. 음영은 대안의 상대적 가능성이 가장 큰 곳에서 시작됩니다 ( $ 0 $ ). 관찰 $ t = 0.1 $ 에 도달하면 음영이 중지됩니다. p- 값은 null 히스토그램 아래 음영 영역의 영역입니다. null이 참이라고 가정 할 때 어떤 대안이 참인지에 관계없이 우도 비율이 큰 경향이있는 결과를 관찰 할 수있는 기회입니다. 특히이 구성은 대립 가설에 밀접하게 의존합니다. 가능한 대안을 지정하지 않고는 수행 할 수 없습니다.


여기에 설명 된 테스트의 두 가지 실제 예 (하나는 게시되고 다른 하나는 가설)는 https://stats.stackexchange.com/a/5408/919 .

댓글

  • 이 질문에 대한 이전 답변은 일반적으로 일반적으로 들리는 ” 또는 더 극단적 인 p -값의 측면. ( ” 차 테스트 ” 답변 에는 좋은 구체적인 예) ” 더 극단적 인 “는 다음과 상당히 반대 될 수 있음을 강조하기 위해이 예가 의도적으로 구성된 방식에 특히 감탄합니다. ” 더 크게 ” 또는 ” 0에서 멀어짐 “.
  • 선생님과 교과서에서 ‘ ” 또는 더 극단적 인

    입니다. 내가 들었던 두 가지 변종은 ” $ H_1 $ ” 또는 “에 더 유리하다고 의역 할 수 있습니다. div> $ H_1 $ “를 더 설득합니다. 이 경우 0에 가까운 값은 실제로 망원경이 더 신뢰할 수있게되었다는 설득력이 있지만,이를 “로 설명하려면 약간의 언어 곡예 (논쟁이 가능하지만 혼란 스러울 수 있음)가 필요합니다. 좀 더 극단적 인 “.

  • 언제나 통찰력이 있습니다. 시간을내어 매우 유용한 답변을 작성해 주셔서 감사합니다. 이 정도 수준의 명확성과 직관력을 제공하는 방식으로 교과서를 작성하지 않는 이유가 정말 궁금합니다.
  • 댓글에 비꼬는 표현을 사용하는 것이 위험합니다.
  • ‘ , @baxx. ‘ 공간이 충분하지 않아 정중하고 우아하게 작업 할 수있었습니다. 따라서 ‘ 명시 적으로 언급하지 않는 한 댓글이 냉소적이라고 가정하는 것은 일반적으로 좋은 생각이 아닙니다.의견이 도움이 될 것이라고 가정하십시오. 내가 제공 한 검색의 첫 번째 히트를 따라 가면 질문에 대한 답을 얻을 수있을 것입니다.
  • 단순히 환상적입니다! @whuber 감사합니다!

답변

이 주제를 다루기 전에 항상 학생들이 백분율, 소수, 승산 및 분수 사이를 즐겁게 이동합니다. 그들이 이것에 완전히 만족하지 않으면 그들은 매우 빨리 혼란 스러울 수 있습니다.

나는 Fisher를 통해 처음으로 가설 검정 (따라서 p- 값과 검정 통계)을 설명하고 싶습니다. ” s 고전적인 차 실험입니다. 이에 대한 몇 가지 이유가 있습니다.

(i) 실험을 통해 작업하고 진행하면서 용어를 정의하는 것이이 모든 용어를 처음부터 정의하는 것보다 더 합리적이라고 생각합니다. (ii) 가설 검정의 요점을 극복하기 위해 확률 분포, 곡선 아래 영역 등에 명시 적으로 의존 할 필요가 없습니다. (iii) “관찰 된 것과 같거나 더 극단적 인”이라는이 어리석은 개념을 상당히 현명한 방식으로 설명합니다. (iv) 학생들이 공부하는 내용의 역사, 기원 및 뒷이야기를 더 현실적으로 이해하고 싶어합니다. 추상적 인 이론보다. (v) 학생들이 어떤 학문이나 과목에서 왔는지는 중요하지 않습니다. 그들은 차의 예와 관련 될 수 있습니다. (NB 일부 유학생들은이 독특한 영국의 우유 차 기관에 어려움을 겪습니다.)

[참고 : 원래이 아이디어는 Dennis Lindley의 멋진 기사 인 “실험 데이터 분석 : 차의 감사 & Wine”에서 베이지안 방법이 더 우수한 이유를 보여줍니다. 고전적인 방법.]

뒤 이야기는 Muriel Bristol이 1920 년대 어느 오후에 Rothamsted Experimental Station에서 차 한 잔을 마시기 위해 Fisher를 방문했다는 것입니다. Fisher가 마지막으로 우유를 넣었을 때 그녀는 할 수 있다고 불평했습니다. 또한 우유가 처음 (또는 마지막) 부어 졌는지 여부와 그녀가 전자를 선호하는지 여부를 알려줍니다.이를 테스트하기 위해 그는 Muriel에게 한 쌍의 찻잔을 제공하는 고전적인 차 실험을 설계했으며 어느 것이 우유가 들어 있는지 확인해야합니다. 6 쌍의 찻잔으로이 과정을 반복합니다. ices는 Right (R) 또는 Wrong (W)이고 결과는 RRRRRW입니다.

Muriel이 실제로 추측 만하고 어떤 것도 구별 할 능력이 없다고 가정합니다. 이를 Null Hypothesis 라고합니다. Fisher에 따르면 실험의 목적은이 귀무 가설을 불신하는 것입니다. Muriel이 추측하면 그녀는 매 턴마다 0.5 확률로 찻잔을 정확하게 식별 할 수 있으며 독립적이므로 관찰 된 결과는 0.5 $ ^ 6 $ = 0.016 (또는 1/64)입니다. Fisher는 다음 중 하나를 주장합니다.

(a) 귀무 가설 (Muriel이 추측하고 있음)이 참입니다. 작은 확률의 이벤트가 발생했거나,

(b) 귀무 가설이 거짓이고 Muriel은 차별적 인 힘을 가지고 있습니다.

p- 값 (또는 확률값)은 귀무 가설이 참일 때이 결과 (RRRRRW)를 관찰 할 확률입니다. 이것은 (a)에서 언급 된 작은 확률입니다. , 위.이 경우 0.016입니다. 확률이 작은 사건은 거의 발생하지 않기 때문에 (정의상) 상황 (b)은 상황 (a)보다 발생한 일에 대한 더 바람직한 설명 일 수 있습니다. 귀무 가설을 기각 할 때 우리는 “대립 가설이라고하는 반대 가설을 받아들이는 것입니다.이 예에서 Muriel은 차별적 힘을 가지고있는 것이 대립 가설입니다.

중요한 고려 사항은 무엇을 할 것인가입니다. 클래스를 “작은”확률로 분류합니까? 이벤트가 발생할 가능성이 없다고 말하는 기준점은 무엇입니까? 표준 벤치 마크는 5 % (0.05)이며이를 유의 수준이라고합니다. 우리는 귀무 가설을 거짓으로 기각하고 대립 가설을 받아들입니다. p- 값이 유의 수준보다 작을 때, 즉 우리가 무엇의 확률이 될 때 결과가 “중요”하다고 주장하는 것이 일반적입니다. 귀무 가설이 참인 경우 관찰되는 현상이 컷오프 포인트보다 작습니다. 5 %를 사용하는 것은 완전히 주관적이라는 점을 분명히하는 것이 중요합니다 (다른 공통 유의 수준 인 1 % 및 10 %를 사용하는 것과 마찬가지로).

Fisher는 이것이 일; 하나의 잘못된 쌍으로 가능한 모든 결과는 똑같이 차별적 인 힘을 암시합니다. 따라서 위의 상황 (a)에 대한 관련 확률은 6 (0.5) ^ 6 = 0.094 (또는 6/64)이며 현재는 중요하지 않음 유의 수준 5 %. 이를 극복하기 위해 Fisher는 6 개 중 1 개의 오류가 차별적 힘의 증거로 간주되면 오류가 없다고 주장했습니다.관찰 된 것보다 차별적 인 힘을 더 강력하게 나타내는 결과는 p- 값을 계산할 때 포함되어야합니다. 이로 인해 추론이 다음과 같이 수정되었습니다.

(a) 귀무 가설 (Muriel이 추측하고 있음)이 참이고 관찰 된 것보다 더 극단적 인 사건의 확률이 작거나

(b) 귀무 가설은 거짓이고 Muriel은 차별적 힘을 가지고 있습니다.

차 실험으로 돌아가서이 설정에서 p- 값은 7 (0.5)입니다. ) ^ 6 = 0.109, 5 % 임계 값에서는 여전히 중요하지 않습니다.

그런 다음 학생들에게 동전 던지기와 같은 다른 예를 통해 동전이 공정한지 여부를 알아 내도록합니다. 이것은 귀무 / 대립 가설, p- 값 및 유의 수준의 개념을 드릴합니다. 그런 다음 연속 변수의 경우로 이동하여 테스트 통계의 개념을 소개합니다. 이미 정규 분포, 표준 정규 분포 및 z- 변환을 심층적으로 다루었 기 때문에 몇 가지 개념을 결합하면됩니다.

검정 통계, p- 값 및 결정하기 (중요 / 중요하지 않음) 누락 된 공란 게임을 채우기 위해 게시 된 논문을 통해 학생들이 작업하도록합니다.

댓글

  • I 제가 ‘ 아주 오래된 스레드를 되 살리고 있다는 것을 알고 있지만 여기에 있습니다 … 당신의 대답을 정말로 즐기고 있었지만 그 안에있는 t- 값 부분이 그립습니다. 주어진 예를 사용하여 이야기 해주세요. t- 검정 부분에 대해 아무도 대답하지 않았습니까?
  • @sosi It ‘ 아마도 p- 값이 훨씬 더 많기 때문일 것입니다. t- 값보다 일반적입니다. ‘ 자동차에 대해 질문 한 다음 Ford Fiesta의 브레이크에 대해 질문하는 것과 같습니다.
  • 답은 매우 흥미 롭습니다 (+ 1)하지만 결국 몇 가지가 혼동됩니다. $ p $-값이 ” 5 % 수준에서 유의미한 ” 의미합니까? $ p $-값이 5 % 미만이거나 그렇지 않습니다. ‘ 이렇게 모호한 문장을 사용하는 것이 중요하지 않아 ” 의미 ” 정의되지 않았습니다. 2. $ p $ 값이 중요한지 여부를 ” 결정 “한다는 것은 무엇을 의미합니까? 이런 방식으로 의사 결정 이론을 혼합하는 것은 정당화되지 않는 것 같습니다 (특히 Fisher가 과학에서 Neyman-Pearson 테스트 프레임 워크의 적용에 대해 강력한 반대자 였기 때문에).

답변

어느 정도의 구두 설명이나 계산은 p- 값이 무엇인지 직감적으로 이해하는 데 실제로 도움이되지 않았지만 시뮬레이션과 관련된 과정을 수강하자 정말 초점이 맞춰졌습니다. 그 덕분에 귀무 가설에 의해 생성 된 데이터를 실제로 확인 하고 평균 등을 그릴 수있었습니다. 시뮬레이션 된 샘플의 분포를 살펴본 다음 내 샘플의 통계가 해당 분포에서 어디에 있는지 살펴 봅니다.

이것의 주요 이점은 학생들이 수학 및 테스트 통계 분포를 잠시 잊어 버릴 수 있다는 것입니다. 당면한 개념에 초점을 맞 춥니 다. 물론, 시뮬레이션하는 방법을 방법 배워야했고, 이는 완전히 다른 학생들에게 문제를 일으킬 것입니다.하지만 저에게는 효과적이었고 저는 다른 사람에게 통계를 설명하는 데 도움이되도록 수많은 시뮬레이션을 수행합니다 (예 : “이것이 데이터의 모양입니다. 이것이 포아송 분포가 중첩 된 것처럼 보입니다. 포아송 회귀를 수행 하시겠습니까?”).

이것은 귀하가 제기 한 질문에 대한 정확한 답은 아니지만 적어도 저에게는 사소한 질문이었습니다.

댓글

  • 나는 이것을 설명하기 위해 시뮬레이션을 사용하는 것에 대해 전심으로 동의합니다. 그러나 마지막에 예제에 대한 작은 메모 : 저는 (학생뿐만 아니라) 사람들이 그것을 발견합니다. 특정 분포 가정을 구분하기 어렵습니다. 포아송, 한계 포아송 분포와 조건부 포아송 분포 사이. 회귀 모델에서는 후자 만 중요하므로 ‘ 포아송이 아닌 여러 종속 변수 값이 반드시 우려 할 필요는 없습니다.
  • 제가 ‘ 그것을 몰랐다고 고백합니다. 저는 ‘ 지난 며칠 동안이 사이트에 대한 귀하의 의견에 진심으로 감사를 표했습니다. ‘ 여러분이 계속 지켜 주시기를 바랍니다.
  • @MattParker 이해를 발전시키기 위해 시뮬레이션을 사용하는 데 중점을 둔 학습 리소스를 알고 있습니까? 아니면 파이썬 / R 스크립트를 모아 여러 테스트를 실행하는 경우일까요?
  • @baxx [다니엘 쿠닌의 이론보기 웹 사이트] (students.brown.edu/seeing-theory/ )에는 이에 대한 흥미로운 도구가 있지만 ‘ 아직 공사 중입니다.그렇지 않으면 ‘ 대부분 시뮬레이션을위한 R ‘의 기본 제공 도구를 실험했습니다.이를 사용하여 일부 방법이 작동하거나 예측 변수가 임의의 변수로 대체되면 어떤 일이 발생하는지 확인합니다. 죄송합니다. 이에 대한 더 나은 리소스를 알고 있었으면합니다!
  • @MattParker 감사합니다. 네-약간의 닭고기와 달걀이 있습니다. 실험을 구성하려면 최소한 그것들을 쓸 수있을만큼 충분히 얻어야합니다. 그래도 걱정하지 마세요 ….. 링크 한 사이트를 확인했습니다. ‘ 좋습니다. 감사합니다

답변

p- 값에 대한 좋은 정의는 “귀무 가설이 참이라고 가정하여 계산 된 것만 큼 큰 테스트 통계를 관찰 할 확률”입니다.

문제는 “테스트 통계”와 “무 가설”에 대한 이해가 필요하다는 것입니다. 그러나 그것은 쉽게 이해할 수 있습니다. 귀무 가설이 사실이라면, 일반적으로 “모집단 A의 모수는 모수 B의 모수와 같습니다.”와 같이 통계를 계산하여 이러한 모수를 추정 할 수 있습니다. “이것들이 이렇게 다르다”는 테스트 통계?

예 : 동전이 공평하다면 100 번 던질 때 앞면이 60 번 나올 확률은 얼마입니까? 그것은 귀무 가설을 테스트하는 것입니다. , “the coin is fair”또는 “p = .5″여기서 p는 앞면의 확률입니다.

이 경우 테스트 통계는 앞면의 수입니다.

이제 “t- 값”이라고 부르는 것이 “t 분포”의 값이 아니라 일반적인 “테스트 통계”라고 가정 합니다. “t-value”라는 용어는 “(필연적으로) 널리 사용되지 않으며 혼란 스러울 수 있습니다.

“t-value “라고 부르는 것은 아마도 제가 말하는 것입니다. “테스트 통계”. p- 값을 계산하려면 (단지 확률이라는 것을 기억하십시오) 분포와 확률을 반환 할 분포에 연결할 값이 필요합니다. 그렇게하면 반환 확률이 p- 값입니다. 동일한 분포에서 서로 다른 검정 통계량이 서로 다른 p- 값을 반환하기 때문에 서로 관련되어 있음을 알 수 있습니다. 더 극단적 인 검정 통계량은 더 낮은 p- 값을 반환하여 귀무 가설이 거짓이라는 더 큰 표시를 제공합니다.

여기서는 단측 및 양면 p- 값 문제를 무시했습니다.

답변

900 개의 검은 색 구슬과 100 개의 흰색이 들어있는 가방이 있다고 가정 해 봅시다. 즉, 구슬의 10 %가 흰색입니다. 이제 구슬 1 개를 꺼내보고 색상을 기록하고 다른 구슬을 꺼내고 색상 등을 기록한다고 상상해보세요. 이 과정이 끝날 때 이상적으로는 10, 즉 100의 10 %가 될 것으로 예상되는 흰색 구슬에 대한 숫자가 표시되지만 실제로는 8 또는 13 등이 될 수 있습니다. 이 100 개의 구슬 철수 실험을 여러 번 반복 한 다음 실험 당 그려진 흰색 구슬의 수에 대한 히스토그램을 플로팅하면 약 10 개의 중앙에 종 곡선이 있다는 것을 알 수 있습니다.

이것은 10 % 가설을 나타냅니다. 1000 개의 구슬이 들어있는 가방 중 10 %는 흰색입니다. 무작위로 100 개의 구슬을 꺼내면 선택 항목에서 흰색 구슬 10 개를 찾을 수 있습니다. 4 개 정도를 주거나 가져 가십시오. p- 값은 이것에 관한 모든 것입니다. 앞서 만든 종 곡선을 참조하여 5 % 미만의 시간 동안 5 개 이하의 흰색 구슬과 다른 < 시간의 5 %를 얻을 수 있다고 가정 해 보겠습니다. 15 개 이상의 흰색 구슬을 차지합니다. 즉, 100 개의 구슬이 6 개에서 14 개 사이의 흰색 구슬을 포함하는 시간의 90 % 이상을 차지합니다.

이제 누군가가 알 수없는 개수의 구슬 1000 개가 담긴 가방을 아래로 찔러 넣었다고 가정합니다. 흰색 구슬,이 질문에 답할 수있는 도구가 있습니다

i) 흰색 구슬이 100 개 미만입니까?

ii) 흰색 구슬이 100 개 이상 있습니까?

iii) 백에 흰색 구슬 100 개가 들어 있습니까?

백에서 구슬 100 개를 꺼내서이 샘플 중 흰색이 몇 개인 지 세어보세요.

a)있는 경우 샘플에 6 ~ 14 개의 흰색이있는 경우 백에 100 개의 흰색 구슬이 있고 6 ~ 14에 해당하는 p- 값이> 0.05가된다는 가설을 거부 할 수 없습니다.

b) 5 개가있는 경우 당신이 reje 할 수있는 견본에있는 또는 더 적은 백색 백에 100 개의 흰색 구슬이 있고 5 개 이하에 해당하는 p- 값이 < 0.05라는 가설을 세웁니다. 가방에 < 10 % 흰색 구슬이 포함되어있을 것으로 예상 할 수 있습니다.

c) 샘플에 15 개 이상의 흰색 구슬이 있으면 여기에있는 가설을 거부 할 수 있습니다. 백에 100 개의 흰색 구슬이 있고 15 개 이상의 해당 p- 값은 < 0.05가됩니다. 가방에 흰색 구슬이 10 % 이상 포함될 것으로 예상 할 수 있습니다.

Baltimark의 의견에 대한 응답

위의 예를 보면 대략 :-

4.8 % 확률로 5 개 이하의 흰색 공을 얻을 수 있음

1.85 % 확률로 4 개 이하

0.55 % 확률로 3 개 이하

0.1 % 확률로 2 개 이하

15 이상 확률 6.25 %

16 이상 확률 3.25 %

17 이상 확률 1.5 %

0.65 % 확률로 18 개 이상

0.25 % 확률로 19 개 이상

0.1 % 확률로 20 개 이상

0.05 % 확률로 21 개 이상

이 수치는 R에서 실행 된 간단한 Monte Carlo 루틴에 의해 생성 된 경험적 분포와 샘플링 분포의 결과 분위수에서 추정되었습니다.

원래 질문에 답하기 위해 5 개의 흰색 공을 뽑았다 고 가정하면 1000 개의 대리석 가방에 실제로 10 %의 흰색 공이 포함되어있는 경우 5 개만 뽑을 확률이 약 4.8 %에 불과합니다. 100의 샘플에서 흰색입니다. 이것은 p 값 < 0.05와 같습니다. 이제 다음 중 하나를 선택해야합니다.

i) 가방에 실제로 10 %의 흰색 공이 있고 저는 “불운 한”상태로 몇 개를 그리지 않았습니다

또는

ii) 흰색 공을 너무 적게 그려서 실제로 10 % 흰색 공이있을 수 없습니다 (흰색 공 10 %라는 가설을 거부)

댓글

  • 먼저, 이것은 큰 예일 뿐이며 ‘ p- 값과 검정 통계의 개념을 실제로 설명하지 않습니다. 둘째, 당신은 ‘ 단지 5 개 미만 또는 15 개 이상의 흰색 구슬을 얻으면 귀무 가설을 기각한다고 주장합니다. ‘ 당신이 ‘이 확률을 계산하고 있습니까? 표준 편차가 3 인 10을 중심으로하는 정상 거리를 기준으로 근사화 할 수 있습니다. 거부 기준이 충분히 엄격하지 않습니다.
  • 나는 이것이 단지 예일 뿐이라는 데 동의합니다. 사실입니다. a에서 5와 15를 선택했습니다. 설명 목적으로 ir. 시간이있을 때 두 번째 답변을 게시하겠습니다. 더 완전 해 지길 바랍니다.

답변

p- 값이 알려주지 않는 것은 귀무 가설이 참일 가능성이 얼마나 되는가입니다. 기존 (Fisher) 유의성 검정 프레임 워크에서 우리는 먼저 귀무 가설이 참이라고 가정하고 데이터를 관찰 할 가능성을 계산합니다. p- 값. 데이터가 귀무 가설 하에서 관찰 될 가능성이 충분히 낮 으면 귀무 가설이 아마도 거짓이라고 가정하는 것이 직관적으로 타당 해 보입니다. 이것은 전적으로 합리적입니다. 통계 학자들은 전통적으로 임계 값을 사용하고 “95에서 귀무 가설을 거부합니다. % 유의 수준 “if (1-p)> 0.95. 그러나 이것은 실제로 합리적으로 입증 된 규칙 일뿐입니다. 귀무 가설이 거짓 일 확률이 5 % 미만이라는 의미는 아닙니다 (따라서 95 대립 가설이 참일 확률 %). 우리가 이것을 말할 수없는 한 가지 이유는 우리가 아직 대립 가설을 보지 않았기 때문입니다.

대립 가설이 참일 확률에 p- 값을 매핑하는 함수 f ()를 상상합니다. 이 함수가 엄격하게 감소하고 (귀무 가설 하에서 관측 할 가능성이 높을수록 대립 가설이 참일 가능성이 적음) 0에서 1 사이의 값을 제공한다고 주장하는 것이 합리적 일 것입니다 (추정치를 제공하므로). 그러나 이것이 f ()에 대해 우리가 아는 전부입니다. 따라서 p와 대립 가설이 참일 확률 사이에는 관계가 있지만 보정되지 않습니다. 즉, p- 값을 사용하여 다음을 만들 수 없습니다. nulll 및 대체 가설의 타당성에 대한 정량적 진술.

주의자 : 가설이 사실 일 확률을 말하는 것은 “무작위 변수가 아니기 때문에”실제로 빈도 주의적 틀 안에 있지 않습니다. 그것은 사실이거나 그렇지 않습니다. 그래서 제가 가설의 진실 가능성에 대해 이야기 한 곳에서는 암묵적으로 베이지안 해석으로 이동했습니다. 베이지안과 빈도주의를 혼합하는 것은 올바르지 않지만, 우리가 진정으로 원하는 것은 가설의 상대적 타당성 / 확률의 정량적 표시이기 때문에 항상 그렇게하고 싶은 유혹이 있습니다. 그러나 이것은 p- 값이 제공하는 것이 아닙니다.

답변

통계에서는 어떤 것이 절대적으로 확실하다고 말할 수 없습니다. 통계학자는 가설이 참인지 아닌지를 측정하기 위해 다른 접근 방식을 사용합니다. 그들은 데이터가 뒷받침하지 않는 다른 모든 가설을 거부하려고합니다.

통계 테스트에는 귀무 가설과 대립 가설이 있습니다. 통계 검정에서보고 된 p- 값은 귀무 가설이 정확하다는 결과의 가능성입니다. 이것이 우리가 작은 p- 값을 원하는 이유입니다. 작은 p- 값이 작을수록 귀무 가설이 올바른 경우 결과가 발생할 가능성이 적습니다. p- 값이 충분히 작 으면 (즉, 결과가 귀무 가설이 맞으면 발생) 귀무 가설은 기각됩니다.

이러한 방식으로 귀무 가설을 공식화 한 후 거부 할 수 있습니다. 귀무 가설이 기각되면 대체 가설을 최상의 설명으로 받아들입니다. 귀무 가설이 우연히 결과를 생성 할 수 있으므로 대립 가설은 확실하지 않습니다.

댓글

  • a p -value는 실제 결과가 아니라 주어진 결과보다 ” 극단적 ” 이상의 결과 가능성입니다. p- 값은 $ Pr (T = t | H_0) $가 아니라 $ Pr (T \ geq t | H_0) $입니다 (T는 테스트 통계이고 t는 관측 값입니다).

답변

이전 주제를 되살리는 데 약간의 차이가 있지만 여기 , 그래서 나는 이것을 링크의 질문에 대한 응답으로 게시합니다.

p- 값은 구체적인 용어이므로 오해의 여지가 없어야합니다. 그러나 p- 값의 정의를 구어체로 번역하면 여러 가지 잘못된 해석이 발생한다는 것은 다소 신비 롭습니다. 문제의 근원은 “최소한 귀무 가설에 반하는 것”또는 “최소한 샘플 데이터에있는 것만 큼 극단적”이라는 문구를 사용하는 데 있다고 생각합니다.

예를 들어 Wikipedia 말한다

… p- 값은 귀무 가설이 실제로 참일 때 관찰 된 샘플 결과 (또는 더 극단적 인 결과)를 얻을 확률입니다. .

사람들이 “(또는 더 극단적 인 결과)”를 처음 발견하고 “ 생각하기 시작하면 $ p $ -value의 의미가 흐려집니다. more extreeeme ? “.

더 극단적 인 결과를 간접 연설 행위 a에 남겨 두는 것이 더 낫다고 생각합니다. >. 그래서 제 생각은

p- 값은 귀무 가설이 참인 “가상 세계”에서 볼 수있는 확률입니다.

아이디어를 구체적으로 만들기 위해 10 개의 관측치로 구성된 샘플 x가 있고 모집단이 평균은 $ \ mu_0 = 20 $입니다. 따라서 가정 된 세계에서 인구 분포는 $ N (20,1) $입니다.

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

t-stat를 $ t_0 = \ sqrt {n} \ frac {\ bar {X}-\ mu_0} {s} $로 계산합니다.

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

그래서, $ | t_0 | $를 2.97만큼 크게 관찰 할 확률은 얼마입니까 ( “more extreme”이 여기에 있습니다) 상상의 세계? 가상의 세계 $ t_0 \ sim t (9) $에서 p- 값은 $$ p-value = Pr (| t_0 | \ geq 2.97) = 0.01559054 $$

2*(1 - pt(2.974405, 9)) #[1] 0.01559054 

p- 값이 작기 때문에 x 샘플이 가정 된 세계에서 그려 질 가능성은 거의 없습니다. 따라서 우리는 가상 세계가 실제로 실제 세계 일 가능성이 매우 낮다는 결론을 내립니다.

댓글

  • +1하지만 ” 표시되는 내용을 볼 확률 ” 및 ” 더 극단적 인

    부분에서이 문장은 엄밀히 말하면 거짓이됩니다 (혼란이 적더라도 오해의 소지가 있음). 당신이 보는 것을 볼 확률이 아닙니다 (보통 0입니다). 보이는 것을 ” 또는 더 극단적 인 ” 볼 확률입니다. 이것은 많은 사람들에게 혼란 스러울 수 있지만 여전히 중요합니다 (그리고 ” 더 극단적 인 wording).

  • @amoeba 적절한 예제를 제공하면 ” 관찰 된 샘플 결과를 얻는 데 대한 프록시 역할을 할 수 있다고 생각했습니다. (또는 더 극단적 인 결과) “. 아마도 더 나은 표현이 필요할 것입니다.
  • @amoeba와 똑같은 관찰을하려고했습니다. ” 또는 더 극단적 인 ” 부분은 학생 키와 티 파티 답변에서 예제로 잘 처리되지만 저는 그렇지 않습니다 ‘이 스레드의 어떤 답변도 이에 대한 명확한 일반 설명, 특히 다른 대체 가설을 다루는 설명에 도달했다고 생각하지 않습니다. 나는 ” 또는 더 극단적 인 ” 부분이 많은 학생들에게 개념적 고착 점이라는 점을 시사하는이 답변에 동의합니다.
  • @Silverfish : 학생뿐만 아니라 이 ” 더 극단적 인 ” 비트의 주관성 / 객관성 문제를 논의하는 베이지안 대 빈도 주의자 폭언을 얼마나 많이 읽었습니까!

li>

  • @Silver 귀하의 비판에 동의하며이를 해결하기 위해 답변을 게시했습니다. ” 또는 더 극단적 인 ” 문제의 핵심입니다.
  • 답변

    또한 시뮬레이션이 교육에 유용하다는 사실을 발견했습니다.

    다음은 $ N (\ mu, 1) $에서 $ n $ 번 샘플링 한 가장 기본적인 경우에 대한 시뮬레이션입니다 (따라서 $ \ sigma ^ 2 = 1 $는 단순함으로 알려져 있습니다. ) 및 $ H_0 : \ mu = \ mu_0 $를 왼쪽 대안에 대해 테스트합니다.

    그런 다음 $ t $ -statistic $ \ text {tstat} : = \ sqrt {n} (\ bar {X}-\ mu_0) $는 $ N (0,1) $ 미만입니다. H_0 $, $ p $ -value는 단순히 $ \ Phi (\ text {tstat}) $ 또는 R에서 pnorm(tstat)입니다.

    시뮬레이션에서 , null $ N (\ mu_0,1) $ (여기서는 $ \ mu_0 = 2 $) 아래에서 생성 된 데이터가 nullMeans에 저장된 샘플 평균을 산출하는 비율입니다. 관찰 된 데이터에서 계산 된 것보다 적습니다 (즉,이 왼쪽 테스트에서“더 극단 “”).

    # p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

    답변

    다음 순서로 개념을 설명하는 순서를 따르는 것이 도움이됩니다. (1) z 점수와 z 점수 위아래의 비율 정상 곡선. (2) 표본 분포의 개념과 주어진 표본에 대한 z 점수는 모집단 표준 편차를 알고있을 때를 의미합니다 (그러므로 단일 표본 z 검정). (3) 단일 표본 t- 검정 및 a의 가능성 표본은 모집단 표준 편차를 알 수없는 경우를 의미합니다 (특정 산업 통계학 자의 비밀 정체성과 기네스가 통계에 좋은 이유에 대한 이야기로 가득 차 있음). (4) 2- 표본 t- 검정과 평균 차이의 표본 분포. 입문 학생들이 t- 테스트를 쉽게 이해하는 것은이 주제를 준비하기 위해 마련한 기초 작업과 많은 관련이 있습니다.

    / * 겁에 질린 학생 모드 끄기 * /

    답변

    검증되는 가설과 관련하여 “p- 값”은 무엇을 의미합니까?

    존재 론적 의미에서 (진실이란 무엇입니까?) 아무것도 . 모든 가설 테스트는 예상되지 않은 가정 을 기반으로합니다. 이것은 일반적으로 테스트 자체의 일부이지만 사용중인 모든 모델 (예 : 회귀 모델)의 일부이기도합니다. 우리는 단순히 이것을 가정하고 있기 때문에 p- 값이 임계 값보다 낮은 이유가 null이 거짓이기 때문인지 알 수 없습니다. 낮은 p- 값 때문에 null을 거부해야한다고 무조건 추론하는 것은 비평 등 입니다. 예를 들어, 모델의 무언가가 잘못되었을 수 있습니다.

    인식 론적 의미에서 (무엇을 배울 수 있습니까?) 무언가 를 의미합니다. 테스트되지 않은 건물이 사실이라는 것에 대한 조건부 지식을 얻습니다. (적어도 지금까지는) 현실의 모든 구성물을 증명할 수 없기 때문에 우리의 모든 지식은 필연적으로 조건부 일 것입니다. 우리는 “진실”에 도달하지 못할 것입니다.

    답변

    다음 주장을 아직 증명하지 않았으므로 오류가있을 수 있습니다. ,하지만 2 센트를 투자하고 싶습니다 (곧 엄격한 증명으로 업데이트하겠습니다). $ p $ -를 보는 또 다른 방법- 값은

    $ p $ 입니다. -value $$ \ forall과 같은 통계 $ X $ 0 \ le c \ le 1, F_ {X | H_0} (\ inf \ {x : F_ {X | H_0} (x) \ ge c \}) = c $$ 여기서 $ F_ {X | H_0} $ 에서 $ X $ 의 분포 함수입니다. $ H_0 $ .

    특히 $ X $ 에 연속 분포하고 근사치를 사용하지 않으면

    1. 모든 $ p $ -value는 $ [0, 1] $
    2. $ [0, 1] $ 에 균일하게 분포 된 모든 통계는 $ p $ -value.

    $ p $ -값에 대한 일반적인 설명이라고 생각할 수 있습니다.

    댓글

    • 이 정의는 이산 분포에만 의미가 있으며 정확하지 않습니다. ” $ P $ “는 확률 밀도가 아니라 확률 을 참조 함을 분명히합니다. 더욱이, 명시된 속성을 가진 배포판 (있는 경우)이 극히 적기 때문에 성명서에 오타가 있음을 시사합니다. 후속 주장에 관한 한, (1) 이상적으로는 사실이지만 (2) 귀무 가설이 통계에 의존하도록 허용하지 않는 한 그렇지 않습니다!
    • @whuber 입력 해 주셔서 감사합니다. 나는 정의를 편집했고 이제 더 이해가 될 것입니다!
    • 이치에 맞습니다. 감사합니다. ‘ 정확하게 읽고 있다면 $ X $의 null 분포가 $ [0에서 균일하다고 주장합니다. 1]. $ 그러나 이는 p- 값 속성의 일부만 캡처합니다. p- 값을 특성화하지 않습니다. 그리고 그 의미 나 해석 방법에 대해서는 아무 것도 말하지 않습니다. 누락 된 항목에 대한 정보를 보려면이 스레드의 다른 답변을 검토해보세요.
    • 다음은 흥미로운 예입니다. 분포 패밀리는 $ \ theta \ in \ mathbb {R}, $에 대해 Uniform $ (\ theta, \ theta + 1) $이며, 귀무 가설은 $ \ theta = 0, $이고 대안은 보완입니다. 임의의 표본 $ \ mathbf {X} = (X_1, \ ldots, X_n). $ 통계 정의 $ X (\ mathbf {X}) = X_1. $ 분명히 이것은 $ [0,1]에 균일 한 분포를가집니다. $ $ H_0 : $ 미만이지만 어떤 의미에서 p- 값입니까? 해당 가설 검정은 무엇입니까? $ n = 1 $ 크기의 샘플을 가져 와서 $ X_1 = -2 : $ 값을 관찰한다고 가정 해 보겠습니다. p- 값이 $ -2 $라고 주장합니까 ??

    답변

    나는 구슬이나 동전이나 높이 측정과 관련된 예가 수학 연습에는 좋지만 직관력을 키우는 데는 좋지 않다고 생각합니다. 대학생 사회에 의문을 제기하고 싶습니까? 정치적인 예를 사용하는 것은 어떻습니까?

    어떤 정책이 경제에 도움이 될 것이라고 약속하는 정치 후보자가 캠페인을 진행했다고 가정 해 보겠습니다. 그녀는 당선되어 정책을 제정하고 2 년 나중에 경제가 호황을 누리고 있습니다. 그녀는 재선을 앞두고 자신의 정책이 모든 사람의 번영의 이유라고 주장합니다. 그녀를 재 선출해야합니까?

    생각있는 시민은 ” 글쎄요, “경제가 잘되고 있다는 것은 사실입니다.하지만 우리가 정말로 그것을 당신의 정책에 돌릴 수 있습니까?” 이에 진정으로 대답하기 위해 우리는 “경제가 없었다면 지난 2 년 동안 경제가 잘 되었을까요?”라는 질문을 고려해야합니다. 대답이 예인 경우 (예 : 새로운 기술 개발로 인해 경제가 호황을 누리고 있음) 데이터에 대한 정치인의 설명을 거부합니다.

    즉, 하나의 가설을 검토하는 것입니다 (정책이 경제에 도움이 됨). ), 우리는 그 가설이 무효 인 세계의 모델 을 구축해야합니다 (정책이 제정 된 적이 없음). 그런 다음 해당 모델에서 예측 을합니다. 우리는 확률이라고합니다. 대체 세계에서이 데이터를 관찰하는 것은 p- 값 입니다. p- 값이 너무 높으면 우리는 가설에 확신을 갖지 못합니다. 정책은 아무런 차이가 없습니다. p- 값이 낮 으면 정책이 필수적이라는 가설을 신뢰합니다.

    댓글

    • p가 다음과 같이 정의되는 것에 동의하지 않습니다. ” 대체 세계에서이 데이터를 관찰 할 확률을 p- 값 “이라고하며 결론의 강도 ( 특히 null을 거부하지 않음).
    • @Silverfish 자세히 설명해 주시겠습니까? 아마도 p- 값을 해당 관측치를 만들 확률 또는 더 극단적 인 관측이라고 부르는 것이 더 정확할 것입니다. 하지만 더 깊은 비판이있는 것 같습니다.
    • 원래 질문은 p- 값이 무엇인지 묻는 것이기 때문에 그 정의를 명확하게 전달하는 것이 중요하다고 생각했습니다. ” 더 극단적 인 “라고 말하는 것만으로는 ‘ 무엇을 설명하지 않고는 그다지 도움이되지 않습니다. div id = “fc4eb26749”>

    더 극단적 인 “는 ‘이 스레드에서 대부분의 답변의 약점을 의미 할 수 있습니다. 생각한다. whuber ‘의 답변과 ” 차 테스트 “가 실제로 설명하는 것 같습니다.” 더 극단적 인 “도 중요합니다.

  • 또한 귀하의 결론이 너무 강하게 표현되었습니다. null을 거부하면 이에 대한 중요한 증거가 있지만 ‘ 그것이 거짓임을 ‘ 알지 못합니다. null을 거부하지 못한다고해서 확실히 ‘ null이 참임을 의미하지는 않습니다 (그럴 수도 있지만). 좀 더 일반적인 의견으로, ‘ 당신이 설명하는 테스트가 아주 추상적 인 용어로 테스트를 수행하는 방법을 배우는 학습자에게는 명확하지 않을 것 같다는 느낌을 받았습니다. . 명확하게 정의 된 테스트 통계가 없다는 것은 ‘ t -통계를 해석하는 방법을 묻는 원래 질문과 잘 어울리지 않습니다.
  • 이 답변의 특징은 p- 값이 null 모델을 사용하여 계산된다는 명확한 설명입니다. ‘ t (주관적으로) null 모델이 사실입니다. 사실 테스트 통계는 모델로 계산되는 것이 많은 학생들이 어려움을 겪는 핵심 요소라고 생각합니다.
  • 답변

    p- 값은 대부분의 분석가가 밝히는 것처럼 신비스럽지 않습니다.이는 t- 검정에 대한 신뢰 구간을 계산할 필요없이 단순히 귀무 가설을 기각 할 수있는 신뢰 수준을 결정하는 방법입니다.

    그림. 테스트를 실행합니다. p- 값은 Q- 변수의 경우 0.1866, R- 변수의 경우 0.0023이됩니다. (이는 %로 표시됩니다.)

    귀무 하이포를 거부하기 위해 95 % 신뢰 수준에서 테스트하는 경우

    Q : 100-18.66 = 81.34 %

    R : 100-0.23 = 99.77 %.

    95 % 신뢰 수준에서 Q는 기각 할 신뢰도 81.34 %를 제공합니다. 이것은 95 % 이하로 떨어지며 용납 할 수 없습니다. ACCEPT NULL.

    R은 null을 거부하는 99.77 % 신뢰도를 제공합니다. 원하는 95 % 이상입니다. 따라서 우리는 null을 거부합니다.

    저는 null hypo를 거부하는 신뢰 수준까지 측정하는 “역방향”을 통해 p- 값을 읽는 것을 설명했습니다.

    댓글

    • 사이트에 오신 것을 환영합니다. $ Q $-변수와 $ R $-변수는 무엇을 의미합니까? 명확히하십시오. 또한 ” null 허용 ” 구문을 사용하는 것은 일반적으로 매우 바람직하지 않으며 오해의 소지가있는 것으로 간주됩니다.
    • @cardinal 중요한 점을 지적합니다. ‘ null을 허용하지 않습니다.

    답변

    ****** p 값은 가설 검정의 민감도를 측정합니다. p 값이 낮을수록 민감도가 커집니다. 유의 수준이 0.05로 설정된 경우 p 값 0.0001은 테스트 결과가 정확할 확률이 높음을 나타냅니다. ******

    설명

    • -1 이것은 분명히 잘못된 것입니다. 더 높은 표를받은 답변을 먼저 읽어 보는 것이 좋습니다.

    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다