統計的検定におけるp値とt値の意味は何ですか?

統計コースを受講し、仲間の学生を支援しようとした後、多くのヘッドデスクバンギングを刺激する1つの主題が、統計的仮説検定の結果を解釈していることに気付きました。 。学生は与えられたテストに必要な計算を実行する方法を簡単に学ぶようですが、結果の解釈に夢中になっているようです。多くのコンピューター化されたツールは、「p値」または「t値」の観点からテスト結果を報告します。

統計の最初のコースを受講する大学生に、次の点をどのように説明しますか。

  • テストされている仮説に関連して「p値」とはどういう意味ですか?高いp値または低いp値を探す必要がある場合はありますか?

  • p値とt値の関係は何ですか?

コメント

  • これのかなりの部分は、基本的に

    p値。これは、p値を正しく定義します。 ‘が理解されれば、多くのことが明らかになります。

  • 「涙のない統計」という本を手に入れてください。それはあなたの正気を救うかもしれません!!
  • @ user48700 涙のない統計がこれをどのように説明するかを要約できますか?
  • 誰かが関連するp値のグラフを描く必要があります’季節性と、大学やコースラのデータサイエンスクラスのアカデミックカレンダーとの相関関係
  • その他の関連性の高い本に加えて、時間の経過とともに質問があります。回答とコメントの推奨事項として、適切に “とにかくp値と呼ばれる別の本を提案したいと思います。”

回答

$ p $ -value

大学の男子生徒の平均身長が $ 5 $ フィート $ 7 $ インチ。ランダムに選択された $ 100 $ の生徒の身長を収集し、サンプルの平均を計算します( $ 5 $ ft $ 9 $ インチ)。適切な数式/統計ルーチンを使用して、仮説の $ p $ 値を計算し、 $ 0.06であることが判明したと言います。 $

$ p = 0.06 $ を適切に解釈するには、いくつかの点に注意する必要があります。

  1. 古典的な仮説検定の最初のステップは、検討中の仮説が真であるという仮定です。 (このコンテキストでは、 true の平均高さは $ 5 $ ft $ 7 $ インチ。)

  2. 次の計算を行うことを想像してみてください。仮説が実際に正しいと仮定すると、 $ 5 $ ft $ 9 $ インチよりも大きくなります(ポイント1を参照)。 。

つまり、 $$ \ mathrm {P}(\ mathrm {Sample \:mean} \ ge 5 \:\ mathrm {ft} \:9 \:\ mathrm {inches} \:| \:\ mathrm {True \:value} = 5 \:\ mathrm {ft} \:7 \:\ mathrm {インチ})。$$

ステップ2の計算は、 $ p $ 値と呼ばれるものです。したがって、 $ p $ -値 $ 0.06 $ は、実験を繰り返す場合、多くのことを意味します。 、何度も( $ 100 $ の生徒をランダムに選択し、サンプルの平均を計算するたびに)、 $ 6 $ $ 100 $ のタイムアウトは、サンプルの平均が $ 5 $ ft $ 9 $ インチ。

上記の理解を前提として、仮説が正しいという仮定を維持する必要がありますか(ステップ1を参照)。 $ p = 0.06 $ は、次の2つのいずれかが発生したことを示します。

  • (A)仮説が正しく、非常にまれなイベントが発生しました(たとえば、すべての $ 100 $ の学生は学生アスリートです)

または

  • (B)私たちの仮定は正しくなく、取得したサンプルはそれほど珍しいものではありません。

(A)と(B)のどちらかを選択する従来の方法は、任意の方法を選択することです。 $ p $ のカットオフ。 $ p > 0の場合は(A)を選択します。05 $ および(B)if $ p < 0.05 $

コメント

  • 時間をかけてください! ‘ “ベストアンサー”を1週間選択することを考えていません。
  • ‘戻ってきて、答え全体を読む機会がありました。これは、生徒の身長の例では大きな+1です。非常に明確でよくレイアウトされています。
  • うまくいきました…しかし、(C)モデル(式/統計ルーチンに組み込まれている)が間違っていることを追加する必要があります。
  • A t -値(またはその他の検定統計量)は、ほとんどが中間ステップです。 ‘は基本的にいくつかの統計であり、いくつかの仮定の下で、よく知られている分布を持っていることが証明されています。 nullでの検定統計量の分布がわかっているので、標準テーブル(現在は主にソフトウェア)を使用してp値を導出できます。
  • Isn ‘ tカイ二乗検定を実行した結果、次にカイ二乗表から導出されたp値?上で計算された確率がなぜp値自体を示しているのか疑問に思っていますか?!

回答

間のダイアログ教師と思いやりのある学生

このスレッドでは、これまで十分なクレヨンが使用されていないと信じて謙虚に提出しました。簡単な図解の概要が最後に表示されます。


学生:p値とはどういう意味ですか?多くの人が同意しているようです。 “サンプルの平均が

統計または “この結果を観察する確率。 ..帰無仮説が真である場合” 、または “私のサンプルの統計は、[シミュレートされた]分布” 、さらには “帰無仮説が真であると仮定して計算されたものと少なくとも同じ大きさの検定統計量を観測する確率”

教師:正しく理解されているので、これらのステートメントはすべて、多くの状況で正しいです。

学生:それらのほとんどがどのように関連しているかわかりません。ヌル仮説 $ H_0 $ と対立仮説 $ H_A $ を述べる必要があることを教えてくれませんでしたか?スパン>?”が”または”少なくとも同じ大きさ”または非常に人気のある”より極端な”?

教師:一般的に複雑に見える可能性があるため、具体的な例を検討するのに役立ちますか?

学生 :もちろんです。ただし、可能であれば、現実的でシンプルなものにしてください。

教師:この仮説検定の理論は、歴史的に、観測誤差を分析する天文学者の必要性から始まりました。ある日、科学者が装置の測定誤差を減らすための努力について説明した古い文書をいくつか調べていました。彼は多くの測定を行っていました。既知の位置にある星のリメントと、その位置の前後の変位を記録しました。これらの変位を視覚化するために、彼は、少し平滑化すると次のようなヒストグラムを作成しました。

図1:変位のヒストグラム

学生:ヒストグラムがどのように機能するかを覚えています。縦軸には”密度”というラベルが付いています。測定の相対頻度は、高さではなく面積で表されていることを思い出してください。

教師:その通りです。”異常な”または”極端な”値はかなり狭いエリアの地域にあります。ここでは「クレヨン」です。面積が全体の10分の1しかない地域で色を塗ることができると思いますか?

学生:もちろんです。それは簡単です。[図の色]

図2:学生

教師:とても良いです!それは私には面積の約10%のように見えます。ただし、ヒストグラムで重要なのは垂直線の間の面積だけであることに注意してください。これらはチャンスまたはを表します。 >変位が水平軸上のこれらの線の間に配置される確率。つまり、一番下まで色を付ける必要があり、それは面積の半分を超えるでしょう。 「そうですか?

学生:ああ、なるほど。もう一度やり直します。カーブが本当に低いところに色をつけたいですよね?それは両端で最低です。1つの領域だけに色を付ける必要がありますか、それとも複数の部分に分割しても大丈夫ですか?

教師:複数の部分を使用することは賢明なアイデアです。彼らはどこにいますか?

学生(指さし):こことここ。このクレヨンはあまり鋭くないので、ペンを使って使用している線を表示しました。

図3:生徒

先生:とてもいいです!残りの話をしましょう。科学者は自分のデバイスにいくつかの改良を加えた後、追加の測定を行いました。彼は、最初のものの変位は $ 0.1 $ だけであり、これは良い兆候だと考えたと書いていますが、注意深い科学者であるため、チェックとしてさらに測定を続けました。 。残念ながら、これらの他の測定値は失われ、原稿はこの時点で途切れます。私たちが持っているのは、 $ 0.1 $ という単一の数値だけです。

学生:それは残念です。しかし、あなたの姿の変位の広がりよりもはるかに優れているのではありませんか?

教師:それ「私があなたに答えてほしい質問です。まず、 $ H_0 $ として何を仮定する必要がありますか?

学生:ええと、懐疑論者は、デバイスに加えられた改善がまったく効果があったかどうか疑問に思うでしょう。証拠の負担は科学者にあります:彼は懐疑論者が間違っていることを示したいと思います。それは私にヌル仮説を思わせます科学者にとってはちょっと悪いことです。私たちが知っている $ 0.1 $ の値を含むすべての新しい測定値は、最初の説明どおりに動作するはずだと言われています。ヒストグラム。またはそれよりもさらに悪い場合:それらはさらに広がっている可能性があります。

教師:G oオン、あなたは「順調です。

学生:それで、別の方法は、新しい測定値が少なく広がるということですよね?

先生:とても良いです!広がりの少ないヒストグラムがどのように見えるかを描いていただけませんか。これが最初のヒストグラムの別のコピーです。参照としてその上に描画できます。

学生(描画):ペンを使用して新しいヒストグラムの輪郭を描きますヒストグラムとその下の領域に色を付けています。曲線の大部分が水平軸でゼロに近く、その領域の大部分が(水平)値のゼロに近くなるように作成しました。それがそれです。広がりを少なくする、またはより正確にすることを意味します。

図4:生徒

教師:これは「良いスタートです。ただし、チャンスを示すヒストグラムの総面積は $ 1 $ である必要があります。最初のヒストグラムの総面積はしたがって、 $ 1 $ になります。新しいヒストグラムの内側の面積はどれくらいですか?

学生:半分未満だと思います。「問題がありますが、修正方法がわかりません。どうすればよいですか?

教師:新しいヒストグラムを作成するのがコツです古いものよりも高いので、その合計l領域は $ 1 $ です。ここでは、説明のためにコンピュータで生成されたバージョンを紹介します。

図5:教師

学生:なるほど:垂直に伸ばしたので形はあまり変わりませんでしたが、今では赤い領域と灰色の領域(赤の下の部分を含む)は同じ量になっています。

先生:そうです。ヌル仮説(青、広がり)と対立仮説の一部(赤、広がりが少ない)の写真を見ています。

学生:代替案の” part “とはどういう意味ですか? 「 対立仮説だけではありませんか?

教師:統計学者と文法は混ざっていないようです。 :-)真剣に、”仮説”が意味することは、通常、非常に大きな可能性のセットです。ここで、(前によく述べたように)別の方法は、測定値が以前よりも”広がりが少ない”ことです。しかし、どれだけ少ない?多くの可能性があります。ここで、もう1つお見せしましょう。黄色いダッシュで描いた。前の2つの間にあります。

図6:代替の2つの要素を含むnull

学生:なるほど:スプレッドの量はさまざまですが、実際のスプレッドの量は事前にわかりません。しかし、なぜこの写真で面白い陰影を付けたのですか?

先生:ヒストグラムがどこでどのように異なるかを強調したいと思いました。代替ヒストグラムがnullよりも低い場合は灰色で、代替ヒストグラムが高い場合は赤でシェーディングしました。

学生:なぜそれが重要なのですか?

教師:両方の尾の最初のヒストグラムにどのように色を付けたか覚えていますか? [書類を見てください。]ああ、ここにあります。同じ方法でこの画像に色を付けましょう。

図7:nullと代替の色付き。

学生:覚えています:これらは極端な値です。ヌル密度が可能な限り小さく、その領域の10%で色が付いている場所を見つけました。

教師:これらの極端な領域の代替案について教えてください。

学生:「クレヨンが覆っていたので見づらいですが、そこにあるように見えます」 s私が色付けした領域に代替案が存在する可能性はほとんどありません。それらのヒストグラムは値軸の真下にあり、その下に領域を配置する余地はありません。

教師 :その考えを続けましょう。仮に、測定値の変位が $ -2 $ であると言って、これら3つのうちどれを選択するかを尋ねた場合ヒストグラムは、それが由来する可能性が最も高いものでしたか?

学生:最初のヒストグラム-青いもの。最も広がっているのは $ -2 $ が発生する可能性があると思われるのはこれだけです。

教師:そして、原稿の $ 0.1 $ の値はどうですか?

学生:うーん…それは違います物語。 3つのヒストグラムはすべて、 $ 0.1 $ で地上からかなり高くなっています。

教師:わかりました。十分に公平です。しかし、値が $ 0.1 $ の近く、たとえば $ 0 $ $ 0.2 $ 。これらのグラフからいくつかの確率を読み取るのに役立ちますか?

学生:もちろん、領域を使用できるからです。 $ 0 $ $ 0.2 $ の間の各曲線の下の面積を見積もる必要があります。しかし、それはかなり難しいように見えます。

先生:それほど遠くまで行く必要はありません。どの領域が最大かわかりますか?

Student :もちろん、最も高い曲線の下にあるものです。3つの領域はすべて同じ底辺を持っているため、曲線が高いほど、その下と底辺にある領域が多くなります。つまり、最も高いヒストグラムを意味します。赤いダッシュで描いたものは、 $ 0.1 $ の変位の可能性が最も高いものです。これでどこに行くのかわかりますが、私は「少し心配です。」ここに示されている1つまたは2つだけでなく、すべての選択肢のヒストグラムをすべて見る必要はありませんか?どうすればそれができるでしょうか?

先生:あなたはパターンを拾うのが得意なので、教えてください。測定装置がますます正確になると、どうなりますか?そのヒストグラム?

学生:狭くなります-ああ、また高くする必要があるので、全体の面積は同じままです。それは比較するのがかなり難しいですヒストグラム。代替のものは、 $ 0 $ のnullの権利よりもすべて高いことは明らかです。しかし、他の値では、選択肢が高くなることもあれば、低くなることもあります。たとえば、[ $ 3/4 $ の近くの値を指す]、ここでは my の赤いヒストグラムが最も低く、黄色のヒストグラムは最高であり、元のnullヒストグラムはそれらの間にあります。しかし、右側ではヌルが最も高くなっています。

教師:一般に、ヒストグラムの比較は複雑な作業です。それを支援するために、私はコンピューターに別のプロットを作成するように依頼しました。それは、代替ヒストグラムの高さ(または”密度ividのそれぞれを分割しています。 = “fc4eb26749”> )nullヒストグラムの高さで、”尤度比として知られる値を作成します。”結果として、 $ 1 $ より大きい値は代替の可能性が高いことを意味し、 $ 1 $ より小さい値は代替案はほとんどありません。それはさらにもう1つの選択肢を引き出しました。それは、他の2つよりも広がっていますが、元の装置よりも広がっていません。

図8:尤度比

教師(続き):代替案がヌルよりも可能性が高い場所を教えていただけますか?

学生(色付け):ここは明らかに真ん中です。これらはヒストグラムではなくなったので、面積ではなく高さを確認する必要があると思います。横軸に値の範囲をマークしているだけです。しかし、どのくらいの中間を着色するかをどうやって知ることができますか?着色をやめる場所はどこですか?

図9:マークアップされた尤度比プロット

教師:確固たるルールはありません。それはすべて、結論をどのように使用するか、そして懐疑論者がどれほど激しいかによって異なります。しかし、座って、自分が達成したことについて考えてみてください。尤度比が大きい結果は代替案の証拠であり、尤度比が小さい結果は代替案に対する証拠であることがわかります。 。私があなたにお願いするのは、可能な限り、帰無仮説の下で発生する可能性が低く、代替案の下で発生する可能性が比較的高い領域に色を付けることです。会話の最初に色を付けた最初の図に戻ると、”極端だったのでnullの2つのテールに色を付けました。”彼らはまだ良い仕事をしますか?

学生:私はそうは思いません。彼らはかなり極端で、ヌル仮説の下ではまれですが、私の新しい測定値が、たとえば $ 3.0 $ だった場合、私は懐疑論者の側に立ち、改善があったことを否定すると思います。 $ 3.0 $ はいずれにしても異常な結果でしたが、その色を変更したいと思います。ここで、別のクレヨンを用意します。

図10:改善されたマークアップ

教師:それは何を表していますか?

学生:最初に、元のヒストグラムの下の領域の10%だけを描画するように依頼しました。これは、nullを表すものです。代替案が発生する可能性が高いと思われる領域の10%を描画しました。新しい測定値がその領域にあるとき、それは私たちが代替案を信じるべきだと私たちに告げていると思います。

教師:そして懐疑論者はそれにどのように反応すべきですか?

学生:懐疑論者は自分が間違っていることを認める必要はありませんね。しかし、彼の信仰は少し揺らいでいるはずだと思います。結局のところ、測定値が今描いた領域内にある可能性があるものの、nullが真の場合にそこに存在する可能性は10%になるように配置しました。そして、代替案が真である場合、そこにいる可能性が高くなります。科学者が装置をどれだけ改善したかに依存するので、そのチャンスがどれほど大きいかはわかりません。 それが大きいことはわかっています。したがって、証拠は懐疑論者に反することになります。

教師:大丈夫です。 「あなたが学んだことを完全に明確にするために、あなたの理解を要約していただけませんか?

学生:対立仮説をヌル仮説と比較するには、それらを比較する必要があることを学びましたヒストグラム。対立仮説の密度をヌルの密度で除算します。これは、”尤度比と呼ばれるものです。”良いテストをするために、私は10%のような小さな数、または懐疑論者を揺るがすのに十分かもしれないものを選ぶべきです。次に、尤度比が可能な限り高い値を見つけて、10%(または何でも)が着色されるまでそれらを着色する必要があります。

教師:そしてどのように使用しますかその色は?

学生:先ほど思い出したように、色は縦線の間にある必要があります。色の下にある値(横軸)は、帰無仮説に対する証拠です。その他の値-まあ、関係するすべてのヒストグラムを詳しく調べずに、それらが何を意味するのかを言うのは難しいです。

教師:の値に戻ります。原稿の $ 0.1 $ 、あなたは何を結論付けますか?

学生:それは私が最後に着色した領域内です、それで、科学者はおそらく正しかったと思います、そして、装置は本当に改善されました。

先生:最後にもう1つ。あなたの結論は、基準として10%、またはテストの”サイズ”を選択することに基づいていました。多くの人は代わりに5%を使うのが好きです。 1%を好む人もいます。

学生:一度にすべてのテストを行うことはできませんでした。まあ、ある意味ではできたかもしれません。サイズに関係なく、それを確認できます。テストは、 $ 0 $ から色付けを開始する必要があります。これは、この意味で”最も極端な

の値で、そこから両方向に外側に向かって作業します。 $ 0.1 $ で停止した場合-実際に観測された値- $ 0.05 $ $ 0.1 $ の間のどこか、たとえば $ 0.08 $ 。5%と1%の人は、私が色を付けすぎていることをすぐに知ることができました。5%または1%だけを色付けしたい場合は、できますが、しません「 $ 0.1 $ までは出ないでください。彼らは私がしたのと同じ結論に達することはありませんでした。彼らは、変化が実際に起こったという十分な証拠がないと言うでしょう。

教師:あなたはちょうど私にすべてを話しました冒頭の引用は本当に意味します。この例から、”より極端な”または”以上”または”少なくとも同じ大きさ” が大きいか、ヌル密度が小さい値でさえあります。これらは、あなたが説明した大きな尤度比という意味でこれらのことを実際に意味します。ちなみに、計算した $ 0.08 $ の周りの数値は、” p値と呼ばれます。”これは、あなたが説明した方法でのみ適切に理解できます。相対的なヒストグラムの高さの分析、つまり可能性の比率に関してです。

学生 : ありがとうございました。私はまだこれらすべてを完全に理解しているとは確信していませんが、あなたは私に多くのことを考えさせてくれました。

先生:さらに進みたい場合は、 ネイマン-ピアソン補題をご覧ください。おそらく今すぐ理解する準備ができています。


概要

ダイアログにあるような単一の統計に基づく多くのテストでは、それを” $ z $ “または” $ t $ “。これらは、nullヒストグラムがどのように見えるかを示唆する方法ですが、単なるヒントです。この番号の名前は実際には重要ではありません。ここに示されているように、学生によって要約された構成は、それがp値とどのように関連しているかを示しています。 p値は、 $ t = 0.1 $ の観測値が帰無仮説の棄却につながる最小のテストサイズです。

図11:面積としてのp値。

詳細を表示するためにズームされたこの図では、帰無仮説がプロットされています。青の実線と2つの典型的な選択肢が破線でプロットされています。これらの選択肢がnullよりもはるかに大きくなる傾向がある領域は、陰影が付けられています。陰影は、選択肢の相対的な可能性が最大になるところから始まります( $ 0 $ )。観測値 $ t = 0.1 $ に達すると、シェーディングは停止します。 p値は、ヌルヒストグラムの下の影付き領域の面積です。ヌルが真であると仮定すると、どちらの選択肢が真であるかに関係なく、尤度比が大きくなる傾向がある結果を観測する可能性があります。特に、この構成は対立仮説に密接に依存しています。可能な代替案を指定せずに実行することはできません。


ここで説明するテストの2つの実用的な例(1つは公開済み、もう1つは仮想)については、 https://stats.stackexchange.com/a/5408/919

コメント

  • これには別の回答に対する私のコメントをうまく処理しました。この質問に対する以前の回答は、一般的に、一般的に聞かれる”またはより極端な p 値の側面。 ( “お茶のテスト”の回答には良いものが含まれていました具体的な例です。)”より極端な”は、まったく逆のことを意味する可能性があることを強調するために、この例が意図的に作成された方法に特に感心します。 “大きい”または”ゼロから遠い”。
  • 教師や教科書が’というフレーズを”以上極端に使用しないようにしたいと思います”、本当に。私が聞いた2つのバリエーションは、” $ H_1 $ “または” $ H_1 $ “をより説得力があります。この場合、ゼロに近い値は、望遠鏡の信頼性が向上したことを確かに説得力がありますが、”として説明するには、いくつかの言語アクロバット(おそらく議論されていますが、混乱を招く可能性があります)が必要です。より極端な”。
  • いつものように非常に洞察に満ちています。時間を割いて、これらの非常に役立つ回答を書いていただきありがとうございます。なぜ教科書がこれらのレベルの明快さと直感に近い方法で書かれることがないのか、本当に不思議に思っています。
  • ‘コメントで皮肉を使うのは危険です、@ baxx、’十分なスペースがないため、丁寧かつエレガントに行うことができませんでした。したがって、’は、明示的に指示されていない限り、コメントが皮肉であると想定することは通常はお勧めできません。コメントがあなたを助けることを意図していると仮定してください。私が提供した検索の最初のヒットを単純にたどると、あなたの質問に答えられると思います。
  • 単純に素晴らしいです!ありがとう@whuber!

回答

このトピックに触れる前に、生徒が必ずパーセンテージ、小数、オッズ、分数の間を移動して満足しています。これに完全に満足していないと、すぐに混乱する可能性があります。

フィッシャーを通じて初めて仮説検定(したがって、p値と検定統計量)を説明したいと思います。」 s古典的なお茶の実験。これにはいくつかの理由があります。

(i)実験を進めながら用語を定義する方が、最初にこれらの用語をすべて定義するよりも理にかなっていると思います。 (ii)仮説検定の要点を乗り越えるために、確率分布、曲線の下の領域などに明示的に依存する必要はありません。 (iii)「観察されたものと同じかそれよりも極端である」というこのばかげた概念をかなり賢明な方法で説明します(iv)学生は、それがより現実的になるにつれて、彼らが勉強しているものの歴史、起源、および裏話を理解するのが好きだと思いますいくつかの抽象的な理論よりも。 (v)学生がどの分野や主題から来ているかは関係ありません。彼らはお茶の例に関係することができます(注:一部の留学生は、この独特な英国のミルクティーの制度に苦労しています。)

[注:このアイデアは、デニス・リンドリーのすばらしい記事「実験データの分析:お茶の鑑賞&ワイン」から最初に得たもので、ベイジアンの方法が優れている理由を示しています。古典的な方法。]

裏話は、ミューリエルブリストルが、1920年代のある午後、ロサムステッド実験ステーションでお茶を飲みにフィッシャーを訪れたというものです。フィッシャーが最後にミルクを入れたとき、彼女はできると不平を言いました。また、ミルクが最初に注がれたのか最後に注がれたのか、そして彼女が前者を好んだのかを教えてください。これをテストするために、彼はムリエルにティーカップのペアを提示し、どちらがミルクを持っているかを特定する必要がある彼の古典的なお茶の実験を設計しました最初に追加しました。これを6組のティーカップで繰り返します。彼女のチョー氷は正しい(R)または間違っている(W)のいずれかであり、彼女の結果は次のとおりです。RRRRRW。

Murielが実際には推測しているだけで、何も区別する能力がないとします。これは、帰無仮説と呼ばれます。フィッシャーによれば、実験の目的は、この帰無仮説の信用を傷つけることです。ムリエルが推測している場合、彼女は各ターンで確率0.5でティーカップを正しく識別し、それらは独立しているため、観測された結果は0.5 $ ^ 6 $ = 0.016(または1/64)になります。次に、フィッシャーは次のいずれかを主張します。

(a)帰無仮説(Murielが推測)は正しい確率の低いイベントが発生したか、

(b)帰無仮説が誤りであり、ムリエルには識別力があります。

p値(または確率値)は、帰無仮説が真である場合にこの結果(RRRRRW)を観測する確率です。これは(a)で言及されている小さな確率です。 、上記。この場合は0.016です。確率が小さいイベントは(定義上)めったに発生しないため、状況(b)は状況(a)よりも発生したことのより好ましい説明である可能性があります。ヌル仮説を棄却するとき、私たちは実際に対立仮説を受け入れています。これは対立仮説と呼ばれます。この例では、ムリエルは対立仮説である識別力を持っています。

重要な考慮事項は何をするかです。 「小さな」確率としてのクラス?イベントが発生する可能性が低いと私たちが喜んで言うカットオフポイントは何ですか?標準ベンチマークは5%(0.05)であり、これは有意水準と呼ばれます。p値の場合が有意水準よりも小さい場合、帰無仮説を偽として棄却し、対立仮説を受け入れます。p値が有意水準よりも小さい場合、つまり、私たちの確率がヌル仮説が真である場合に観察される発生は、カットオフポイントよりも小さいです。5%を使用することは完全に主観的であることを明確にすることが重要です(1%および10%の他の一般的な有意水準を使用する場合と同様)。

フィッシャーはこれが「仕事; 1つの間違ったペアで起こりうるすべての結果は、差別的な力を等しく示唆していました。したがって、上記の状況(a)に関連する確率は、6(0.5)^ 6 = 0.094(または6/64)であり、現在は有意ではありません 5%の有意水準。これを克服するために、フィッシャーは、6分の1のエラーが差別的な力の証拠と見なされる場合、エラーはないと主張しました。p値を計算するときは、観察されたものよりも識別力を強く示す結果を含める必要があります。これにより、推論が次のように修正されました。

(a)null仮説(Murielが推測)が真であり、観察されたものよりも極端な、またはそれ以上のイベントの確率が小さい、または

(b)帰無仮説は誤りであり、ムリエルには識別力があります。

お茶の実験に戻ると、この設定でのp値は7(0.5)であることがわかります。 )^ 6 = 0.109これは、5%のしきい値ではまだ重要ではありません。

次に、コイントスなどの他の例を使って、コインが公正かどうかを生徒に調べさせます。これは、ヌル/対立仮説、p値、および有意水準の概念を掘り下げます。次に、連続変数の場合に移り、検定統計量の概念を紹介します。正規分布、標準正規分布、およびz変換の詳細についてはすでに説明したので、それは単にいくつかの概念をまとめるだけの問題です。

テスト統計、p値、および決定を下す(重要/重要ではない)私は学生に、不足している空白のゲームを埋めるために公開された論文を処理してもらいます。

コメント

  • I ‘非常に古いスレッドをいくらか復活させていることを知っていますが、ここにあります…私はあなたの答えを本当に楽しんでいましたが、その中のt値の部分が恋しいです:(与えられた例を使用してそれについて話してください?tテストの部分について誰も答えませんでした
  • @sosi It ‘おそらく、p値がはるかに多いためですt値よりも一般的です。’は、車について質問し、次にフォードフィエスタのブレーキについて質問するようなものです。
  • 答えは非常に興味深いです(+ 1)しかし、最後にいくつかのことが混乱しています。1。W $ p $ -valueが” 5%レベルで有意であるということはどういう意味ですか”? $ p $値が5%未満であるか、そうでないかのいずれかです。 ‘このようなあいまいな文を使用する意味がわからないため、”重要性”未定義。 2. “が$ p $値が重要であるかどうかを、”で決定するとはどういう意味ですか?このように決定理論を組み合わせることは正当化されていないようです(特に、フィッシャーは科学におけるネイマン・ピアソン検定フレームワークの適用に強い反対者だったため)。

回答

口頭での説明や計算は、p値が何であるかを腸レベルで理解するのに実際には役立ちませんでした。シミュレーションを含むコースを受講すると、本当に焦点が合いました。これにより、帰無仮説によって生成されたデータを実際に確認したり、平均値などをプロットしたりできるようになりました。シミュレートされたサンプルの数を調べてから、サンプルの統計がその分布のどこにあるかを確認します。

これの主な利点は、生徒が数学と検定統計量の分布を1分間忘れることができることです。手元にある概念に焦点を当てます。確かに、そのようなものをシミュレートする方法を 学ぶ必要がありました。これは、まったく異なる生徒のセットに問題を引き起こします。しかし、それは私にとってはうまくいきました。統計を他の人に説明して大成功を収めるのに役立つシミュレーションを数え切れないほど行います(たとえば、「これはデータがどのように見えるか、これはポアソン分布がオーバーレイされたように見えるかです。ポアソン回帰を実行してもよろしいですか?」)

これはあなたが提起した質問に正確に答えるわけではありませんが、少なくとも私にとっては些細なことでした。

コメント

  • これを説明するためのシミュレーションの使用について心から同意しますが、最後の例についての小さなメモ:人々(学生だけでなく)がそれを見つけていることがわかります特定の分布の仮定を区別するのは難しい。 わずかにポアソン分布することと条件付きでポアソン分布することの間のポアソン。回帰モデルでは後者のみが重要であるため、’ポアソンではない一連の従属変数値が必ずしも懸念の原因である必要はありません。
  • ‘それを知らなかったことを告白します。 ‘メンバーシップの過去数日間、このサイトに関するコメントに心から感謝しています。’よろしくお願いします。
  • @MattParkerシミュレーションを使用して理解を深めることに焦点を当てた学習リソースを知っていますか?それとも、いくつかのpython / Rスクリプトを組み合わせて、一連のテストを実行する場合ですか?
  • @baxx [DanielKuninによるSeeingTheory Webサイト](students.brown.edu/seeing-theory/ )にはこのための興味深いツールがいくつかありますが、’はまだ作成中です。それ以外の場合は、ええ、私は’シミュレーション用のR ‘の組み込みツールを大部分実験しました-それらを使用して自分自身にどのように証明するかいくつかの方法が機能するか、予測子が確率変数に置き換えられた場合にどうなるかなどを確認します。申し訳ありませんが、このためのより良いリソースを知っていればよかったです!
  • @MattParkerありがとうございます。ええ-その中に鶏が先か卵が先か、実験を構築するには、少なくともそれらを書くのに十分な量を得る必要があります。でも心配はいりません…..リンクしたサイトを確認したところ、’よろしくお願いします

回答

p値の適切な定義は、「帰無仮説が真であると仮定して計算されたものと少なくとも同じ大きさの検定統計量を観測する確率」です。

それに関する問題は、「検定統計量」と「帰無仮説」の理解が必要なことです。しかし、それは簡単に理解できます。帰無仮説が真の場合、通常は「母集団Aのパラメーターは母集団Bのパラメーターと等しい」のようになり、統計を計算してこれらのパラメーターを推定します。 「彼らは「これは違う」と言う検定統計量?

たとえば、コインが公平である場合、100回の投げのうち60個の頭が見える確率はどれくらいですか?それはヌル仮説をテストします、「コインは公平」、または「p = .5」(pは頭の確率)。

この場合の検定統計量は、頭の数になります。

さて、あなたが「t値」と呼んでいるものは、「t分布」からの値ではなく、一般的な「検定統計量」であると仮定します。同じことではなく、「t値」という用語は(必然的に)広く使用されておらず、混乱を招く可能性があります。

「t値」と呼んでいるものは、おそらく私が呼んでいるものです。 「検定統計量」。p値を計算するには(これは単なる確率であることを忘れないでください)、分布と、確率を返すその分布にプラグインする値が必要です。これを行うと、返される確率はp値です。同じ分布の下で、異なる検定統計量が異なるp値を返すため、これらが関連していることがわかります。より極端な検定統計量は、より低いp値を返し、null仮説が偽であることをより多く示します。

ここでは片側と両側のp値の問題を無視しました。

回答

900個の黒い大理石と100個の白い大理石が入ったバッグがあるとします。つまり、大理石の10%が白いです。次に、大理石を1つ取り出して、それを見て色を記録し、別の大理石を取り出して、色を記録するとします。 。そしてこれを100回実行します。このプロセスの最後に、白い大理石の数が表示されます。理想的には10、つまり100の10%と予想されますが、実際には8、13などです。単にランダム性によるものです。この100個の大理石の撤退実験を何度も繰り返してから、実験ごとに描かれた白い大理石の数のヒストグラムをプロットすると、「ベルカーブが約10を中心とすることがわかります。

これは10%の仮説を表しています。1000個の大理石が入っているバッグで10%が白い場合、ランダムに100個の大理石を取り出すと、10個の白い大理石が選択され、4個程度を与えるか取ります。 p値はすべてこの「4かそこらを与えるか取る」に関するものです。たとえば、以前に作成したベルカーブを参照すると、5%未満の時間で、5つ以下の白いビー玉が得られ、別の< 5%の時間で得られると判断できます。 15個以上の白いビー玉を占めます。つまり、90%以上の確率で、100個のビー玉に6個から14個の白いビー玉が含まれます。

ここで、誰かが1000個のビー玉の袋を数が不明な状態で押し倒したとします。白い大理石が入っているので、これらの質問に答えるツールがあります

i)白い大理石が100個未満ですか?

ii)白い大理石が100個以上ありますか?

iii)バッグには100個の白いビー玉が入っていますか?

バッグから100個のビー玉を取り出し、このサンプルの何個が白いかを数えます。

a)ある場合サンプルに6〜14個の白がある場合、バッグに100個の白いビー玉があり、6〜14個の対応するp値が> 0.05になるという仮説を否定することはできません。

b)5個ある場合サンプル中の白の数が少ない場合バッグに100個の白いビー玉があり、対応する5個以下のp値は< 0.05であるという仮説を立てます。バッグには< 10%の白いビー玉が含まれていると予想されます。

c)サンプルに15個以上の白がある場合は、そこにあるという仮説を棄却できます。バッグ内の100個の白いビー玉であり、15個以上の対応するp値は< 0.05になります。バッグには10%を超える白いビー玉が含まれていると予想されます。

Baltimarkのコメントへの回答

上記の例を考えると、およそ:-

4。8%の確率で5個以下の白いボール

1.85%の確率で4個以下

0.55%の確率で3個以下

0.1%の確率で2以下

15以上の確率で6.25%

16以上の確率で3.25%

17以上の確率で1.5%

0.65%の確率で18以上

0.25%の確率で19以上

0.1%の確率で20以上

0.05%の確率で21以上

これらの数値は、Rで実行された単純なモンテカルロルーチンによって生成された経験分布と、結果として得られたサンプリング分布の分位数から推定されました。

元の質問に答えるために、5つの白いボールを引くとすると、1000個のビー玉バッグに実際に10%の白いボールが含まれている場合、5つしか引き出せない可能性は約4.8%です。 100のサンプルの白。これはap値< 0.05に相当します。ここで、次のいずれかを選択する必要があります

i)バッグには実際に10%の白いボールが入っており、描画するのが「運が悪かった」だけです

または

ii)描画した白いボールが非常に少ないため、実際には10%の白いボールはあり得ません(10%の白いボールの仮説を拒否します)

コメント

  • まず第一に、これは単なる大きな例であり、’ p値と検定統計量の概念を実際に説明していません。次に’ 5個未満または15個を超える白いビー玉を取得した場合、帰無仮説を棄却すると主張しているだけです。’あなたの分布は何ですか’これらの確率を計算しますか?これは、10を中心とし、標準偏差が3の通常の距離で概算できます。棄却基準は十分に厳密ではありません。
  • これは単なる例であり、私はaから5と15の数字を選んだのは事実です。説明のためのir。時間があるときに、2つ目の回答を投稿します。これは、より完全になることを願っています。

回答

p値が示していないのは、帰無仮説が真である可能性がどの程度あるかです。従来の(フィッシャー)有意性検定フレームワークでは、最初に、帰無仮説が真であると仮定してデータを観測する可能性を計算します。これは、 p値。データが帰無仮説の下で観測される可能性が十分に低い場合、帰無仮説がおそらく偽であると仮定することは直感的に合理的であるように思われます。これは完全に合理的です。統計学者は伝統的にしきい値を使用し、「95で帰無仮説を棄却します。 (1-p)> 0.95の場合、%有意水準 “;ただし、これは実際に合理的であることが証明された単なる慣例です。”ヌル仮説が偽である確率が5%未満であることを意味するわけではありません(したがって、95代替仮説が真である確率%)。これが言えない理由の1つは、対立仮説をまだ検討していないことです。

対立仮説が真である確率にp値をマッピングする関数f()を想像してみてください。この関数は厳密に減少している(ヌル仮説の下での観測の可能性が高いほど、対立仮説が真である可能性が低い)こと、および0から1の間の値を与えること(推定値を与えるため)を主張することは合理的です。ただし、f()について知っているのはそれだけなので、pと対立仮説が真である確率との間には関係がありますが、それは較正されていません。つまり、p値を使用して作成することはできません。 nulll仮説と対立仮説の妥当性に関する定量的ステートメント。

警告レクター:仮説が真である確率について話すことは、ランダム変数ではないため、実際には頻繁な枠組みの範囲内ではありません。それは真実かそうでないかのどちらかです。したがって、仮説の真理の確率について話したところで、私は暗黙のうちにベイズの解釈に移りました。ベイジアンと頻度主義者を混合することは正しくありませんが、私たちが本当に望んでいるのは仮説の相対的な妥当性/確率の定量的指標であるため、そうする誘惑は常にあります。しかし、これはp値が提供するものではありません。

回答

統計では、何かが絶対的に確実であるとは決して言えません。統計学者は、別のアプローチを使用して、仮説が真であるかどうかを判断します。彼らは、データによってサポートされていない他のすべての仮説を拒否しようとします。

これを行うために、統計的検定には帰無仮説と対立仮説があります。統計的検定から報告されたp値は、帰無仮説が正しかった場合の結果の尤度です。そのため、小さいp値が必要です。小さいほど、帰無仮説が正しかった場合に結果が得られる可能性は低くなります。p値が十分に小さい場合(つまり、結果が次のようになる可能性はほとんどありません)。帰無仮説が正しかった場合に発生)、帰無仮説は棄却されます。

このようにして、帰無仮説を立て、その後棄却することができます。帰無仮説が棄却された場合は、対立仮説を最良の説明として受け入れます。対立仮説は決して確実ではないことを覚えておいてください。ヌル仮説が偶然に結果を生成する可能性があるためです。

コメント

  • a p -値は、実際の結果ではなく、指定された結果よりも”極端な”以上の結果の可能性です。 p値は$ Pr(T \ geq t | H_0)$であり、$ Pr(T = t | H_0)$ではありません(Tは検定統計量であり、tはその観測値です)。

回答

古いトピックを復活させるのは少し難しいですが、ここからジャンプしましたなので、リンクの質問への回答として投稿します。

p値は具体的な用語であり、誤解の余地はありません。しかし、p値の定義を口語的に翻訳すると、さまざまな誤解が生じるのは、どういうわけか神秘的です。問題の根本は、「少なくともnull仮説に反する」または「少なくともサンプルデータの仮説と同じくらい極端である」などのフレーズの使用にあると思います。

たとえば、Wikipedia

… p値は、帰無仮説が実際に真である場合に、観測されたサンプル結果(またはより極端な結果)を取得する確率です。 。

$ p $値の意味は、人々が最初に「(またはより極端な結果)」に出くわし、「 more extreeeme ? “。

「より極端な結果」は間接的なスピーチ行為 aのようなものに任せたほうがよいと思います。 >。したがって、私の見解は

p値は、帰無仮説が真である「架空の世界」で見られるものを見る確率です。

アイデアを具体的にするために、10個の観測値で構成されるサンプルxがあり、母集団を仮定するとします。平均は$ \ mu_0 = 20 $です。したがって、仮説の世界では、人口分布は$ N(20,1)$です。

x #[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647 #[7] 18.94962 17.99331 19.22598 18.68633 

t-statを$ t_0 = \ sqrt {n} \ frac {\ bar {X}-\ mu_0} {s} $として計算します。

sqrt(10) * (mean(x) - 20) / sd(x) #-2.974405 

では、2.97(「より極端な」がここに来る)の$ | t_0 | $を観測する確率はどれくらいですか。架空の世界?したがって、架空の世界$ t_0 \ sim t(9)$では、p値は$$ p-value = Pr(| t_0 | \ geq 2.97)= 0.01559054 $$

p値が小さいため、サンプルxが仮定された世界で描画される可能性はほとんどありません。したがって、仮定された世界が実際に実際の世界である可能性は非常に低いと結論付けます。

コメント

  • +1、ただし、 “表示されているものが表示される確率” “より極端な”の部分では、この文は厳密に言えば誤りになります(そして、おそらく混乱が少なくても、誤解を招く可能性があります)。それはあなたが見ているものを見る確率ではありません(これは通常ゼロです)。これは、”またはより極端な”が表示される確率です。これは多くの人にとって紛らわしいビットかもしれませんが、それでも重要です(そして、この”より極端なの文言)。
  • @amoeba適切な例が提供されれば、”観測されたサンプル結果を取得するためのプロキシとして機能すると思いました。 (またはより極端な結果)”。たぶん、もっと良い言葉遣いが必要です。
  • @amoebaと同じ観察をするつもりでした。 “またはより極端な”の部分は、学生の身長とお茶会の回答の例でうまく処理されますが、私は’このスレッドの回答は、明確な一般的な説明、特にさまざまな対立仮説をカバーする説明に当てはまるとは思わない。 “またはより極端な”の部分が多くの学生にとって概念的なこだわりであることを示唆するこの回答に同意します。
  • @Silverfish:そして学生だけではありません。この”より極端な”ビットの主観性/客観性の問題について説明しているベイジアン対頻度論者の暴言をいくつ読んだことがありますか?
  • @Silver私はあなたの批判に同意し、それに対処しようとする回答を投稿しました。 “またはもっと極端な”が問題の核心です。

回答

シミュレーションも教育に役立つことがわかりました。

これは、$ N(\ mu、1)$から$ n $回サンプリングする、ほぼ間違いなく最も基本的なケースのシミュレーションです(したがって、$ \ sigma ^ 2 = 1 $は簡単にするために知られています)そして、左側の代替案に対して$ H_0:\ mu = \ mu_0 $をテストします。

次に、$ t $-統計$ \ text {tstat}:= \ sqrt {n}(\ bar {X}-\ mu_0)$は$の下で$ N(0,1)$ですH_0 $、たとえば$ p $値はRでは単に$ \ Phi(\ text {tstat})$またはpnorm(tstat)です。

シミュレーションでは、null $ N(\ mu_0,1)$(ここでは$ \ mu_0 = 2 $)で生成されたデータが、nullMeansに格納されているサンプル平均を生成する回数の割合です。観測されたデータから計算されたものよりも少ない(つまり、この左側のテストでは「より極端な」)。

# p value set.seed(1) reps <- 1000 n <- 100 mu <- 1.85 # true value mu_0 <- 2 # null value xaxis <- seq(-3, 3, length = 100) X <- rnorm(n,mu) nullMeans <- counter <- rep(NA,reps) yvals <- jitter(rep(0,reps),2) for (i in 1:reps) { tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions par(mfrow=c(1,3)) plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l") points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon") X_null <- rnorm(n,mu_0) # generate data under H_0 nullMeans[i] <- mean(X_null) plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt="n",ylim=c(-1,1),xlim=c(1.5,2.5)) abline(v=mu_0,lty=2) points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon") # counts 1 if sample generated under H_0 is more extreme: counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0 barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed") if(i<10) locator(1) } mean(counter) pnorm(tstat) 

回答

次の順序で概念を説明する順序に従うと便利です。(1)zスコアとzスコアの上下の比率正規曲線。 (2)サンプリング分布の概念、および特定のサンプルのzスコアは、母集団の標準偏差がわかっている場合(および1サンプルのz検定)を意味します。(3)1サンプルのt検定とaの尤度サンプルとは、母集団の標準偏差が不明な場合を意味します(特定の産業統計学者の秘密のアイデンティティと、ギネスが統計に適している理由についての話でいっぱいです)。 (4)2標本t検定と平均差の標本分布。入門学生がt検定を簡単に把握できるかどうかは、このトピックの準備のために用意された基礎と大きく関係しています。

/ *恐怖の学生のインストラクターはモードをオフにします* /

回答

テスト対象の仮説に関連して「p値」とはどういう意味ですか?

存在論的な意味(真実とは何ですか?)では、何もないことを意味します。仮説検定は、未検証の仮定に基づいています。これは通常、テスト自体の一部ですが、使用しているモデルの一部でもあります(回帰モデルなど)。これらを想定しているだけなので、p値がしきい値を下回っている理由がnullが偽であるためかどうかはわかりません。 p値が低いためにnullを棄却しなければならないことを無条件に推論することは、非sequitur です。たとえば、モデル内の何かが間違っている可能性があります。

認識論的な意味で(私たちは何を学ぶことができますか?)、それは何かを意味します。テストされていない前提条件が真であるという知識条件付きを取得します。 (少なくとも今まで)私たちは現実のすべての建物を証明することはできないので、私たちのすべての知識は必然的に条件付きになります。 「真実」にたどり着くことは決してありません。

回答

次の議論はまだ証明されていないため、エラーが含まれている可能性があります、しかし私は本当に2セントを投入したいと思っています(うまくいけば、すぐに厳密な証明で更新します)。 $ p $ の別の見方-値は

$ p $ -value $$ \ forallのような統計 $ X $ 0 \ le c \ le 1、F_ {X | H_0}(\ inf \ {x:F_ {X | H_0}(x)\ ge c \})= c $$ ここで、 $ F_ {X | H_0} $ は、の下の $ X $ の分散関数です。 $ H_0 $ 。

具体的には、 $ X $ に連続がある場合分布とあなたは “近似を使用していない場合

  1. すべての $ p $ -値は、 $ [0、1] $ 、およびに一様分布する統計です。 / li>
  2. $ [0、1] $ に一様分布するすべての統計は、 $ p $ -値。

これは $ p $ -値の一般的な説明と見なすことができます。

コメント

  • ” $ P $ “は、確率密度ではなく、確率を参照していることを明確にしています。さらに、記載された特性を持つ分布は非常に少なく(存在する場合)、ステートメントに誤植があるはずであることを示唆しています。後続の主張に関する限り、(1)は理想的には真ですが、(2)はそうではありません。ただし、帰無仮説が統計に依存することを許可しない限りです!
  • @whuber入力していただきありがとうございます。私は定義を編集しました、そしてそれは今より理にかなっているはずです!
  • それは理にかなっています、ありがとう:私が’正しく読んでいる場合、$ X $のnull分布は$ [0、 1]。$ただし、これはp値のプロパティの一部のみをキャプチャします。 p値を特徴づけるものではありません。そしてそれはそれらが何を意味するのか、あるいはそれらをどのように解釈するのかについては何も述べていません。不足しているものについては、このスレッドの他の回答のいくつかを検討することを検討してください。
  • これは、興味深いと思われる例です。分布族は$ \ theta \ in \ mathbb {R}、$に対してUniform $(\ theta、\ theta + 1)$であり、ヌル仮説は$ \ theta = 0、$であり、代替案はその補集合です。ランダムサンプル$ \ mathbf {X} =(X_1、\ ldots、X_n)。$を考えます。統計量$ X(\ mathbf {X})= X_1を定義します。$明らかに、これは$ [0,1]に一様分布しています。 $ H_0:$の下の$ですが、それはどのような意味でp値ですか?対応する仮説検定は何ですか?サイズ$ n = 1 $のサンプルを取り、値$ X_1 = -2:$を観察するとします。あなたは、p値が$ -2 $であると主張していますか??

回答

ビー玉や硬貨、高さ測定などの例は、数学の練習には問題ないと思いますが、直感を構築するには適していません。大学生社会に質問したいですよね?政治的な例を使ってみませんか?

ある政策が経済に役立つことを約束するキャンペーンを政治候補が実行したとしましょう。彼女は選出され、政策が制定され、2年間その後、経済は活況を呈している。彼女は再選を目指しており、彼女の政策がすべての人の繁栄の理由であると主張している。彼女を再選すべきか?

思いやりのある市民は「ええと、「経済が順調に進んでいるのは事実ですが、それをあなたの政策に本当に帰することができるでしょうか?」これに真に答えるには、「過去2年間、経済はそれなしでうまくいっただろうか」という質問を検討する必要があります。答えが「はい」の場合(たとえば、関連のない新しい技術開発のために経済が活況を呈している場合)、政治家によるデータの説明を拒否します。

つまり、1つの仮説を検証します(政策は経済を助けました) )、その仮説がヌルである(ポリシーが制定されなかった)世界のモデルを構築する必要があります。次に、そのモデルの下で予測を作成します。確率と呼びます。その代替世界でこのデータを観察することの p値。p値が高すぎる場合、私たちは仮説に納得していません。ポリシーは何の違いもありませんでした。 p値が低い場合は、仮説を信頼します。ポリシーは不可欠でした。

コメント

  • pが次のように定義されていることに同意しません。 “その代替世界でこのデータを観測する確率をp値”と呼び、結論の強さも導き出されます(特にnullを拒否できませんでした。
  • @Silverfish詳しく教えていただけますか?おそらく、p値をその観測を行う確率またはより極端な観測と呼ぶ方が正しいでしょう。しかし、あなたにはもっと深い批判があるようです。
  • 元の質問はp値とは何かを尋ねているので、その定義を明確に伝えることが重要だと思いました。 “もっと極端な”と言うだけでは、’それ自体は何を説明せずに非常に役立ちます”より極端な”は、’このスレッドのほとんどの回答の弱点を意味する場合がありますI思う。 whuber ‘の答えと”お茶のテスト”だけが本当に説明しているようですなぜ “より極端な”も重要です。
  • あなたの結論も言い回しが強すぎる。 nullを拒否した場合、それに対する重要な証拠がありますが、’それがfalseであることを’知りません。 nullの棄却に失敗した場合、それは確かに’ nullが真であることを意味しません(おそらくそうかもしれませんが)。より一般的なコメントとして、あなたが’説明しているテストは、非常に抽象的な言葉で、テストの実行方法を学んでいるだけの学習者にはわかりにくいと感じています。 。明確に定義された検定統計量の欠如は、 t 統計量の解釈方法を尋ねる元の質問とうまく一致しません。
  • 私がとても気に入っているこの回答の特徴は、ヌルモデルが(主観的に)信じられない場合でも、p値がヌルモデルを使用して計算されるという明確な説明です。’実際に本当です。事実検定統計量がモデルの下で計算されることは、多くの学生が苦労している重要なポイントだと思います。

回答

p値は、ほとんどのアナリストが考えているほど神秘的ではありません。これは、t検定の信頼区間を計算する必要がなく、ヌル仮説を棄却できる信頼水準を決定する方法です。

図。テストを実行します。 p値は、Q変数の場合は0.1866、R変数の場合は0.0023になります。 (これらは%で表されます。)

95%の信頼水準でテストしてヌルハイポを棄却する場合;

Qの場合:100-18.66 = 81.34%

Rの場合:100-0.23 = 99.77%。

95%の信頼水準では、Qは81.34%の信頼度で棄却します。これは95%を下回り、許容できません。帰無仮説。

Rは、帰無仮説を99.77%の信頼度で棄却します。明らかに望ましい95%を上回っています。したがって、帰無仮説を棄却します。

帰無仮説を棄却する信頼水準まで測定する「逆の方法」でp値の読み取りを説明しました。

コメント

  • サイトへようこそ。 $ Q $変数と$ R $変数とはどういう意味ですか?どうか明らかにしてください。また、” accept null “というフレーズの使用は、通常、誤解を招く可能性があるとしても、非常に望ましくないと見なされます。
  • @cardinal重要なポイントを指摘します。 ‘ヌルを受け入れるつもりはありません。

回答

****** p値は、検定の感度を測定します。p値が低いほど、感度は高くなります。有意水準が0.05に設定されている場合、0.0001のp値は、テスト結果が正しい可能性が高いことを示します******

コメント

  • -1これは明らかに間違っています。投票数の多い回答を最初に読むことをお勧めします。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です