検定とは、統計学的な基準を利用して、設定した仮説が正しいかどうかを評価する方法です。具体的には、2つの仮説を用意し、どちらか一方の仮説を採択することで問いに対する結論を導き出します。
この仮説は「帰無仮説」と「対立仮説」の2つに分かれます。少々ややこしいですが、帰無仮説は、検定したい主張が成立しないとする仮説です。一方で、対立仮説は、帰無仮説が成立しないときに成立するとする仮説です。
例えば、日本人の平均血圧が100mmHgであるかどうかを調べる研究を行うとした場合、帰無仮説と対立仮説は以下のようになります。
帰無仮説(H₀) | 日本人の平均血圧は100mmHgである。 |
対立仮説(H₁) | 日本人の平均血圧は100mmHgとは異なる。 |
しかし、医学的根拠に基づいて平均血圧が100mmHgであることと、平均血圧が95~105mmHgであることに相違が無い場合、上記仮説は医学的意義が乏しくなるため、仮説を以下のように修正することが望ましいです。
帰無仮説(H₀) | 日本人の平均血圧は100mmHgである。 |
対立仮説(H₁) | 日本人の平均血圧は95mmHgより低い、または、105mmHgより高い。 |
以上のように、仮説設定には2種類の概念が存在し、前者を有意性検定(フィッシャー考案)、後者を仮説検定(ネイマン、ピアソン考案)と呼びます。帰無仮説は断定的な仮説である一方で、対立仮説は無数の仮説の中から選択された一つの案であるため、有意性検定は対立仮説に確証を持っている場合にのみ採用し、確証が持てない場合は仮説検定を採用すべきです。
具体的には、先行研究において、日本人の平均血圧が100±0.5mmHgの範囲に収まっている結果が数多く見受けられる場合には有意性検定を採用しても良いと思われますが、同平均血圧が95±5mmHgや105±5mmHgのように異なる結果が見受けられる場合には仮説検定を採用すべきということです。
そして、前述したとおり、検定では評価の信頼度の基準を設定します。よく用いられる信頼度の基準は95%です。この場合、95%の確率で帰無仮説(または、対立仮説)が正しいという評価が可能となります。また、95%の確率が意味することは正確性であり、同様の研究を100回行った場合、95回は正確な評価が行えているということです。
加えて、標本データから正確に日本人の平均血圧の真の値を導き出すことは不可能であるため、検定では真の値が含まれているであろう範囲(信頼区間)を重視します。そして、同様の研究を100回行ったうち、95回で真の値が含まれているように設定された信頼区間を95%信頼区間と呼びます。なお、信頼度の基準と、信頼区間の確率は同じ値となります。
それでは、実際に上記の帰無仮説と対立仮説のどちらが正しいのかを評価します。標本データ、および、基準値と統計量は以下のとおりです。
被験者(N=10) | A | B | C | D | E | F | G | H | I | J |
平均血圧(mmHg) | 105 | 105 | 113 | 99 | 103 | 107 | 106 | 107 | 110 | 106 |
基準値 | 許容値 (下限) | 許容値 (上限) | 平均値 | 95%信頼区間 (下限) | 95%信頼区間 (上限) |
|
---|---|---|---|---|---|---|
平均血圧(mmHg) | 100 | 95 | 105 | 106 | 104 | 108 |
続いて、基準値を青線(許容範囲を青枠)、平均値を赤線(95%信頼区間を赤枠)で示します。
有意性検定においては、基準値が95%信頼区間の中に含まれていなければ帰無仮説が間違いのため、(95%の確率で)対立仮説が正しいと結論付けられます。
仮説検定においても基準値が95%信頼区間の中に含まれていないため、有意性検定と同様に帰無仮説が間違っていることが分かります。しかし、許容範囲と95%信頼区間に重なる箇所が存在することから、対立仮説が正しいとも言い切れません。このような場合、帰無仮説と対立仮説の両方を否定する仮説を採用することが正しく、本例においては「日本人の平均血圧は95mmHgより高く、105mmHgより低い。」が正しいと結論付けます。
文頭で記述したとおり、検定の基本は帰無仮説と対立仮説のどちらか一方の仮説を採用することで問いに対する結論を導き出します。しかし、本例のように基準値と許容値を用いる場合、第3の仮説(対立仮説の否定仮説)を採用することが往々にしてあり得ることに注意が必要です。