4.データに適した統計解析手法

統計解析手法は、データの種類と分類によって提示された手法に対して、データの分布を検討することで決定されます。大雑把な例えを持ち出すと、t検定では正規分布を前提としているため、同条件を満たさない場合、たとえデータが比例尺度のデータ(1種目)であってもt検定は不適切となります。そのため、比例尺度データから順序尺度データへの変換が必要なものの、分布の前提条件がないノンパラメトリック手法のウィルコクソン符号順位検定をt検定の代わりに選択することが適切となります。

なお、t検定では平均値を評価指標としているものの、ウィルコクソン符号順位検定では順位平均値を評価指標としています。レース結果の例では、平均値を指標とした場合、1位と2位の差が1秒と10秒とでは成績が異なりますが、順位平均値を指標とする場合では1位と2位の差が1秒であっても10秒であっても成績は同じです。

このように、ごくごく普通にパラメトリック手法の代わりにノンパラメトリック手法が用いられますが、手法が変わると評価指標も同時に変わるため、研究の目的と評価指標とで整合性が取れているかどうかは必ず確認しなければなりません。

上記を踏まえた上で、データの種類、分類、分布に照らし合わせた適切な統計解析手法を下図表にまとめました。図表中の「単変量解析」「多変量解析」「多重比較」については該当する手法が数多く存在するため、随時詳しい解説とともに紹介する予定です。

また、「1.データの種類」、「2.データの分類」、「3.データの分布」の概要を以下にまとめました。

 

1.データの種類

データは「測定したもの」と「数え上げたもの」に分かれ、「尺度」で分類されます。尺度には計量値(量的データ)と計数値(質的データ)があり、それぞれに計量尺度、順序尺度、順序分類尺度、名義尺度があります。さらに、計量尺度のみ比例尺度と間隔尺度に細分化されます。

2.データの分類

統計学では、母集団から取り出した標本を基に、母集団についての情報を推論します。得られたデータは種目(標本や時点や項目)の数で分類され、「1種目」「2種目」「多種目」があります。比較対象の性質による細分化では、「対応のあるデータ(同じ対象から)」と「対応のないデータ(異なる対象)」に分けられます。

3.データの分布

特定の分布に従うことを条件としている統計解析手法をパラメトリック手法といい、特定の分布に従うことを条件としない統計解析手法をノンパラメトリック手法といいます。基本的にパラメトリック手法の方がノンパラメトリック手法よりも正確な解析を行うことが可能です。また、特定の分布に従うことを条件としているパラメトリック手法ですが、厳密にはある程度の許容範囲が設けられています。

 

分類 / 種類比例尺度
または
間隔尺度
順序尺度
または
順序分類尺度
名義尺度
1種目t検定(P)ウィルコクソン符号順位検定(NP)カイ二乗検定(NP)
二項検定(P)







t検定(P)ウィルコクソン符号順位検定(NP)符号検定(NP)
マクネマー検定(NP)


ピアソンの積率相関(P)
単変量解析(P/NP)
スピアマン順位相関(NP)ファイ係数
クラメール連関係数
カッパ係数
オッズ比





t検定(P)ウィルコクソン順位和検定(NP)
マン・ホイットニーのU検定(NP)
フィッシャーの正確検定(NP)
カイ二乗検定(NP)
マンテル・ヘンツェル検定(NP)
リスク比







二元配置分散分析(P)+多重比較(P/NP)
時系列解析(P/NP)
フリードマン検定(NP)+多重比較(P/NP)
拡張マンテル検定(NP)
コクランのQ検定(NP)
マンテル・ヘンツェル検定(NP)+ブレスロー・デイ検定(NP)
生存時間解析(P/NP)


級内相関係数
多変量解析(P/NP)
ケンドール係数カッパ係数
多変量解析(P/NP)





一元配置分散分析(P)+多重比較(P/NP)クラスカル・ウォリス検定(NP)+多重比較(P/NP)クラメール連関係数
尤度比検定
多変量解析(P/NP)

(図表.データの種類・分類ごとの統計解析手法)

※ P:パラメトリック手法 / NP:ノンパラメトリック手法

© 2023 Dr.データサイエンス. All Rights Reserved.