※本記事は、実際の解析実績を基に作成しておりますが、お客様との秘密保持契約(NDA)の観点により、医学・医療分野という枠組みは維持しつつ、疾患名や変数などの具体的な内容を実際の事例から大きく改変して記述しております。あらかじめご了承ください。
本事例は、特定の疾患を有する患者群および健常者群を対象として、対象者の基本特性(連続変数)における群間差の評価と、特定の疾患フェノタイプ(5つのサブタイプ分類などの名義変数)の分布の違いを、それぞれのデータの性質に合致した厳格な統計学的手法を用いて網羅的に解析したものです。
医学研究において、患者の背景因子や臨床スコアを比較する際、データが連続的な数値であるか、あるいは分類を示すカテゴリデータであるかによって、適用すべき統計手法は根本的に異なります。連続変数の場合は、データが正規分布に近似しているか、各群のばらつき(分散)が同等であるかといった前提条件を客観的に評価する必要があります。また、カテゴリ変数の場合は、カテゴリ数が多くなると従来の近似計算では正確な確率が算出できなくなるという課題が生じます。
本分析を通じて、連続変数に対しては「正規性」と「等分散性」の客観的評価に基づく体系的な手法選択手順を構築し、カテゴリ変数に対しては「モンテカルロシミュレーション」を併用した正確確率検定を適用しました。Dr.データサイエンスは、これらの厳密な検定手順に加えて、複数の比較を同時に行う際に生じる第一種の過誤(偽陽性リスク)を偽発見率(FDR)制御によって適切に補正することで、探索的データ解析における統計学的妥当性を極限まで高め、臨床現場の意思決定を支える堅牢な客観的根拠を創出することに貢献しました。
本事例では、新たに設定された複数の患者グループ間において、基本特性(連続変数)のバランスを確認するとともに、特定の疾患フェノタイプ(タイプAからEまでの5カテゴリ)の分布に統計学的な偏りが存在するかを明らかにすることが求められました。
臨床的な課題として、疾患フェノタイプの分布評価において「5カテゴリ×2群」といった比較的規模の大きな分割表を作成する必要がありましたが、特定のセルにおいて期待される患者数が極端に少なくなることが予想されました。このような状況下で一般的なカイ二乗検定を用いると、算出されるp値の正確性が著しく損なわれます。また、多数のグループや項目に対して網羅的に検定を繰り返すため、第一種の過誤をいかに制御しつつ、真の臨床的差異を見落とさない検出力を維持するかが重要な論点となりました。
分析の主な目的は、第一に、連続変数に対しては前提条件の確認に基づく論理的な検定手法の使い分けを行い、正確なp値を算出することでした。第二に、カテゴリ変数に対しては計算機のシミュレーションを活用して厳密な群間比較を行うことでした。そして第三に、得られた複数のp値に対して適切な多重比較補正を行い、真に医学的意義のある関連性のみを抽出することでした。
本分析では、特定の医療機関から収集された患者レジストリデータを使用しました。解析を精緻に行うため、以下の変数を中心に整理しました。
本事例では、データの尺度や分布の前提条件を厳格に確認し、それぞれに最適な検定アプローチを適用するため、以下の統計手法と解析手順を選択・適用しました。
Dr.データサイエンスは、本事例において、変数の種類や前提条件の違いを包括的に処理する論理的な解析手順を構築し、データの持つ真実を正確にすくい上げました。