多重代入法と多角的な相関評価を用いた重回帰分析

※本記事は、実際の解析実績を基に作成しておりますが、お客様との秘密保持契約（NDA）の観点により、医学・医療分野という枠組みは維持しつつ、疾患名や変数などの具体的な内容を実際の事例から大きく改変して記述しております。あらかじめご了承ください。

本事例は、特定の慢性自己免疫疾患の患者群に対する「ステロイド系免疫抑制剤の長期間にわたる累積投与量」が、副作用としての「骨密度低下率（骨粗鬆症の進行度）」にどのような影響を与えるかを詳細に評価し、臨床的に許容される安全な投与量の限界値を推定したものです。

長期間にわたる実臨床の観察研究においては、患者の転院や検査の未実施などにより、データに多くの欠損が生じることが避けられません。また、患者の背景因子（年齢、生活習慣、遺伝的要因、併存疾患など）は数値データからカテゴリデータまで多岐にわたり、これらが複雑に絡み合って副作用の発現に関与しています。

本分析を通じて、単なるデータの削除による偏りを防ぐための高度な欠測値補完技術（多重代入法）を適用し、変数の尺度に合わせた厳密な相関解析を行うことで、副作用を予測する真の要因を抽出することを目指しました。Dr.データサイエンスは、補完されたデータに基づく重回帰分析と、誤差を考慮した回帰直線の交点算出（閾値の推定）を組み合わせることで、「どの程度の累積投与量に達した時点で、骨折リスクが臨床的な危険域に達するか」という、現場の医師が最も必要とする具体的な安全基準値の客観的根拠を提供し、より安全な長期治療計画の策定に貢献しました。

分析背景・目的

本事例では、長期間の治療を要する患者群において、「治療効果を維持しつつ、重篤な副作用（骨密度の著しい低下）を防ぐための、累積投与量の明確な限界基準を確立すること」が強く求められました。

臨床現場における大きな課題として、ステロイド薬の投与量が増えるほど骨密度が低下することは経験的に知られていましたが、それが「具体的に何ミリグラムを超えた時点で、早急な骨折予防介入が必要な危険水準（例えば骨密度低下率5%など）に達するのか」が定量的に明らかになっていませんでした。また、収集された長期間の患者記録データには、一部の血液検査結果や問診項目に欠損値が多く含まれており、単純な解析では結果に深刻な歪みが生じる懸念がありました。

分析の主な目的は、欠測値に対する厳密な統計学的処理を行った上で、患者の多種多様な背景因子間の関係性を網羅的に把握し、それらの交絡を調整した精度の高い予測モデルを構築することでした。さらに、そのモデルから得られる回帰直線と信頼区間を用いて、副作用が許容範囲を超える具体的な「累積投与量の数値」とその安全域（下限値）を導き出すことを最終的な目標としました。

データと変数

本分析では、複数の専門医療機関において長期にわたり追跡調査された数百名規模の患者記録データを使用しました。収集された変数は数値データとカテゴリデータが複雑に混在しており、主要な分析対象変数は以下の通りです。

- 目的変数（副作用指標）：観察期間前後における「骨密度低下率（%）」（連続変数）。
- 主要な説明変数（介入指標）：観察期間内におけるステロイド薬の「累積投与量（mg）」（連続変数）。
- 患者背景因子（連続変数）：年齢、血中ビタミンD濃度、BMI、直近の運動習慣スコアなど。
- 患者背景因子（名義・順序変数）：性別、特定の基礎疾患の有無、居住地域の気候区分、骨折の既往歴の有無など。
- データの状態：連続変数の約15%、カテゴリ変数の約10%に欠損値（未測定・未回答）が含まれていました。

分析手法

本事例では、データの欠損による深刻な情報の損失と推定量への偏りを防ぎ、尺度の異なる変数間の関係性を正確に捉えるため、以下の高度な統計手法を段階的に選択・適用しました。

欠測値の適切な処理（多重代入法の適用）
- 採用した手法：多重代入法およびCARTアルゴリズム
  データセットに存在する多数の欠損値を補完するため、多重代入法を採用しました。この手法は、他のすべての変数の情報を用いて欠損部分の予測値を計算し、不確実性を考慮した複数の異なるデータセット（本件では50個）を作成します。特に、カテゴリ変数（特定の基礎疾患の有無など）の補完においては、非線形な関係や複雑な条件分岐を柔軟に処理できるCART（分類・回帰木）アルゴリズムを採用し、実臨床の現実に極めて近い補完を実現しました。
- 採用しなかった手法：リストワイズ削除（完全ケース分析）および平均値代入法
  欠損値を一つでも含む患者データを全て除外する「リストワイズ削除」は、貴重な標本サイズを大幅に減少させるだけでなく、症状が悪化して検査に来られなくなった患者などの情報を丸ごと切り捨てることになり、結果に重大な選択バイアスを生むため厳格に除外しました。また、欠損箇所に単に全体の平均値を埋める「平均値代入法」は、データのばらつき（分散）を不当に小さく見せかけ、本来は有意でない変数に誤った有意差を導く危険性が高いため不採用としました。
変数の尺度に応じた網羅的な相関分析
- 採用した手法：ピアソン、スピアマン、クラメールの連関係数、相関比の使い分け
  患者背景に潜む交絡要因を洗い出すため、変数のデータ型（尺度）に応じて相関の評価手法を厳格に使い分けました。連続変数同士には「ピアソン相関分析」または「スピアマンの順位相関係数」を、名義変数同士の関連性には「クラメールの連関係数」を、そして連続変数と名義変数の関係性には群間分散の割合を示す「相関比（η）」を採用しました。これらをマトリックス状に網羅的に計算し、多重共線性の原因となる強い相関（R > 0.8など）を持つ変数ペアを事前に特定・除外しました。
- 採用しなかった手法：全変数に対する画一的なピアソンの相関係数の適用
  性別や疾患の有無といったカテゴリデータに対して、無理に数値を割り当ててピアソンの相関係数を計算することは、統計学的に無意味であり、誤った解釈を生む原因となるため一切行いませんでした。
多重補完データに基づく重回帰分析（プーリング処理）
- 採用した手法：50個のデータセットを統合した重回帰分析（Rubinのルールに基づく統合）
  骨密度低下率を目的変数とし、累積投与量と厳選された背景因子を説明変数とする重回帰モデルを構築しました。この際、単一のデータセットで解析するのではなく、多重代入法で作成した50個のデータセットそれぞれに対して回帰分析を実行し、その50回分の結果（係数や標準誤差）をRubinのルールに従って統計学的に統合（プーリング）しました。これにより、欠損値の不確実性を正しく内包した、極めて堅牢で信頼性の高い係数とp値（ p < 0.001 など）を算出しました。
臨床的限界値（閾値）の精密な推定
- 採用した手法：回帰直線と信頼区間を用いた逆推定（特定のyに対するxの算出）
  累積投与量（x軸）と骨密度低下率（y軸）の関係について、患者ごとのばらつき（標準誤差）をエラーバーとして可視化した散布図を作成しました。その上で、臨床的な危険水準である「骨密度低下率5%（y = 5.0）」という目標水準を示す水平線と、推定された回帰直線が交わる交点のx座標を数学的に算出しました。さらに、回帰直線の95%信頼区間の上限・下限ラインとの交点も同時に算出することで、「最も安全側に倒した場合、何mgで限界値に達すると考えるべきか」という保守的な限界値も導き出しました。

主な結果の概要と臨床的考察

多重代入法を用いて情報の欠落を補完した堅牢な重回帰分析の結果、「ステロイドの累積投与量」は、患者の年齢や血中ビタミンD濃度といった他の背景因子を調整した後でも、骨密度低下率に対して独立した極めて強い正の影響を与えることが証明されました（統合 p = 0.002 ）。

さらに、臨床的に最も重要な「閾値の推定」においては、単回帰の交点計算から、骨密度低下率が危険水準（5%）に達する累積投与量の平均的な推定値が「約8,500 mg」であることが明確な数値として示されました。

特筆すべきは、95%信頼区間を用いた下限交点の評価により、「患者のばらつきを考慮して最も安全側に評価した場合、累積投与量が約6,800 mgに達した時点で危険水準を超える可能性がある」という、より厳格な基準値が導き出された点です。この結果は、臨床現場において「投与量が7,000 mgに近づいた段階で、強力な骨粗鬆症治療薬の併用を強く検討すべきである」という、先回りした予防的介入の明確なトリガー（行動基準）を提供することになります。

また、事前の網羅的な相関解析によって「直近の運動習慣スコア」が高い患者ほど、累積投与量が多くても骨密度の低下が緩やかである（負の相関）ことも確認され、薬物療法だけでなく、早期からの運動指導の並行が副作用の軽減に極めて有効であることも定量的に示唆されました。

Dr.データサイエンスの貢献

Dr.データサイエンスは、本事例において、不完全な実臨床データを最も正確な形で活用するための高度な統計的処理を施し、直感に頼っていた医療現場の判断基準を、明確な数式と視覚的根拠に基づく安全基準へと昇華させました。

情報損失を防ぐ最先端の欠測値処理の提供
- データの欠損を安易に切り捨てることなく、MICEおよびCARTを用いた多重代入法を適用することで、貴重な患者記録の情報を100%活用しました。これにより、偏りのない客観的かつ真に実態を反映した強固な解析基盤を構築しました。
尺度に応じた厳格な相関評価による多重共線性の排除
- データ型を無視した雑多な相関分析を排除し、4つの異なる相関指標（ピアソン、スピアマン、クラメール、相関比）を正確に使い分けることで、変数間の複雑な関係性を精緻にマッピングしました。これにより、誤った変数の投入による回帰モデルの崩壊を未然に防ぎました。
臨床的意思決定に直結する「数値基準」の算出
- 「薬が増えれば副作用も増える」という漠然とした結果の提示に留まらず、回帰直線と信頼区間の数理的交点計算を行うことで、「具体的に何mgが安全の限界か」という現場が最も欲する明確な数値を算出しました。ばらつきを考慮した「安全側の限界値（下限交点）」を併記することで、より安全性の高い患者管理手順（ガイドライン）の策定に直接的に貢献しました。

混合効果モデルとクラスター分析を用いた施設間差異を考慮した合併症リスク因子の特定

多変量ロジスティック回帰分析と各種指標を用いたリスク因子を特定する探索的データ解析