一般化推定方程式（GEE）と多重代入法を活用した反復測定データの要因分析

※本記事は、実際の解析実績を基に作成しておりますが、お客様との秘密保持契約（NDA）の観点により、医学・医療分野という枠組みは維持しつつ、疾患名や変数などの具体的な内容を実際の事例から大きく改変して記述しております。あらかじめご了承ください。

本事例は、関節リウマチ（RA）患者に対する新規生物学的製剤の治療において、複数回の来院（治療介入回数）を経るごとの「臨床的寛解の達成」や「炎症マーカーの推移」に対し、患者の背景因子が与える影響を多角的に評価したものです。実臨床において同一患者から経時的に反復して取得されるデータ（縦断的データ）には、同一患者内のデータ同士に特有の相関が生じます。そのため、通常の統計手法をそのまま適用すると、誤った結論を導くリスクが伴います。

本分析を通じて、反復測定データに固有の相関構造や、臨床データに避けられない検査値の欠損といった複雑な課題を統計的に正しく処理し、治療効果に直結する真の予測因子を特定することを目指しました。Dr.データサイエンスは、高度な多重代入法と一般化推定方程式（GEE）を組み合わせることで精緻な要因分析を提供し、層別化医療の推進に貢献しました。

分析背景・目的

本事例では、新規生物学的製剤の投与を受けている患者において、「臨床的寛解が達成される確率」を最大化するための要因特定が求められました。対象となるデータは、同一の患者（患者ID）から来院ごとに繰り返し記録されるパネルデータです。分析の主な目的は、「過去の既存治療薬の使用歴」、「特定の自己抗体陽性の有無」、および「併存疾患の有無」といった背景因子が、寛解達成に対してどのような影響を与えているかを、因子間の関連性を考慮した一般モデルを用いて定量的に明らかにすることでした。

データと変数

本分析では、特定の医療機関から提供された複数サイクルにわたる実臨床データを使用しました。主要な分析対象変数は以下の通りです。

- クラスター変数：患者識別用のID
- 目的変数：
  - 臨床的寛解の達成（2値変数：1=達成、0=未達成）
  - 疼痛フレアの発生回数（カウントデータ）
  - 炎症マーカーAおよび炎症マーカーB（連続変数）
- 主要な説明変数：既存治療薬の使用歴、自己抗体陽性の有無、併存疾患の有無、年齢、性別（male、female）など。

分析手法

本事例では、実臨床データの持つ複雑な特性（反復測定による患者内相関と、一部検査値の非ランダムな欠測）に対処するため、以下の統計手法を選択・適用しました。

欠測値の処理
- 採用した手法：CART（分類・回帰木）を用いた多重代入法（Multiple Imputation）
  「炎症マーカーA」および「炎症マーカーB」などの連続変数の一部に欠測が認められました。全体の欠測率は2割以下でしたが、マーカーAとマーカーBの間に極めて強い相関があり、かつ一方の数値が高いサンプルにおいて欠測が偏るなど、ランダムな欠測ではない恐れがありました。非線形な関係性も柔軟に補完でき、強い相関を持つ変数を同時に扱う際の多重共線性を避けるため、CARTアルゴリズムを用いた多重代入法を採用し、安定性を担保するため50個の補完データセットを作成しました。
- 採用しなかった手法：リストワイズ削除（完全ケース分析）および平均値代入法
  リストワイズ削除は、一つでも欠測を含む患者データを分析から丸ごと除外するため、貴重なサンプルサイズが減少し統計的検出力が著しく低下してしまいます。また、平均値代入法はデータの分散（ばらつき）を過小評価し、標準誤差を歪めるリスクがあるため、本事例のような厳密な多変量解析の事前処理としては不適切であると判断し、見送りました。
多変量解析
- 採用した手法：一般化推定方程式（GEE: Generalized Estimating Equations）
  同一患者から複数回の来院ごとにデータを取得しているため、データ間には患者固有の「相関」が存在します。一般化推定方程式（GEE）は、このクラスター内の相関構造（本件では「交換可能（exchangeable）相関」を採用）をモデルに組み込むことができるため採用しました。目的変数の性質に合わせ、寛解達成には「二項分布」、疼痛フレア回数には「ポアソン分布」、炎症マーカーには「正規分布（ガウス分布）」に従うGEEを使い分けて評価を行いました。
- 採用しなかった手法：通常のロジスティック回帰分析および一般化線形混合モデル（GLMM）
  通常の回帰分析は「すべてのデータが互いに独立している」という前提が必要なため、今回のような反復測定データに適用すると標準誤差が過小評価され、誤った有意差（第一種の過誤）を導く危険性があるため除外しました。また、GLMM（混合モデル）も候補でしたが、本件の目的が個別の患者特有の予測ではなく、対象患者集団全体に対する各因子の平均的な影響（Population-averaged effect）を評価する一般モデルとしての役割を求めていたため、仮定が少なく計算が安定しやすいGEEを最適と判断しました。
モデルの適合度評価
- 通常の尤度ベースの評価指標（AICなど）の代わりに、GEEに特化したQICを用いて複数のモデルパターンを比較し、さらに予測精度としてAUCを算出してモデルの妥当性を評価しました。

主な結果の概要と臨床的考察

GEEを用いた一般モデルによる多変量解析の結果、評価したすべての変数パターンにおいて、「既存治療薬の使用歴」「自己抗体陽性の有無」「併存疾患の有無」の3因子すべてが、臨床的寛解の達成に対して独立して有意な影響を与えていることが確認されました。

例えば、自己抗体陽性の患者群では、陰性の患者群と比較して寛解達成のオッズ比が有意に変動しており、強力な予測因子であることが定量的に証明されました（該当因子の検定結果： p = 0.012 ）。一方で、性別（male、female）や年齢といった基本背景因子については、寛解達成に対して統計的な有意差をもたらさないことが確認されました（ p = 0.540 など）。

また、CARTを用いた多重代入法による補完前と補完後の双方のデータセットで解析を実施しましたが、いずれも結果の方向性や有意性に大きな揺らぎは生じず、一部検査値の欠損に対しても非常に頑健（ロバスト）な結果であることが裏付けられました。

Dr.データサイエンスの貢献

Dr.データサイエンスは、本事例において、単純な集計では見落とされがちな縦断的データの複雑な構造を紐解き、臨床現場の意思決定に直結する強固なエビデンスを創出しました。

複雑なデータ構造に対する最適な手法選択と根拠の提示
- 反復測定データにおける「従属性」を見逃さず、通常の回帰分析ではなくGEEを選択したことで、臨床的判断を誤らせるリスクを排除しました。なぜその統計手法を用いるべきか、代替手法の問題点は何かを明確にし、医学論文の査読にも耐えうる堅牢な解析基盤を提供しました。
高度な欠測値処理による情報損失の回避
- 実臨床データに特有の「非ランダムな欠測」と変数間の強い相関に対し、CARTアルゴリズムによる多重代入法を適用することで、収集した貴重な症例データを無駄にすることなく、偏りのないクリアな解析結果を導き出しました。
臨床的示唆の導出と評価
- QICやAUCに基づく厳密な一般モデルの評価を通じて、寛解達成に真に寄与する患者プロファイルを明らかにしました。これにより、どの患者層に対して優先的に特定の治療介入を行うべきかという、個別化医療の推進に向けた具体的な知見を提供しました。

多変量ロジスティック回帰分析と各種指標を用いたリスク因子を特定する探索的データ解析

プロペンシティスコアマッチングとRMSTを用いた生存時間解析