ホーム 一覧 実績の紹介 混合効果モデルとクラスター分析を用いた施設間差異を考慮した合併症リスク因子の特定

混合効果モデルとクラスター分析を用いた施設間差異を考慮した合併症リスク因子の特定

※本記事は、実際の解析実績を基に作成しておりますが、お客様との秘密保持契約(NDA)の観点により、医学・医療分野という枠組みは維持しつつ、疾患名や変数などの具体的な内容を実際の事例から大きく改変して記述しております。あらかじめご了承ください。

本事例は、脳卒中後の嚥下障害患者において、経管栄養から「完全経口摂取への移行時期」が、その後の合併症(誤嚥性肺炎、低栄養、褥瘡など)の発生リスクにどのような影響を与えるかを詳細に評価したものです。多施設共同の観察研究などから得られる実臨床データにおいては、各医療施設が持つ「独自の治療方針」や「リハビリテーションの積極性」といった施設単位の傾向が、患者個人の結果に極めて強い影響を及ぼします。

本分析を通じて、単なる患者個人の背景因子だけでなく、患者が属する「施設間のばらつき(階層性)」という複雑な交絡要因を統計学的に適切に分離・調整し、真の臨床的リスク因子を抽出することを目指しました。Dr.データサイエンスは、高度な混合効果モデル(ランダム効果モデル)の適用や、施設ごとの治療方針を定量化するクラスター分析を駆使することで、単純な集計では見誤る危険性のあったリスク構造を正確に浮き彫りにし、より安全な経口移行プロトコルの確立に向けた客観的根拠を提供しました。

分析背景・目的

本事例では、回復期リハビリテーション病棟を有する複数の医療施設から収集された患者データを用いて、「早期に経口摂取へ移行させることが、誤嚥性肺炎などのリスクを本当に上昇させるのか」を検証することが求められました。

臨床現場における大きな課題として、経口摂取への移行を早期に進めることで嚥下機能の回復や生活の質(QOL)の向上が期待できる反面、誤嚥性肺炎のリスクが高まるというジレンマが存在します。さらに問題を複雑にしているのは、施設によって「どれくらい早期に経口摂取へ切り替えるか」の判断基準が大きく異なる点です。積極的な施設もあれば、保守的な施設もあります。

分析の主な目的は、このような「施設ごとの治療方針の偏り」という強力なバイアスを統計モデルに組み込み、施設の違いを差し引いた上で、純粋に「移行時期の早さ」が各合併症の発生確率にどう影響するのかを明らかにすることでした。また、施設全体を「早期移行を推進する施設群」と「それ以外の施設群」に客観的に分類し、施設群ごとのリスク発生率の違いを評価することも重要な目的と位置づけました。

データと変数

本分析では、複数の医療施設から収集された数百名規模の脳卒中患者のレジストリデータを使用しました。主要な分析対象変数は以下の通りです。

    • 目的変数(リスク因子):退院までの「誤嚥性肺炎の発生」「低栄養状態への進行」「褥瘡の発生」などの有無(それぞれ二値変数)。
    • 主要な説明変数:発症から経口摂取移行までの日数(連続変数)、および、移行時期によるカテゴリ分類(早期、標準、後期など)。
    • 共変量(調整変数):年齢、発症時の重症度スコア、BMI、急性期病院での入院日数など。
    • 階層変数:患者が属する「医療施設ID」。

分析手法

本事例では、施設ごとに異なる傾向を持つ階層的なデータ構造を正しく評価し、多数の変数間に潜む多重共線性を回避するため、以下の高度な統計手法を選択・適用しました。

  1. データ分布の視覚的評価と相関分析の最適化
    • 採用した手法:カーネル密度推定による分布確認と、尺度に応じた各種相関係数の使い分け
      モデリングに先立ち、カーネル密度推定を用いて全連続変数の分布形状を視覚的に評価しました。その結果、「年齢」や「BMI」は正規分布に近い形状を示したため、パラメトリックな手法である「ピアソンの相関係数」を採用しました。一方で、「急性期病院での入院日数」などは極端に偏った非正規分布を示したため、順位に基づくノンパラメトリック手法である「スピアマンの順位相関係数」を適用しました。さらに、名義変数間には「クラメールの連関係数」、連続変数と名義変数の間には「相関比」を使い分け、変数間の関係性を正確に数値化しました。これにより算出されたVIF(分散拡大要因)がすべて3.0未満であることを確認し、多重共線性の問題を事前に排除しました。
    • 採用しなかった手法:全変数に対する画一的なピアソン相関分析の適用
      データの分布形状を無視して、すべて一律にピアソンの相関係数を適用することは、非正規分布のデータにおいて相関の強さを過大または過小に評価する危険性があるため、厳格に除外しました。
  2. 施設間のばらつきを考慮した多変量解析
    • 採用した手法:混合効果ロジスティック回帰モデル(ランダム切片・ランダム傾きモデルの比較)
      患者が特定の施設に属している以上、同じ施設の患者同士は似た結果になりやすいという「施設内相関」が存在します。この階層的なばらつきを調整するため、施設ごとの基礎リスクの違いを調整する「ランダム切片モデル」と、施設ごとに経口移行時期の影響度合い(傾き)も異なると仮定する「ランダム切片+ランダム傾きモデル」の両方を構築しました。両モデルの適合度をAIC(赤池情報量規準)やAUC(ROC曲線下面積)を用いて比較評価し、よりAICが小さく予測精度の高い最適なモデルを目的変数ごとに採択しました。
    • 採用しなかった手法:通常のロジスティック回帰分析
      通常のロジスティック回帰は「すべての患者データが互いに独立している」という前提に立ちます。これを多施設データにそのまま適用すると、施設の偏りを患者個人の特徴と誤認して標準誤差を過小評価し、本来は有意ではない変数に「見せかけの有意差」を出してしまう(第一種の過誤が生じる)危険性が非常に高いため、主解析の手法としては採用を見送りました。
  3. 施設方針の客観的分類
    • 採用した手法:エルボー法を併用したK-meansクラスター分析
      施設を単純な平均値で分類するのではなく、「経口移行時期」の分布状況に基づいて患者全体をK-means法でクラスター分類しました。その際、最適なクラスター数を決定するために「エルボー法(平方和の減少具合が折れ曲がる点を探す手法)」を用い、客観的に4つのグループを定義しました。このうち、最も早期に移行した患者が多く属するクラスターの占有割合を施設ごとに算出し、その割合が上位四半位(第3四分位数)を超える施設を「早期移行推進施設」と厳密に定義づけました。
  4. 発生率の比較と多重比較補正
    • 採用した手法:フィッシャーの正確検定とホルム法(Holm法)
      「早期移行推進施設」と「その他施設」の間で、各合併症の発生率に差があるかを評価しました。発生率の低い合併症において期待度数が5未満のセルが20%を超えるケースが多発したため、カイ二乗検定ではなく、サンプル数が少なくても正確な確率を計算できる「フィッシャーの正確検定」を優先して採用しました。また、複数の合併症について同時に検定を行うことによる擬陽性の増加(多重検定の問題)を防ぐため、ボンフェローニ法よりも検出力を維持しつつ第一種の過誤を制御できる「ホルム法」を用いてp値の厳密な補正を行いました。
    • 採用しなかった手法:条件を満たさないカイ二乗検定の適用、および補正なしの複数回検定
      期待度数の条件を満たさないカイ二乗検定は誤ったp値を算出するため不採用としました。また、多重比較補正を行わずに有意差を判定することは、統計学的な信頼性を著しく損なうため厳格に回避しました。

主な結果の概要と臨床的考察

混合効果モデルを用いた厳密な多変量解析の結果、単変量解析(通常のロジスティック回帰)では有意に見えた「経口摂取への早期移行による誤嚥性肺炎リスクの上昇」という結果が、多変量解析においては有意差を失う(例として p = 0.145 など)ケースが確認されました。

この結果は、誤嚥性肺炎の発生を左右していたのは「移行時期そのもの」というよりも、背後にある「重症度スコア」や「急性期の入院期間」、さらには「施設ごとの管理体制(ランダム効果として吸収された部分)」が真の要因であったことを強く示唆しています。通常の解析では、これら交絡因子の影響を「移行時期の影響」と誤認していたことが分かりました。

一方で、クラスター分析によって同定された「早期移行推進施設」と「その他施設」との比較では、早期推進施設において「低栄養状態」の発生リスクが統計的に有意に低い(ホルム法補正後 p = 0.012 )ことが明らかになりました。これは、早期に経口摂取へ挑戦する施設プロトコルが、肺炎リスクを顕著に増大させることなく、患者の栄養状態改善に大きく寄与しているという、実臨床において非常に価値の高いエビデンスとなります。

Dr.データサイエンスの貢献

Dr.データサイエンスは、本事例において、多施設データの背後に潜む階層的なバイアスを的確に制御し、見せかけの相関に惑わされない真の臨床的洞察を導き出しました。

  1. 階層的データ構造に対する最適モデルの構築
    • 施設間のばらつきを無視する通常の回帰分析の罠を回避し、AICやAUCを用いた客観的なモデル選択を通じて、混合効果モデル(ランダム切片・ランダム傾き)を適切に構築しました。これにより、各変数のオッズ比が過大評価されることを防ぎ、医学的に妥当性の高い強固な客観的根拠を提供しました。
  2. 機械学習手法を用いた客観的な施設分類の実現
    • 「施設の積極性」という曖昧な概念を、エルボー法を用いたK-meansクラスター分析によって定量的に定義し直すことで、主観を排した再現性の高いサブグループ解析を実現しました。
  3. 厳格な検定プロセスの適用によるエビデンスレベルの向上
    • データの分布や期待度数に応じた検定手法(フィッシャーの正確検定と各種相関係数)の使い分けや、ホルム法による多重比較補正を徹底しました。細部に至るまで統計学的妥当性を追求した解析手順により、学術論文の査読プロセスにも十分に耐えうる、極めて信頼性の高い解析レポートをお客様に提供しました。

© 2023 Dr.データサイエンス. All Rights Reserved.