ランダムフォレストと不均衡データ処理アルゴリズムを用いた経時的患者報告アウトカムの予測モデリング

※本記事は、実際の解析実績を基に作成しておりますが、お客様との秘密保持契約（NDA）の観点により、医学・医療分野という枠組みは維持しつつ、疾患名や変数などの具体的な内容を実際の事例から大きく改変して記述しております。あらかじめご了承ください。

本事例は、慢性心不全患者を対象とした遠隔モニタリングシステムにおいて、患者自身が日々入力する主観的な症状評価（患者報告アウトカム：PRO）の経時的な変化パターンが、将来的な「急性増悪に伴う緊急入院リスク」をどの程度正確に予測できるかを、高度な機械学習アルゴリズムを用いて検証したものです。

臨床研究において「重症化」や「死亡」「緊急入院」といった重大な健康被害イベントを予測する際、最大の障壁となるのが「データの極端な不均衡」です。日常的なモニタリングデータの中で、実際に緊急入院に至るケースは全体のわずか数パーセントに過ぎません。このような偏ったデータに対して一般的な統計解析や機械学習をそのまま適用すると、モデルは「全員が安全である（入院しない）」と予測するだけで表面上の正解率が高くなってしまい、本当に見つけ出さなければならない危険な兆候を見逃すという致命的な欠陥を生じます。

本分析を通じて、極端なデータ不均衡を解消するための最先端のサンプリング技術と、膨大な変数の中から真に重要な兆候を自動抽出するアルゴリズムを組み合わせ、複雑な変数間の相互作用を加味した高精度な予測モデルを構築することを目指しました。Dr.データサイエンスは、単一の決定木ではなく、多数の決定木を統合するランダムフォレスト手法を中核に据え、さらにベイズ最適化による緻密な調整を行うことで、臨床現場が真に信頼できる「早期警告システム」の確立に向けた確固たる客観的根拠を提供しました。

分析背景・目的

本事例では、自宅療養中の慢性心不全患者から日々送信されるアプリの問診データ（息切れ、疲労感、下肢の浮腫、睡眠の質など）を活用し、「どのような症状の推移をたどった患者が、近い将来に緊急入院を引き起こしやすいか」を定量的に特定することが求められました。

従来の臨床現場におけるアラート基準は、「本日の息切れスコアが閾値を超えたら警告を出す」といった、単一時点での単純な点数評価に依存しがちでした。しかし、実際の急性増悪は突然起こるわけではなく、「3日前から徐々に疲労感が悪化している」「一過性の息切れではなく、悪い状態が数日間連続している」といった、動的な変化パターンの中に強力な予兆が潜んでいます。提供されたデータは、毎日の反復記録データであったため、最終確認時点を基準として「直近数日間の変化の度合い」や「状態の連続性」を示す新たな特徴量（評価変数）を数百パターンも作成し、それらの中から真の危険因子を特定する必要がありました。

分析の主な目的は、数千名に及ぶ患者の追跡データの中から、極めて少数の「緊急入院イベント（正例）」を高い精度で捕捉できる機械学習モデルを構築し、どのパターンの症状推移（例：疲労感の3日連続悪化など）が最も強力な予測因子となるかを明らかにすることでした。また、医療現場においては「誤報（偽陽性）」が多すぎると医療従事者の負担が増大しアラートが無視されるようになるため、危険な状態の患者を見逃さない「再現率」と、警告の正確さを示す「適合率」の最適なバランスを見極めることも重要な課題として位置づけました。

データと変数

本分析では、特定の広域医療ネットワークに属する数千名の患者から長期間にわたって収集された、日々の遠隔モニタリングデータと電子カルテの統合データベースを使用しました。解析を行うにあたり、日々の文字列や段階評価のデータをすべて論理的に数値化し、欠損値のない完全なデータセットとして抽出・整形しました。主要な分析対象変数は以下の通りです。

- 目的変数（予測対象）：直近の報告から一定期間内における「心不全の急性増悪による緊急入院の有無」（入院あり＝真、入院なし＝偽）。※入院ありの割合は全体の約0.6%と極めて不均衡な状態でした。
- 基本属性変数（交絡因子）：年齢、性別、心機能分類分類（NYHA心機能分類）、併存疾患の有無、直近の血液検査結果（BNP値など）、処方薬のクラスなど。
- 動的特徴量（説明変数）：日々の問診スコアから新たに作成された動的な変数群。
  ・「X日前からの変化量」（例：3日前の息切れスコアが2で本日が4の場合、その変化パターン）
  ・「連続的な推移」（例：浮腫のスコアが3日間連続して悪化し続けている状態）

分析手法

本事例では、目的変数の極端な偏りによるモデルの予測機能不全を防ぎ、数百に及ぶ複雑な変数の組み合わせから高精度な予測を行うため、以下の高度な機械学習手法と統計学的アプローチを選択・適用しました。

極端なデータ不均衡の補正
- 採用した手法：SMOTE-NCとENNを組み合わせたハイブリッド・サンプリング
  入院患者（正例）が少なすぎる問題を解決するため、まず「SMOTE-NC（名義・連続変数対応の合成マイノリティ過剰サンプリング手法）」を採用しました。これは、単に少ないデータをコピーして増やすのではなく、実際の入院患者のデータ構造（k近傍法に基づく分布）を学習し、論理的にあり得る「仮想の入院患者データ」を人工的に生成して少数派グループを増幅させる技術です。さらに、多数派である非入院患者グループに対しては「ENN（Edited Nearest Neighbours）」という手法を適用し、入院患者のデータと酷似していて分類アルゴリズムを混乱させる「境界付近の紛らわしい多数派データ」を選択的に削除しました。これにより、各クラスの特徴が明確に分離された高品質な学習用データセットを構築しました。
- 採用しなかった手法：単純なランダム・オーバーサンプリングやアンダーサンプリング
  単純に少数派のデータをコピーして増やす手法は、モデルが特定の患者データばかりを過剰に記憶してしまう「過学習」を強く引き起こすため採用を見送りました。また、多数派のデータをランダムに削って数を合わせる手法は、多数派が持つ重要な背景因子のバリエーションを無作為に捨て去ってしまう情報損失の危険性が高いため、明確に不適切と判断しました。
予測に寄与する真の重要変数の抽出
- 採用した手法：標準化Borutaアルゴリズムとファイ係数による相関分析
  作成された数百の動的特徴量の中から、本当に予測に役立つ変数だけを厳選するため「Boruta（ボルタ）アルゴリズム」を採用しました。この手法は、元の変数の順序をランダムにシャッフルした「偽の変数（シャドウ特徴量）」を作成し、機械学習モデルの中で「偽の変数よりも予測に貢献できなかった変数」を客観的かつ厳格に排除するアルゴリズムです。さらに、Borutaで生き残った変数間に対してファイ係数を用いた相関分析を実施し、係数が0.70を超える「似たような意味を持つ変数（多重共線性の原因）」を整理・統合することで、最終的な予測モデルを安定化させました。
- 採用しなかった手法：単変量解析のp値による変数選択
  個々の変数が目的変数と関連しているかを単独で評価する手法（t検定やカイ二乗検定など）は、複数の変数が組み合わさることで初めて強力な予測力を発揮する「交互作用」を完全に見落としてしまうため、本件のような複雑な生体データの解析における変数選択手法としては採用を見送りました。
機械学習モデルの構築と厳格な精度評価
- 採用した手法：ベイズ最適化を用いたランダムフォレストと10分割交差検証（K-Fold Cross Validation）
  多数の決定木を構築して多数決で結論を出す「ランダムフォレスト」を採用しました。モデルの性能を左右する複雑な設定値（決定木の数、深さ、分岐に必要な最小サンプル数など）については、経験則に頼るのではなく「ベイズ最適化推定」を用いて数学的に最良の組み合わせを探索しました。さらに、構築したモデルの性能が「たまたまそのデータ分割で上手くいっただけ」ではないことを証明するため、データを10個のグループに分けて学習とテストを繰り返す「10分割交差検証」を実施し、未知のデータに対する汎化性能を厳密に評価しました。
- 採用しなかった手法：通常のロジスティック回帰分析や単一の決定木分析
  通常のロジスティック回帰は、変数が直線的な影響を持つことを前提とするため、「ある症状が悪化し、かつ別の症状も重なった場合にのみリスクが跳ね上がる」といった非線形な閾値や複雑な条件分岐を適切に表現できません。また、単一の決定木分析は過学習を起こしやすく結果が不安定になりやすいため、実臨床の意思決定を支援する予測モデルとしては不十分と判断して採用を見送りました。

主な結果の概要と臨床的考察

交差検証を用いた厳格な精度評価の結果、SMOTE-NCによるオーバーサンプリング倍率を過度に高く設定（例えば10倍など）すると、学習データに対する見かけの精度は向上するものの、未知のテストデータに対する予測精度が低下するという「過学習」の兆候が確認されました。指標の変動を詳細に分析した結果、過学習を抑えつつ、入院患者の捕捉率を最大化できる「8倍増幅」のモデルが最も汎用性が高い最適モデルであると特定されました。

最適化されたランダムフォレストモデルは、評価指標であるAUC（ROC曲線下面積）において 0.91 という極めて優れた識別能力を示しました。臨床的に最も重要な「再現率（実際に緊急入院した患者を、事前に入院リスクありと正しく警告できた割合）」は 0.76 に達し、危険な患者の見落としを大幅に防ぐことが確認されました。同時に「適合率（警告が出た患者のうち、実際に緊急入院に至った割合）」も 0.46 となり、従来の単純な閾値アラート（適合率が1割未満に留まることが多い）と比較して、医療従事者の疲弊を招く「過剰な誤報」を大幅に削減できることが証明されました。

さらに、Borutaアルゴリズムによって抽出された変数の重要度（モデルの予測にどれだけ貢献したかを示す指標）を解析した結果、単日の「息切れスコアの悪化」よりも、「息切れスコアが3日間連続で段階的に悪化している推移パターン」や、「下肢の浮腫の悪化と睡眠の質の低下が同時期に発生するパターン」が、緊急入院を予測する上で圧倒的に高い重要度を持つことが定量的に明らかになりました（例として、特定の連続悪化パターンの存在は、他の変数と比較して重要度スコアが 2.61 倍も高く評価されました）。

Dr.データサイエンスの貢献

Dr.データサイエンスは、本事例において、一般的な統計手法では対応できない「圧倒的なデータ不均衡」という臨床データの宿命的な課題に対し、最新の機械学習アプローチを適用することで、現場で実用可能な水準の予測モデルを創出しました。

複雑なデータ不均衡に対する最良の解決策の提示
- 極めて稀にしか発生しない重大な臨床イベントを予測するため、SMOTE-NCとENNを組み合わせた高度なサンプリング技術を実装しました。これにより、単純な手法で陥りがちな過学習や情報損失の罠を回避し、アルゴリズムが真の危険シグナルを学習できる強固なデータ基盤を構築しました。
客観的アルゴリズムに基づく真のリスク因子の抽出
- 人間の直感や単変量のp値に頼る変数選択を排除し、Borutaアルゴリズムを用いることで、膨大な変化パターンの中から真に予測価値のある指標だけを純化しました。これにより、「どのような症状の推移に着目して患者を観察すべきか」という、エビデンスに基づく新たな看護アセスメントの指針を提供しました。
臨床現場の運用に即したモデル評価と最適化
- 単に「正解率」の高さを追求するのではなく、医療現場における「見落としの危険性（再現率）」と「誤報による疲弊（適合率）」のトレードオフを深く理解した上で、ベイズ最適化によるハイパーパラメータの調整を行いました。これにより、遠隔モニタリングシステムに組み込むための、実用性と安全性が極めて高くバランスのとれた予測アルゴリズムの仕様をお客様に提供しました。

非線形最小二乗法を用いた多変量シグモイド分析

優先順位を持つアウトカムに対する勝率比解析（Win-Ratio解析）を用いた新規医療機器の包括的有効性評価