ホーム 一覧 実績の紹介 決定木分析で探る、臨床アウトカム影響要因

決定木分析で探る、臨床アウトカム影響要因

この事例では、匿名化された臨床研究データを用いて、Dr.データサイエンスがどのように複雑なデータ解析を行い、お客様の臨床的な課題解決に貢献したかをご紹介します。秘密保持契約に基づき、具体的な疾患名、測定項目、数値、個別の患者情報、機関名などは一切開示しておりませんが、実施した分析手法とその適用、得られた知見のタイプは、実際の解析と同様です。

分析背景・目的

本事例は、特定の臨床アウトカムの発生有無に影響を与える可能性のある複数の生理学的指標や患者背景情報、治療関連データなどの要因を特定し、それらの複雑な関係性を明らかにすることを目的としました。特に、「どのような状態が臨床アウトカムに影響を与えるのかを解明したい」というお客様の課題に対し、統計解析による客観的な証拠を提供することで、より深い理解と明確な知見を得ることが求められました。

データと変数

分析には、患者の臨床データに含まれる複数の検査値や生体指標治療に関する情報、および目的変数である特定の臨床アウトカムの有無が用いられました。

分析手法

  1. 正規性検定(シャピロウィルク検定)
    • 各変数の分布が正規性に従うかを確認するために実施しました。分析対象の全ての変数で正規性が認められなかったため、ノンパラメトリックな手法の適用を決定しました。
  2. 相関分析(スピアマンの順位相関係数)
    • 変数間のノンパラメトリックな相関関係を把握するために、スピアマンの順位相関係数を用いた相関分析を実施しました。これにより、多くの変数間で統計的に有意な相関関係が確認されました。
  3. 決定木分析(CART分析)と二項検定による詳細なグループ分析
    • お客様から単一の指標ではなく、より臨床現場での判断に資するような細かな分類指標の特定が求められました。そのため、一般的なロジスティック回帰分析ではなく、目的変数である「臨床アウトカムの有無」に影響を与える要因のパターンを分岐点(閾値)で明確に区分することができる決定木分析(CART分析)を実施しました。

      この分析により、複数の説明変数の中から目的変数への影響が強い変数を階層的に特定し、条件分岐によってグループ分けを行いました。


      (図表.決定木分析[CART]の例)
    • (a)主要な要因を考慮したモデル

      まず、全ての関連変数を説明変数として分析を行い、ある主要な指標が最も影響の強い要因であることが示されました。この指標の特定の閾値を境に、臨床アウトカムの有無の傾向が強く分かれることが確認されました。

    • (b)一部の主要な要因を除外したモデル

      上記の主要な指標が他の変数と強い相関を持つことから、この指標を除外した場合のモデルを構築し、異なる要因のパターンを探索しました。これにより、別の複数の検査値や患者背景因子(例: BUN、特定薬剤の投薬量、Crなど)といった変数が、特定の閾値(例: BUNが40、投薬量が1000など)によって臨床アウトカムの有無に影響を与えることが明らかになりました。

    • (c)さらに一部の要因を除外したモデル

      さらに特定の検査値(例: BUN)も除外したモデルを構築することで、残りの指標間の関係性(例: eGFR、特定の検査値の比率、投薬量など)を通じて、臨床アウトカムの有無を予測するパターンを分析しました。ここでも、各指標の特定の閾値(例: eGFRが35、特定の検査値比率が25や65など)が、臨床アウトカムの有無に影響を与える主要な分岐点となりました。

    • (d)二項検定(FDR補正適用)
      • 決定木分析で得られた各グループ(Node)において、特定の臨床アウトカムの有無の確率に統計的に有意な差があるかを評価するために、二項検定を実施しました。多重比較の問題に対処するため、FDR(False Discovery Rate)による多重比較補正を適用しました。今回は探索的な分析であったため、Holm法のようなより厳格な補正ではなく、偽陽性を一定レベルで許容しつつ、より多くの関連性を見出すことが期待できるFDRを採用しました。
      • これにより、決定木で分類された各グループの「臨床アウトカムの発生割合」を客観的に評価し、それが統計的有意水準(例:α= 5%)において有意な差であるかを明確に示しました。例えば、ある特定の条件(例: 特定の検査値が36.5以下かつ特定の比率が25より大きい場合)でも86.7%の割合で臨床アウトカムが有る傾向が示され、統計的有意差が確認されました。

主な結果の概要と臨床的考察

本解析により、特定の臨床アウトカムの有無には、複数の要因が複雑に絡み合っていることが示されました。特に、決定木分析で特定された特定の指標値の閾値や、その組み合わせによって、臨床アウトカムのリスクが高い、または低いグループが明確に分類されるパターンが発見されました。

    • 主要な指標の直接的影響

      特定の指標の閾値が、臨床アウトカムの有無に最も強く関連していることが決定木分析で示されました。

    • 複合的な要因の関与

      主要な指標を除外した分析では、複数の異なる検査値や投薬情報、患者背景因子といった要因が組み合わさることで、臨床アウトカムの有無に影響を与えることが明らかになりました。例えば、特定の検査値の比率 が高い場合に、臨床アウトカムとの関与が高いというお客様の仮説が、本解析結果によって支持されました。また、特定の検査値の扱い方が複雑であることや、特定の条件が重なると臨床アウトカムの有無の確率が段階的に高まるパターンも確認されました。

これらの結果は、臨床現場での診断や治療戦略の意思決定において、多角的な視点からリスク評価を行うための重要な知見を提供します。

Dr.データサイエンスの貢献

本事例では、お客様が抱えていた「どのような状態が臨床アウトカムに影響を与えるのかを解明したい」という課題に対し、単一の指標にとどまらない、より臨床判断に資する細かな分類指標の特定という要望に応えるため、一般的な回帰分析ではなく決定木分析を主軸とした解析戦略を立案・実行しました。

データ特性に合わせた適切な統計解析手法(シャピロウィルク検定による正規性確認、スピアマンの順位相関係数、多段階の決定木分析、そして決定木で分類されたグループごとの二項検定)を選定・適用することで、お客様の課題に対する客観的なエビデンスを提供しました。

複雑なデータの中から意味のあるパターンと、それに伴う具体的な確率の差を抽出し、お客様の仮説を統計的に検証することで、臨床的により深い理解と確かな知見を提供しました。

© 2023 Dr.データサイエンス. All Rights Reserved.