※本記事は、実際の解析実績を基に作成しておりますが、お客様との秘密保持契約(NDA)の観点により、医学・医療分野という枠組みは維持しつつ、疾患名や変数などの具体的な内容を実際の事例から大きく改変して記述しております。あらかじめご了承ください。
本事例は、集中治療室(ICU)に入室した重症敗血症患者における「急性腎障害(AKI)の早期発症」を予測するため、複数の新規血液・尿中生化学的指標(バイオマーカー)および、患者の基礎情報から算出される機械学習ベースの「統合予測スコア」の予測精度を比較検証したものです。
臨床現場において、ある疾患の発症を予測するための検査指標が複数存在する場合、単にそれぞれの指標が「予測に役立つか」を個別に評価するだけでは不十分であり、「既存の指標と比べて、新しい指標は統計学的に有意に優れているのか」を厳格に比較検討する必要があります。しかしながら、同一の患者集団から同時に測定された複数の指標を比較する際には、データ同士に強い相関関係(対応のあるデータ構造)が生じるため、誤った統計手法を用いると検査の優劣を見誤る危険性が伴います。さらに、複数の指標間で総当たり的に比較を繰り返すことは、偶然によって有意差が出てしまう確率(第一種の過誤)を著しく増大させます。
本分析を通じて、同一患者から得られた対応のあるデータ構造を正しく処理できる高度な統計検定を適用し、さらに複数回の検定に伴う過誤の増大を偽発見率(FDR)という概念を用いて制御することを目指しました。Dr.データサイエンスは、ROC曲線下面積(AUC)の精密な比較と、検出力を維持しつつ偽陽性を防ぐ多重比較補正を組み合わせることで、臨床現場で真に信頼して利用できる最適な予測指標を科学的に特定し、重症患者の早期治療介入プロトコルの確立に多大な貢献を果たしました。
本事例では、敗血症性ショックなどを契機として発症する致死率の高い合併症である「急性腎障害(AKI)」を、発症前の極めて早期の段階で正確に予測するための最適な指標を決定することが求められました。対象となる医療機関では、現在主流となっている予測指標のほかに、新たに導入を検討している3つの微量生化学的指標、そして患者の電子カルテ情報から自動算出される「新規統合予測スコア」の計5つの評価軸が存在していました。
臨床的な最大の課題は、新しい検査手法や予測スコアを導入するには相応のコストや労力がかかるため、「新しい指標は、本当に既存の指標を上回る識別能力を持っているのか」を客観的な数値として証明しなければならないという点にありました。単にそれぞれの指標の感度や特異度を並べて眺めるだけでは、その差が統計学的に意味のあるものなのか、あるいは単なる標本抽出の偶然のばらつきに過ぎないのかを判定することができません。
分析の主な目的は、これら5つの予測指標すべてについて、AKI発症の有無を識別する能力を示す指標であるROC曲線下面積(AUC)を算出し、それぞれのAUCの間に統計学的な有意差が存在するかを明らかにすることでした。また、研究の主眼である「生化学的指標間の優劣の決定」というケースと、「統合予測スコアを含めた全指標の優劣の決定」という2つの異なる前提条件(ケース設定)に基づいて、それぞれ適切に多重比較の補正を行い、厳密な評価基準に基づく結論を導き出すことを目標としました。
本分析では、特定の高度急性期医療機関において前向きに収集された、数百名規模の重症患者の臨床観察データを使用しました。全ての患者において、入室時の検査値が網羅的に取得されています。主要な分析対象変数は以下の通りです。
本事例では、同一患者から取得された複数の予測変数の識別能を比較し、かつ複数回の検定に伴う統計学的な誤謬を回避するため、以下の極めて厳密な統計手法を選択・適用しました。
生化学的指標のみを比較した「ケース1」の分析において、最も予測能の低かった指標A(AUC = 0.315)と、中等度の予測能を示した指標D(AUC = 0.887)の間に差があるかをDeLong検定で評価した結果、生のp値は p = 0.016 であり、有意な差が認められました。さらに、この結果に対してBH法による多重比較補正を適用したところ、算出されたq値は q = 0.047 となり、あらかじめ設定した偽発見率の基準値(FDR = 0.05)を下回ったため、補正後においても「指標Dは指標Aよりも統計学的に有意に優れた予測能を持つ」という強固な結論が導き出されました。
一方で、指標D(AUC = 0.887)、指標C(AUC = 0.940)、指標B(AUC = 0.946)の上位3指標間におけるDeLong検定では、生のp値がいずれも0.05を上回り(例として指標D対指標Cで p = 0.057 )、BH法による補正後も当然ながら有意差は認められませんでした(q > 0.05)。
さらに、新規統合予測スコア(AUC = 0.149)を加えた「ケース2」の分析では、検定の総数が増加した影響により多重比較補正の基準が厳しくなりました。その結果、指標Aと指標Dの比較において、生のp値は p = 0.016 であったものの、BH法補正後のq値は q = 0.062 となりました。これは、極めて厳格な基準であるFDR = 0.05の条件下では「有意差ありとは断定しきれない(保留)」となる一方で、探索的指標として許容されるFDR = 0.10の基準を採用した場合には「有意差あり」と判定されるという、実臨床の判断に委ねられる微妙な境界線上の結果を提示することとなりました。
これらの多角的な分析結果から、臨床的な大筋として、「指標B、指標C、指標Dの3つは、指標Aや新規統合予測スコアと比較して明らかに優れた予測能を有しているが、これら上位3指標の間には統計学的に証明できるほどの有意な優劣は存在しない」という極めて明確な結論が得られました。これにより、医療機関は高価な上位3指標をすべて導入する必要はなく、測定の手軽さやコストの観点から最も運用しやすいものを1つ選択すれば十分であるという、費用対効果に優れた導入計画の決定が可能となりました。
Dr.データサイエンスは、本事例において、単純な指標の比較に潜む統計学的な落とし穴を完全に塞ぎ、医療現場の重要な意思決定を支える揺るぎない客観的根拠を創出しました。