ホーム 一覧 実績の紹介 患者報告アウトカム調査における尺度別相関分析と多変量ロジスティック回帰

患者報告アウトカム調査における尺度別相関分析と多変量ロジスティック回帰

※本記事は、実際の解析実績を基に作成しておりますが、お客様との秘密保持契約(NDA)の観点により、医学・医療分野という枠組みは維持しつつ、疾患名や変数などの具体的な内容を実際の事例から大きく改変して記述しております。あらかじめご了承ください。

本事例は、過敏性腸症候群(IBS)に代表される機能性消化管疾患の患者群を対象として実施された、大規模な患者報告アウトカム(PRO:Patient-Reported Outcome)調査票データの解析事例です。患者の主観的な症状の強さや生活習慣を問う調査票のデータは、体重や血圧のような連続的な数値ではなく、「はい・いいえ」で答える名義尺度や、「全くない〜非常によくある」といった順序尺度で構成されています。これらのデータを連続変数と同じように扱って単純な統計処理を施すと、医学的に誤った結論を導く危険性が極めて高くなります。

本分析を通じて、単なる単純集計にとどまりがちな調査票データに対し、各設問のデータの性質(尺度水準)を厳格に見極め、それぞれに最適な統計学的手法を組み合わせることで、患者の背景因子が「症状が悪化した際の具体的な行動(受診する、市販薬を飲む、外出を控える等)」にどのような影響を与えているかを定量的に評価することを目指しました。Dr.データサイエンスは、論理的な欠測値処理から高度な多変量解析に至る一連の解析手順を緻密に構築し、患者の生活の質(QOL)向上に向けた具体的な生活指導の指針となる客観的根拠の創出に貢献しました。

分析背景・目的

本事例では、全国の医療機関を受診する対象疾患の患者数千名規模に対して実施された詳細な生活習慣・症状調査において、「どのような生活習慣の乱れやストレスが、症状増悪時のネガティブな行動(社会活動の制限など)に強く結びついているのか」を明らかにすることが求められました。

調査票から得られる主観的な評価データは、医療現場において患者の苦痛を理解するための極めて重要な情報源です。しかし、自由回答や複数選択形式、段階評価など、設問によって回答の形式が多岐にわたるため、これらを統合的に解析して一貫したエビデンスを抽出することは容易ではありません。本分析の主な目的は、多岐にわたる設問から得られたデータを適切な統計モデルに落とし込み、各因子間の相関関係を網羅的に把握した上で、「外出を控える」といった特定の行動を引き起こす最も強力な要因(オッズ比)を特定することでした。

データと変数

本分析では、調査票への回答から得られた主観的評価データを使用しました。解析に先立ち、回答の整合性を保つための論理的なデータ整形(クリーニング)を実施しました。例えば、「症状は全くない」と回答しているにもかかわらず、「症状を抑えるための頓服薬の使用頻度」が無回答となっている場合、これを単なる欠損値(データなし)として除外するのではなく、論理的に「使用頻度は最も少ない値(ゼロ)」として補完処理を行いました。主要な分析対象変数は以下の通りです。

    • 名義尺度変数:性別、特定の食品(高FODMAP食など)の摂取習慣の有無(はい/いいえ)など。
    • 順序尺度変数:過去1ヶ月の症状の頻度(1: 全くない 〜 5: 毎日ある)、睡眠の質(5段階評価)、主観的ストレスレベル(10段階評価)、年齢群(20代、30代など)など。
    • 目的変数(ダミー変数):複数回答形式の設問「症状が悪化した際にどのような行動をとりますか」の各選択肢(「市販薬を飲む」「仕事を休む」「外出を控える」など)を、それぞれ「選択した=1、選択しなかった=0」の二値変数(ダミー変数)に変換して使用しました。

分析手法

本事例では、変数の持つ尺度水準の違いを厳格に区別し、データの持つ情報を最大限かつ正確に引き出すため、以下の統計手法を選択・適用しました。

  1. 尺度水準に応じた相関分析と関連性評価
    • 採用した手法:スピアマンの順位相関係数、クラメールの連関係数、コクラン・アーミテージ検定
      調査票データの変数は尺度が混在しているため、手法を厳格に使い分けました。
      ・「睡眠の質(順序尺度)」と「症状の頻度(順序尺度)」のように、順序に意味がある変数間の相関には、スピアマンの順位相関係数を採用しました。
      ・「性別(名義尺度)」と「特定食品の摂取の有無(名義尺度)」のようなカテゴリ変数間の関連性の強さを評価するためには、クラメールの連関係数を採用しました。係数が0.50以上のものを「相関あり」、0.70以上のものを「強い相関あり」として抽出しました。
      ・「年齢群(順序尺度)」と「特定行動の有無(名義尺度)」のように、段階的に変化する要因が特定の割合にどう影響するか(傾向性があるか)を評価するためには、コクラン・アーミテージ検定を採用し、そのp値を用いて関連性を評価しました。
    • 採用しなかった手法:ピアソンの相関係数
      ピアソンの相関係数は、身長や体重のような「等間隔の連続数値」であることを前提とします。アンケートの「1: 全くない」と「2: たまにある」の間隔が、「4: よくある」と「5: 毎日ある」の間隔と数学的に等しいという保証はどこにもありません。このような順序尺度に対して無理にピアソンの相関係数を適用すると、相関の強さを完全に誤って評価してしまうため、本解析では一切使用しませんでした。
  2. 多群間の差の評価
    • 採用した手法:クラスカル・ウォリス検定
      「年代群(20代〜70代以上の6群)」という3つ以上のグループ間において、「症状の頻度(順序尺度)」に差があるかどうかを評価するために採用しました。これは正規分布を仮定しないノンパラメトリックな手法であり、調査票データの群間比較に最適です。
    • 採用しなかった手法:一元配置分散分析(ANOVA)
      一元配置分散分析は、データが正規分布に従い、各群のばらつき(分散)が等しいことを前提とします。調査票の回答スコアは特定の回答に偏ることが多く、正規分布の仮定を満たさないため、不適切と判断して見送りました。
  3. 行動要因の多変量評価
    • 採用した手法:多変量ロジスティック回帰分析
      「外出を控える」といった特定の行動(0か1のダミー変数)を引き起こす要因を特定するため、相関分析で有意であった複数の説明変数(睡眠の質、ストレスレベルなど)を同時に投入した多変量ロジスティック回帰分析を実施しました。これにより、変数間の相互影響(交絡)を調整した上で、それぞれの要因が独立して行動に与える影響力を「オッズ比」として算出しました。

主な結果の概要と臨床的考察

緻密な相関分析と関連性評価の結果、個々の生活習慣と症状の間に複雑な結びつきがあることが明らかになりました。例えば、スピアマンの順位相関係数により、「主観的ストレスレベル(順序)」と「症状の頻度(順序)」の間に中等度以上の有意な正の相関が確認されました。また、コクラン・アーミテージ検定により、「年齢群(順序)」が上がるにつれて、「特定の脂質を多く含む食品の摂取(名義)」の割合が有意に減少する傾向( p = 0.004 )が認められました。

クラスカル・ウォリス検定を用いた群間比較では、年齢群によって症状の頻度に明確な統計的有意差が認められ( p = 0.021 )、若年層ほど症状の頻度が高いことが示唆されました。

さらに、多変量ロジスティック回帰分析の結果、目的変数である「外出を控える(社会活動の制限)」という行動に対して、「症状の頻度」だけでなく、「主観的ストレスレベル」が独立して極めて強い影響を与えていることが判明しました。具体的には、主観的ストレスレベルが1段階悪化するごとに、外出を控えるという行動をとるオッズ比が1.85倍( p = 0.012 )に上昇することが定量的に示されました。

これらの結果から、患者の社会生活への悪影響(外出控えなど)を予防するためには、単に消化管症状そのものを抑える薬物療法だけでなく、背景にあるストレスコントロールなどの心理社会的アプローチや、若年層に特化した生活指導が極めて重要であるという、包括的な診療方針の立案に向けた確固たるエビデンスが得られました。

Dr.データサイエンスの貢献

Dr.データサイエンスは、本事例において、主観的で扱いの難しい調査票データに対して適切な統計学的アプローチを徹底し、曖昧な傾向を強固な臨床的エビデンスへと昇華させました。

  1. データの性質に適合した厳密な手法選択
    • データの尺度(名義・順序)を正確に識別し、ピアソンの相関係数や分散分析といった前提条件の合わないパラメトリック手法を完全に排除しました。スピアマン、クラメール、コクラン・アーミテージ検定、クラスカル・ウォリス検定といったノンパラメトリック手法を適切に使い分けることで、統計学的誤謬を防ぎ、解析結果の信頼性を担保しました。
  2. 論理的なデータ補完による情報損失の防止
    • 「無回答」を単なる欠損値として切り捨てるのではなく、他の設問の回答状況から論理的に推測可能な場合は適切な値(最小値など)を補完する処理を行いました。これにより、貴重な患者データを無駄にすることなく、十分な標本サイズを維持したまま精度の高い解析を実現しました。
  3. 多変量モデルによる真の要因の抽出と意思決定への寄与
    • 単純集計や二変数間の相関にとどまらず、多変量ロジスティック回帰分析を用いて交絡因子を調整することで、「社会活動を制限させる最も強力な要因は何か」をオッズ比という明確な数値で示しました。これにより、現場の医師が「どの患者に対して、どのような指導を優先すべきか」という具体的な介入計画を策定するための、極めて実践的な知見を提供しました。

© 2023 Dr.データサイエンス. All Rights Reserved.