一貫性がバイアスになるとき:半構造化臨床面接における面接官効果

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 多人数の医師面接データ(ANDROIDS、DAIC-WOZ、E-DAIC、E-DAIC)を分析し、半構造化臨床面接における「面接官プロンプト」が抑うつ/非抑うつの分類に系統的なバイアスを生むことを示している。
  • 分類モデルは、面接官の定型フレーズや発話位置などの“台本アーティファクト”を手がかりにして高いスコアを出し得ており、参加者(患者)の言語内容を実質的に使っていない場合がある。
  • 面接官ターンを除き参加者発話のみで学習・推論させると、意思決定の根拠がより参加者発話全体に分散され、真に言語的な手がかりを反映しやすくなる。
  • このバイアスはデータセット横断・モデル・アーキテクチャに依存しにくく、プロトコルの一貫性が必ずしも“公平な学習”につながらないことを示唆している。
  • 今後は時間・話者単位で意思決定の根拠を局所化する分析を行い、モデルが患者の言語から学習していることを検証する必要があると結論づけている。

要旨: 医師—患者の会話からの自動抑うつ検出は、公的コーパスの利用可能性や言語モデリングの進歩により勢いを増してきた。だが、解釈可能性は依然として限られている。強い性能が報告される一方で、予測を駆動している要因が何かは明らかにされないことが多い。私たちは3つのデータセット、ANDROIDS、DAIC-WOZ、E-DAICを分析し、半構造化インタビューにおける面接官プロンプトから生じる体系的バイアスを同定する。面接官の発話で訓練されたモデルは、固定されたプロンプトや位置を利用して、抑うつ群と対照群を区別し、しばしば参加者の言語を用いずに高い分類スコアを達成する。モデルを参加者の発話に限定すると、判断の根拠となる証拠がより広く分配され、実際の言語的手がかりを反映する。半構造化プロトコルは一貫性を保証するとはいえ、面接官プロンプトを含めることは、スクリプトのアーティファクトを利用することで性能を押し上げる。我々の結果は、データセット横断かつアーキテクチャに依存しないバイアスを示し、モデルが参加者の言語から学習していることを確認するために、時間と話者により判断の根拠を局在化する分析の必要性を強調する。

一貫性がバイアスになるとき:半構造化臨床面接における面接官効果 | AI Navigate