When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews

arXiv cs.AI / 3/27/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 多人数の医師面接データ(ANDROIDS、DAIC-WOZ、E-DAIC、E-DAIC)を分析し、半構造化臨床面接における「面接官プロンプト」が抑うつ/非抑うつの分類に系統的なバイアスを生むことを示している。
  • 分類モデルは、面接官の定型フレーズや発話位置などの“台本アーティファクト”を手がかりにして高いスコアを出し得ており、参加者(患者)の言語内容を実質的に使っていない場合がある。
  • 面接官ターンを除き参加者発話のみで学習・推論させると、意思決定の根拠がより参加者発話全体に分散され、真に言語的な手がかりを反映しやすくなる。
  • このバイアスはデータセット横断・モデル・アーキテクチャに依存しにくく、プロトコルの一貫性が必ずしも“公平な学習”につながらないことを示唆している。
  • 今後は時間・話者単位で意思決定の根拠を局所化する分析を行い、モデルが患者の言語から学習していることを検証する必要があると結論づけている。

Abstract

Automatic depression detection from doctor-patient conversations has gained momentum thanks to the availability of public corpora and advances in language modeling. However, interpretability remains limited: strong performance is often reported without revealing what drives predictions. We analyze three datasets: ANDROIDS, DAIC-WOZ, E-DAIC and identify a systematic bias from interviewer prompts in semi-structured interviews. Models trained on interviewer turns exploit fixed prompts and positions to distinguish depressed from control subjects, often achieving high classification scores without using participant language. Restricting models to participant utterances distributes decision evidence more broadly and reflects genuine linguistic cues. While semi-structured protocols ensure consistency, including interviewer prompts inflates performance by leveraging script artifacts. Our results highlight a cross-dataset, architecture-agnostic bias and emphasize the need for analyses that localize decision evidence by time and speaker to ensure models learn from participants' language.