大規模な質問バンクから最適な質問を選択する:会話型精神科問診におけるフィールド回復のために

arXiv cs.AI / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、精神科の問診を、臨床的に根拠のある質問をどの順序で尋ねるか、曖昧・不完全な回答をどう扱うかを、時間制約の中で順次に意思決定する高リスクな問題として位置付けています。
  • 臨床現場の655件の質問と、5つの行動条件を含む合成患者ヴィネットを組み合わせた、会話型の「フィールド回復」を制御して評価できる専用ベンチマークを新たに提示しています。
  • 300の模擬インタビューセッションでの実験では、固定の臨床順序フォームがランダム質問より大きく優位であり、LLMガイドの適応的な質問選択ポリシーが全体として最も高い回復性能を示しました。
  • 特に、情報回復が難しい患者行動のときにLLMガイド方針の効果が大きくなり、とりわけ「警戒的で簡潔」な応答条件で改善が顕著でした。
  • これらの結果は、会話型の臨床システムの性能が言語理解だけでなく、限られた対話予算の中で適切なトピックに到達できるか、臨床構造に沿えるかにも依存することを強調しています。

要旨: 精神科の初診聴取は、臨床家が、何を、どの順序で尋ねるべきか、さらに限られた時間のもとで、不完全または曖昧な回答をどのように解釈するかを判断しなければならない、逐次的で高いリスクを伴う情報収集プロセスである。医療分野における会話型AIへの関心は高まっているものの、この用途における会話型AIのための基盤は依然として十分に整備されていない。そこで本研究では、本課題を、臨床的に根拠づけられた質問、既知の対象情報、そして制御可能な患者の難易度を用いた「質問選択」の問題として定式化する。加えて、655件の臨床家が作成した初診聴取質問群と、それに対応する5種類の行動条件を持つ合成患者ヴィネットに基づく、課題特化型の質問選択ベンチマークを提案する。評価では、ランダムな質問、臨床精神科初診用フォームのベースライン、そして4人の患者と5つの行動条件にまたがる300の面接セッションに対してLLMに導かれた適応方策を比較する。ベンチマーク全体を通じて、臨床的に順序づけられた固定フォームがランダムな質問を大幅に上回り、LLMに導かれた方策が全体として最も強い情報回復を達成する。適応の利点は、フィールドでの回復が困難な患者行動のもとで特に、警戒的かつ簡潔な条件で急速に拡大する。これらの結果は、会話型の臨床システムにおける性能が、情報開示後の言語理解だけに依存するのではなく、限られた対話予算の中でシステムが適切なトピックに到達できるかどうかにも左右されることを示唆している。より広い意味で、本ベンチマークは、臨床的な構造と適応的なフォローアップが、インタラクティブな臨床機械学習における情報回復にどのように寄与するかを研究するための、制御された枠組みを提供する。