この治療は効く、ということ?医療QAにおける患者の質問の言い回しがLLMの感度に与える影響を評価する

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、専門家が選定した文書を用いた制御されたリトリーバル拡張生成(RAG)セットアップにより、医療QAにおいて患者の質問の言い回しが大規模言語モデル(LLM)の応答にどのように影響するかを調べます。
  • 臨床試験抄録に基づく6,614件のクエリ・ペアのデータセットを用いて、著者らは質問のフレーミング(肯定的 vs. 否定的)と言語スタイル(技術的 vs. 平易な表現)の効果を比較します。
  • 結果として、肯定的/否定的のフレーミング同士のペアは、同じフレーミング同士のペアよりも、有意に矛盾した結論を導きやすいことが示され、基となる証拠が同一であってもフレーミングに対する感度があることがわかります。
  • 不整合はマルチターン会話で増幅され、やり取りを継続するほど、説得(persuasion)に基づく発散が大きくなることが示されています。
  • フレーミングと言語スタイルの間には有意な相互作用は見られず、ハイステークスなRAG医療システムでは「言い回しへの頑健性」を主要な評価基準とすべきだと結論づけています。

要旨: 患者は、医療に関する複雑で、うまく言語化することが難しい質問に対して、大規模言語モデル(LLM)を利用する傾向を強めています。しかし、LLMはプロンプトの表現に敏感であり、質問がどのように言い回されているかによって影響を受けます。理想的には、特に同一の基盤となるエビデンスに基づいている場合、LLMは表現の違いにかかわらず一貫した応答を行うべきです。本研究では、医療の質問応答(QA)において、制御された検索拡張生成(RAG)環境で体系的な評価を行うことでこの点を検討します。ここでは、自動的に検索された文書ではなく、専門家が選定した文書を用います。患者の質問の変化について、2つの次元(質問の枠組み:肯定的 vs. 否定的、言語スタイル:技術的 vs. 平易な言葉)を調べます。臨床試験の抄録に基づいて、6,614件のクエリ・ペアからなるデータセットを構築し、8つのLLMにわたって応答の一貫性を評価します。その結果、同じ枠組みのペアと比べて、肯定的・否定的に枠組み付けされたペアは、相反する結論を生み出す可能性が有意に高いことが示されました。この枠組みの効果は、説得が継続されることで不一致が増大する、多回(マルチターン)の会話においてさらに強まります。枠組みと言語スタイルの間に有意な交互作用は見られませんでした。本研究の結果は、医療QAにおけるLLMの応答が、同一のエビデンスに基づいている場合であっても、クエリの表現だけによって体系的に影響を受け得ることを示しています。これは、高リスク環境におけるRAGベースのシステムの評価指標として、表現の頑健性が重要であることを強調するものです。