私の言うことを聞くのをやめろ！多回対話は診断推論を劣化させる

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

論文は3つの臨床データセットにわたり17のLLMを評価し、多回の対話が診断推論に与える影響を明らかにする。
対話全体を通じたモデルの確信度と柔軟性を測定する「stick-or-switch」評価フレームワークを導入する。
結果は「会話コスト」を示し、多回の相互作用は単発ベースラインと比較して診断性能を一貫して低下させる。
モデルは初期の正しい診断や安全な棄却を誤ったユーザー提案に合わせるために放棄することが多い。
さらに、いくつかのモデルは盲目的な切り替えを示し、正しい信号と誤った提案を区別できない。

要旨: 患者と臨床医は医療情報の問い合わせのために、LLMs（大規模言語モデル）を搭載したチャットボットをますます利用しています。最先端のLLMsは静的な診断推論のベンチマークでは高い性能を示す一方、現実世界の使用状況をよりよく反映する多回対話における有効性は十分に研究されていない。本論文では、3つの臨床データセットにわたり17のLLMを評価し、意思決定空間を複数のより単純な対話ターンに分割することが、診断推論にどのように影響するかを調べる。具体的には、対話全体を通じて「stick-or-switch」評価フレームワークを開発し、モデルの確信度（すなわち、正しい診断を擁護する、あるいは誤った提案に対して安全に棄却すること）と柔軟性（導入された正しい提案を認識する能力）を測定する。我々の実験は、会話コストを明らかにし、多回の相互作用が単回のベースラインと比較して性能を一貫して低下させることを示している。特に、モデルは初期の正しい診断や安全な棄却を誤ったユーザー提案に合わせるために放棄することが多い。さらに、いくつかのモデルは盲目的な切り替えを示し、信号と誤った提案を識別できない。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

私の言うことを聞くのをやめろ！多回対話は診断推論を劣化させる

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒