要旨: 大規模言語モデル(LLM)は医療領域の質問応答(medical QA)において強い性能を達成しており、連鎖思考(CoT)プロンプトは、明示的な中間推論を引き出すことで結果をさらに改善しています。一方で、自己内省的(自己修正的)プロンプトは、LLMに自らの推論を批評し修正させることでモデルの信頼性を高めると広く主張されてきましたが、安全性が重大な医療設定における有効性は依然として不明です。本研究では、医療の多肢選択式質問応答における自己内省的推論の探索的分析を行います。GPT-4o と GPT-4o-mini を用いて、標準的な CoT プロンプトと、反復的な自己内省ループを比較し、3つの広く用いられている医療QAベンチマーク(MedQA、HeadQA、PubMedQA)において、内省ステップを通じて予測がどのように変化するかを追跡します。自己内省が、誤りの訂正、誤りの持続、あるいは新たな誤りの導入につながるかどうかを分析します。その結果、自己内省的プロンプトは一貫して精度を改善するわけではなく、その影響はデータセットおよびモデルに強く依存することが示されました。MedQA ではわずかな改善が得られる一方で、HeadQA と PubMedQA では限定的、あるいは負の利益しか得られず、内省ステップ数を増やしてもより良い性能が保証されるわけではありません。これらの知見は、「推論の透明性」と「推論の正確さ」の間にギャップがあることを示しており、自己内省的推論は医療QAの信頼性を改善するための単独の解決策というより、モデル挙動を理解するための分析ツールとしてより適切に捉えられるべきだと示唆しています。
大規模言語モデルは医療の質問応答で自己修正できるのか?探索的研究
arXiv cs.CL / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、自己省察(自己修正的)なプロンプトによって、大規模言語モデルの医療分野の多肢選択式質問応答における正確性が、チェーン・オブ・ソート(CoT)プロンプトを超えて改善されるかどうかを検証する。
- GPT-4oおよびGPT-4o-miniを用い、標準的なCoTと、反復的な自己反省ループを比較し、MedQA、HeadQA、PubMedQAにおいて、反省ステップを重ねるごとに回答がどのように変化するかを観察する。
- 結果として、自己反省は常に精度を向上させるわけではなく、MedQAでは有益性が限定的(控えめ)である一方、HeadQAとPubMedQAでは効果が限定的、あるいは負の影響さえ見られる。
- 反省ステップ数を増やしてもパフォーマンスが確実に向上するわけではなく、逓減する効果(diminishing returns)や、誤りが残存すること、あるいは新たな誤りが導入される可能性が示唆される。
- 論文は、自己省察的推論は、医療QAの信頼性を改善するための信頼できる安全性重視の手法というよりも、モデル挙動の分析により有用である可能性があると結論づけている。




