Evo-MedAgent：記憶し、振り返り、改善するエージェントで「ワンショット診断」を超える

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

Evo-MedAgentは、胸部X線の解釈向けの新しいツール併用LLM医療エージェントであり、各症例を単独で処理してしまう従来の限界に対処します。
3つのテスト時メモリ要素として、(1)類似症例から問題解決経験を引き出すレトロスペクティブ・クリニカル・エピソード、(2)反省（リフレクション）で進化する適応的手続きヒューリスティック、(3)ツールごとの信頼性を追跡するツール信頼性コントローラを備えます。
ChestAgentBenchでの実験では、GPT-5-miniでMCQ精度が0.68から0.79へ、Gemini-3 Flashで0.76から0.87へと大きく向上しました。
追加学習は不要で、1ケースあたりのオーバーヘッドは追加の1回の検索パスと単一のリフレクション呼び出しに抑えられるため、凍結済みの基盤モデルの上に導入できます。
全体として、外部ツールのオーケストレーションだけに頼るよりも、症例間で進化するメモリが診断タスクの質的性能をより効果的に改善し得ると主張しています。

要旨: ツールで補強された大規模言語モデル（LLM）エージェントは、専門の分類器、セグメンテーションモデル、視覚質問応答モジュールを統括して胸部X線を解釈することができます。しかし、これらのエージェントは依然として各症例を個別に処理します。つまり、症例間で経験を蓄積できず、繰り返し起こる推論ミスを修正できず、また、高価な強化学習を伴わずにツール利用の振る舞いを適応できません。放射線科医は症例を重ねるほど自然に上達しますが、現在のエージェントは静的なままです。本研究では、検査時（test time）に症例間学習を可能にする医療エージェント向けの自己進化型メモリモジュールであるEvo-MedAgentを提案します。メモリは3つの相補的な記憶領域から構成されます：(1)~
\emph{遡及的な臨床エピソード}：類似した過去症例から問題解決の経験を検索する領域、(2)~
\emph{適応的な手続き的ヒューリスティック}：反省（reflection）によって進化する、優先度タグ付きの診断ルールを収集・管理するバンク（医師が内部基準を磨いていくのと同様）、および(3)~
\emph{ツール信頼性コントローラ}：ツールごとの信頼性を追跡する領域です。ChestAgentBenchにおいて、Evo-MedAgentはGPT-5-miniで多肢選択問題（MCQ）の精度を0.68から0.79へ、またGemini-3 Flashで0.76から0.87へと引き上げます。強力な基盤モデルがある場合、進化するメモリは、定性的な診断タスクにおいて外部ツールを統括することよりも、より効果的に性能を向上させます。Evo-MedAgentは学習（トレーニング）を必要としないため、症例あたりのオーバーヘッドは追加の検索1回と単一の反省呼び出しにより上限が定まり、任意の凍結済みモデルの上にそのままデプロイ可能です。