CarePilot:医療における長期ホライズンのコンピュータ作業自動化のためのマルチエージェントフレームワーク

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、人手によって注釈された長期ホライズンかつ多段階の医療コンピュータタスクのベンチマークであるCareFlowを紹介する。タスクは医療注釈ツール、DICOMビューア、EHRシステム、検査情報システムにまたがる。
  • 既存の視覚・言語モデルがこのベンチマークで苦戦することを報告している。理由は、長期の推論が不十分であることに加え、実際の医療ソフトウェアのワークフローにおける連続的なインタラクションの扱いが難しいためである。
  • これらの不足に対処するため、著者らはCarePilotを提案する。これは、ツールに基づいて行動を実行するマルチエージェントのアクター・クリティック(actor-critic)フレームワークであり、二種類のメモリ(長期と短期の経験)を用い、エージェントによるシミュレーションを通じて予測を反復的に改善する。
  • クリティック(critic)成分は候補となる行動を評価し、観測された効果に基づいてメモリを更新し、実行用または修正用のフィードバックを提供して、ワークフローを洗練させる。
  • 実験の結果、CarePilotは最先端の性能を達成し、強力なクローズドソースのマルチモーダル基準モデルに対して約15.26%、オープンソースのマルチモーダル基準モデルに対して3.38%向上した。さらに、分布外(out-of-distribution)データセットでも効果が確認された。