AgentFixer:失敗の検出からLLMエージェント型システムにおける修正推奨まで
arXiv cs.AI / 2026/4/1
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- AgentFixerは、LLMベースのエージェント型システムのための検証フレームワークとして導入され、信頼性の失敗を体系的に診断するために、15の失敗検出ツールと2つの根本原因分析モジュールを組み合わせます。
- このフレームワークは、入力ハンドリング、プロンプト設計、出力生成にまたがる弱点を対象とし、軽量なルールチェックと「LLMを裁定者として用いる」評価を組み合わせて、インシデントの検出、分類、修復を行います。
- IBM CUGAに適用し、AppWorldおよびWebArenaで評価した結果、この手法は、計画立案(プランナー)の不整合、スキーマ違反、脆弱なプロンプト依存といった反復的な課題を特定しました。
- これらの診断に基づき、著者らはプロンプトとコーディング戦略を洗練させ、その性能を改善しつつCUGAベンチマークの結果を維持しました。さらに、Llama 4やMistral Mediumのような中規模モデルが、最前線(フロンティア)モデルに対して精度ギャップを縮められることを可能にします。
- 本研究では、診断出力をLLMに入力して自己反省と優先順位付けを行うエージェント型の検証ループも探究しており、検証を対話駆動で自己改善するプロセスへと移行し、実運用での利用を見据えています。




