AgentFixer：失敗の検出からLLMエージェント型システムにおける修正推奨まで

arXiv cs.AI / 2026/4/1

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

AgentFixerは、LLMベースのエージェント型システムのための検証フレームワークとして導入され、信頼性の失敗を体系的に診断するために、15の失敗検出ツールと2つの根本原因分析モジュールを組み合わせます。
このフレームワークは、入力ハンドリング、プロンプト設計、出力生成にまたがる弱点を対象とし、軽量なルールチェックと「LLMを裁定者として用いる」評価を組み合わせて、インシデントの検出、分類、修復を行います。
IBM CUGAに適用し、AppWorldおよびWebArenaで評価した結果、この手法は、計画立案（プランナー）の不整合、スキーマ違反、脆弱なプロンプト依存といった反復的な課題を特定しました。
これらの診断に基づき、著者らはプロンプトとコーディング戦略を洗練させ、その性能を改善しつつCUGAベンチマークの結果を維持しました。さらに、Llama 4やMistral Mediumのような中規模モデルが、最前線（フロンティア）モデルに対して精度ギャップを縮められることを可能にします。
本研究では、診断出力をLLMに入力して自己反省と優先順位付けを行うエージェント型の検証ループも探究しており、検証を対話駆動で自己改善するプロセスへと移行し、実運用での利用を見据えています。

Abstract

入力処理、プロンプト設計、出力生成にまたがる信頼性の失敗を体系的に診断し、改善するための、LLMベースのエージェント型システム向けの包括的な検証フレームワークを提案します。このフレームワークには、15の故障検出ツールと、2つの根本原因分析モジュールが含まれており、これらが協調して、弱点を共同で明らかにします。具体的には、入力の取り扱い、プロンプト設計、出力生成の領域に潜む脆弱性を掘り起こします。さらに、軽量なルールベースのチェックと、LLMをジャッジとして用いる評価を統合し、構造化されたインシデント検出、分類、修復を支援します。本フレームワークをIBM CUGAに適用し、AppWorldおよびWebArenaのベンチマークにおいてその性能を評価しました。その分析により、反復的な計画立案の不整合、スキーマ違反、脆いプロンプト依存性などが繰り返し見られることが分かりました。これらの洞察に基づき、プロンプトとコーディング戦略の両方を改良しました。CUGAのベンチマーク結果を維持しつつ、Llama 4やMistral Mediumのような中規模モデルが注目すべき精度向上を達成できるようにし、最前線のモデルとの差を大幅に縮めました。定量的な検証に加えて、探索的な研究も行い、フレームワークの診断出力とエージェントの説明をLLMに入力して自己反省と優先順位付けを行わせました。このインタラクティブな分析により、繰り返し発生する失敗パターンや改善の重点領域に関する実行可能な知見が得られ、検証そのものが、エージェント的で対話主導のプロセスへと進化し得ることを示しました。これらの結果は、生産環境のエージェント型システムにおける、スケーラブルで品質保証可能な、かつ適応的な検証へ向かう道筋を示しており、より頑健で解釈可能で自己改善するエージェント型アーキテクチャのための基盤を提供します。