マルチエージェントシステムにおける失敗原因帰属の再考：マルチ視点ベンチマークと評価

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

既存のマルチエージェントシステム（MAS）の失敗原因帰属ベンチマークや手法は、複雑なエージェント間依存や曖昧な実行経路により、実際の失敗では複数のもっともらしい帰属が生じうるにもかかわらず、しばしば単一の決定論的な根本原因を前提としている。
本論文は、「単一の最良」な説明に無理に収束させるのではなく、帰属の曖昧性を明示的にモデル化するマルチ視点の失敗原因帰属パラダイムを提案する。
MASにおけるマルチ視点の失敗原因帰属のために特化した、新しいベンチマークおよび評価プロトコルとしてMP-Benchを導入する。
実験の結果、LLMが失敗原因帰属を苦手とするという先行主張は、主に先行ベンチマーク設計の不備によって引き起こされていたことが示され、新しいマルチ視点の設定によってより現実的な結論が得られる。
著者らは、MASのデバッグや信頼性向上には、誤解を招く評価を避けるためにマルチ視点のベンチマークと評価プロトコルが必要だと主張する。

Abstract

障害の帰属（failure attribution）はマルチエージェントシステム（MAS）の診断および改善に不可欠であるにもかかわらず、既存のベンチマークや手法は主として、各障害に対して単一の決定論的な根本原因があることを前提としている。実際には、MASの障害は、エージェント間の複雑な依存関係や曖昧な実行軌跡（execution trajectories）により、複数のもっともらしい帰属を許すことが多い。本研究では、MASの障害帰属を多視点の観点から改めて検討し、帰属の曖昧さを明示的に考慮する実用的なパラダイムである「多視点障害帰属（multi-perspective failure attribution）」を提案する。この設定を支援するために、MP-Benchを導入する。これはMASにおける多視点障害帰属のために設計された最初のベンチマークであり、さらに、このパラダイムに合わせた新しい評価プロトコルも提案する。広範な実験を通じて、LLMは障害帰属が難しいという先行結論は、主として既存ベンチマーク設計の制約によって引き起こされていることを見いだす。我々の結果は、現実的で信頼できるMASデバッグのためには、多視点ベンチマークおよび評価プロトコルが必要であることを示している。