どこで失敗したのか？ビジョン＆言語ナビゲーション・エージェントに対する能力指向の失敗要因特定

arXiv cs.AI / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

ビジョン＆言語ナビゲーション（VLN）の身体性エージェントは知覚・記憶・計画・意思決定など複数の能力が相互に依存するため、既存のシステム全体のテストではどの能力の欠陥が失敗の原因かを特定しにくい。
本論文は、適応的なテスト生成、能力ごとの「オラクル」、およびフィードバック機構を組み合わせて失敗を検出し、特定の能力に帰属させる能力指向のテスト手法を提案する。
テストケースはシード選択と突然変異（ミューテーション）によって生成し、静的な評価に頼らず失敗モードをより効果的に探索する。
実験では、この手法が従来のベースラインよりも多くの失敗ケースを見つけ、能力レベルでの弱点をより正確に特定できることが示されている。
得られる失敗の帰属は、解釈可能で実行しやすく、身体性エージェントの改善に役立てることを狙っている。

要旨: Vision-Language Navigation（VLN）のような安全性が重要なアプリケーションにおける身体化エージェントは、複数の相互に依存する能力（例：知覚、記憶、計画、意思決定）に依拠しているため、失敗を特定し、帰属させることが困難です。既存のテスト手法は主としてシステム全体のレベルであり、どの能力の欠陥がタスク失敗の原因になっているのかについての限定的な洞察しか提供しません。そこで本研究では、(1) シード選択と突然変異による適応的なテストケース生成、(2) 能力特有の誤りを特定するための能力オラクル、(3) 失敗を能力へ帰属させ、さらなるテスト生成を導くフィードバック機構、を組み合わせることで、失敗の検出と帰属を可能にする能力志向のテストアプローチを提案します。実験の結果、提案手法は、最先端のベースラインよりも多くの失敗ケースを発見し、能力レベルの欠陥をより正確に特定できることが示されました。これにより、身体化エージェントを改善するための、より解釈可能で実行可能なガイダンスを提供します。