環境理解ビジョン言語モデル：身体性エージェント向け

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、指示に従う身体性（embodied）エージェントに向けて環境理解を強化するための、EUEAという枠組みを提案する。
EUEAは「物体知覚」「タスク計画」「行動理解」「目標認識」の4つのスキルを対象に微調整し、エージェントが相互作用の下位目標をより確実に立て、成功可能性を判断できるようにする。
失敗ケースを修正するための代替行動を試すリカバリ手順に加え、不整合なスキル予測を精緻化するGRPO段階を導入している。
ALFREDでの実験では、EUEAが行動模倣（behavior cloning）ベースラインを大きく上回り、平均成功率が8.86%向上し、さらにリカバリとGRPOで追加の3.03%改善が得られた。
スキルレベルの分析により、閉域・オープンソースを含むVLMの環境理解における弱点が明確になり、効果的なエージェント—環境相互作用に必要な能力が示されている。

Abstract

視覚言語モデル（VLM）は、指示に従う身体化エージェントに対して、知覚および推論の能力が非常に高いことを示してきました。しかし、これらの能力や汎化性能があるにもかかわらず、環境理解には依然として制約があり、相互作用に失敗したり、実行中に環境メタデータに依存したりすることがしばしばあります。この課題に対処するために、Environmental Understanding Embodied Agent（EUEA）と名付けた新しい枠組みを提案します。EUEAは、4つの中核スキルを微調整します：1）関連する対象物を同定するための物体知覚、2）相互作用の副目標を生成するためのタスク計画、3）成功可能性を判断するための行動理解、4）目標達成を判定するための目標認識です。EUEAのスキルでVLMを微調整することで、本枠組みは指示に従うタスク実行をより確実に可能にします。さらに、これらの中核スキルを活用するリカバリ手順と、不整合なスキル予測を洗練する集団相対ポリシー最適化（GRPO）段階を導入します。リカバリ手順では、失敗例を修正するために代替行動をサンプリングし、GRPO段階では不整合なスキル予測を洗練します。ALFREDタスクにおいて、私たちのVLMは行動クローン（behavior-cloning）のベースラインを大幅に上回り、平均成功率で8.86%の改善を達成しました。リカバリおよびGRPO段階によりさらに追加で3.03%の向上が得られ、全体の性能が一層高まります。最後に、スキルレベルの分析により、クローズドおよびオープンソースのVLMにおける環境理解の主要な限界を明らかにするとともに、有効なエージェントと環境の相互作用に必要な能力を特定します。