環境理解ビジョン言語モデル:身体性エージェント向け
arXiv cs.CV / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、指示に従う身体性(embodied)エージェントに向けて環境理解を強化するための、EUEAという枠組みを提案する。
- EUEAは「物体知覚」「タスク計画」「行動理解」「目標認識」の4つのスキルを対象に微調整し、エージェントが相互作用の下位目標をより確実に立て、成功可能性を判断できるようにする。
- 失敗ケースを修正するための代替行動を試すリカバリ手順に加え、不整合なスキル予測を精緻化するGRPO段階を導入している。
- ALFREDでの実験では、EUEAが行動模倣(behavior cloning)ベースラインを大きく上回り、平均成功率が8.86%向上し、さらにリカバリとGRPOで追加の3.03%改善が得られた。
- スキルレベルの分析により、閉域・オープンソースを含むVLMの環境理解における弱点が明確になり、効果的なエージェント—環境相互作用に必要な能力が示されている。




