ADAPT:未指定のアフォーダンス制約下における常識的プランニングのベンチマーク

arXiv cs.AI / 2026/4/17

📰 ニュースModels & Research

要点

  • 本論文は、身体性を持つエージェントが現実世界で起きうる想定外の状況や、指示文に明示されないアフォーダンス情報を考慮すべきだと主張しています。
  • 著者らは、時間とともに物体のアフォーダンスが変化し、指示内にその情報が与えられない動的環境向けのベンチマークDynAffordを提案しています。
  • DynAffordでは、エージェントに対して物体の状態を知覚し、暗黙の前提条件を推論し、それに応じて行動を適応させることが求められます。
  • これを可能にするために、ADAPTというプラグ&プレイのモジュールを導入し、既存プランナに明示的なアフォーダンス推論を追加します。
  • 実験では、ADAPTが見たことのある環境・ない環境の両方で頑健性とタスク成功率を大きく改善し、アフォーダンス推論にはドメイン適応したLoRAファインチューニング済みの視覚言語モデルがGPT-4oより優れることが示されています。

Abstract

知能的な身体化エージェントは、単に指示に従うべきではありません。現実世界の環境では、予期しない状況や例外がしばしば発生するためです。しかし、既存の手法は通常、指示をそのまま直接実行することに焦点が当てられており、対象となる物体を実際に操作できるかどうかを考慮しません。その結果、利用可能なアフォーダンスを評価できずに失敗してしまいます。この制約に対処するため、時間とともに物体のアフォーダンスが変化し、かつ指示文の中では指定されていない動的環境において、身体化エージェントを評価するベンチマーク DynAfford を導入します。DynAfford は、エージェントに物体の状態を知覚し、暗黙の前提条件を推論し、それに応じて行動を適応させることを要求します。この能力を可能にするために、既存のプランナーに明示的なアフォーダンス推論を追加する、プラグアンドプレイ型モジュール ADAPT を導入します。実験により、ADAPT を組み込むことで、見たことのある環境と見ていない環境の両方において、頑健性とタスク成功率が大幅に向上することが示されます。さらに、アフォーダンス推論のバックエンドとして、ドメイン適応し、LoRA で微調整した視覚言語モデルを用いると、商用の LLM(GPT-4o)よりも優れることを示し、タスクに整合したアフォーダンスの基盤化(grounding)の重要性を強調します。