ADAPT：未指定のアフォーダンス制約下における常識的プランニングのベンチマーク

arXiv cs.AI / 2026/4/17

📰 ニュースModels & Research

共有:

要点

本論文は、身体性を持つエージェントが現実世界で起きうる想定外の状況や、指示文に明示されないアフォーダンス情報を考慮すべきだと主張しています。
著者らは、時間とともに物体のアフォーダンスが変化し、指示内にその情報が与えられない動的環境向けのベンチマークDynAffordを提案しています。
DynAffordでは、エージェントに対して物体の状態を知覚し、暗黙の前提条件を推論し、それに応じて行動を適応させることが求められます。
これを可能にするために、ADAPTというプラグ＆プレイのモジュールを導入し、既存プランナに明示的なアフォーダンス推論を追加します。
実験では、ADAPTが見たことのある環境・ない環境の両方で頑健性とタスク成功率を大きく改善し、アフォーダンス推論にはドメイン適応したLoRAファインチューニング済みの視覚言語モデルがGPT-4oより優れることが示されています。

Abstract

知能的な身体化エージェントは、単に指示に従うべきではありません。現実世界の環境では、予期しない状況や例外がしばしば発生するためです。しかし、既存の手法は通常、指示をそのまま直接実行することに焦点が当てられており、対象となる物体を実際に操作できるかどうかを考慮しません。その結果、利用可能なアフォーダンスを評価できずに失敗してしまいます。この制約に対処するため、時間とともに物体のアフォーダンスが変化し、かつ指示文の中では指定されていない動的環境において、身体化エージェントを評価するベンチマーク DynAfford を導入します。DynAfford は、エージェントに物体の状態を知覚し、暗黙の前提条件を推論し、それに応じて行動を適応させることを要求します。この能力を可能にするために、既存のプランナーに明示的なアフォーダンス推論を追加する、プラグアンドプレイ型モジュール ADAPT を導入します。実験により、ADAPT を組み込むことで、見たことのある環境と見ていない環境の両方において、頑健性とタスク成功率が大幅に向上することが示されます。さらに、アフォーダンス推論のバックエンドとして、ドメイン適応し、LoRA で微調整した視覚言語モデルを用いると、商用の LLM（GPT-4o）よりも優れることを示し、タスクに整合したアフォーダンスの基盤化（grounding）の重要性を強調します。

langchain-anthropic==1.4.1 の変更点

LangChain Releases

お気に入りのゲームキャラと会話しよう！MantellaがSkyrimとFallout 4のNPCにAIを導入

Dev.to

OpenAI、macOSオートメーションとメモリを備えたCodexアップデートを公開—週300万人利用

Dev.to

Claude Opus 4.7登場｜「Mythosの体験版？」サイバーセキュリティ対応モデルの性能とは

Innovatopia

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

AI-SCHOLAR

ADAPT：未指定のアフォーダンス制約下における常識的プランニングのベンチマーク

要点

Abstract

関連記事

langchain-anthropic==1.4.1 の変更点

お気に入りのゲームキャラと会話しよう！MantellaがSkyrimとFallout 4のNPCにAIを導入

OpenAI、macOSオートメーションとメモリを備えたCodexアップデートを公開—週300万人利用

Claude Opus 4.7登場｜「Mythosの体験版？」サイバーセキュリティ対応モデルの性能とは

Diffusion Policy : 拡散モデルでロボットを動かす！ロボットがピザを作れる時代に！？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer