Mini-BEHAVIOR-Gran：指示の粒度が言語誘導型の身体性エージェントに与えるU字型の効果を明らかにする

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、言語誘導型の身体性（embodied）エージェントにおいて、指示の粒度が行動に及ぼす影響を制御して検証するための新しいベンチマーク「Mini-BEHAVIOR-Gran」を提案している。
従来のベンチマークがタスクごとに単一の静的指示を用いるのに対し、本ベンチマークでは高レベルの目標記述から手順ごとの詳細ガイダンスまで、タスクごとに複数の指示バリエーションを提供する。
指示の粒度をタスク間で定量化する4つの指標（トークン数、エンティティ数、アクション動詞数、planning-width）を比較し、planning-widthがエージェント性能との相関が最も一貫していることを示している。
planning-widthを用いて学習・評価を整理すると、指示の粒度と性能の関係が単調ではなく、非常に細かい場合と非常に粗い場合の両端でピークを持つU字型になることが分かる。
粗い粒度での性能の持ち直しは、浅いグラウンディングに起因し、エージェントが指示を深く結びつけるよりも視覚優位のポリシーを学習しやすくなることが示唆されている。

要旨: 指示の粒度は、言語によるガイド付きの身体性AIにおいて重要である一方、十分に制御されていない変数です。既存のベンチマークでは通常、各タスクに対して1つの静的な指示が対応づけられており、同じタスクを異なるレベルの詳細さで記述した場合にエージェントのふるまいがどのように変化するかを研究することが困難です。本研究では、Mini-BEHAVIOR-Granという、新たに指示の粒度を制御した研究のためのベンチマークを導入します。これは、各タスクに対して複数の指示バリアント（高レベルの目標記述から、手順ごとのガイダンスまで）を設けることで、Mini-BEHAVIORを拡張したものです。このベンチマークを用いて、タスクをまたいだ粒度の定量化のための4つの候補指標（トークン数、エンティティ数、行動動詞数、planning-width）を比較し、その結果、widthがエージェントの性能と最も一貫して相関することを見いだします。さらに、widthを用いて学習と評価を整理すると、指示の粒度と性能の間に単調ではないU字型の関係が現れます。性能のピークは、細かい極端と粗い極端の両方に存在します。追加の分析により、この粗い粒度における性能の反発は、浅いグラウンディング（deepではないグラウンディング）に関連していることが示唆されます。すなわち、エージェントは視覚優位のポリシーを学習するのです。