ポリシーの先へ：相互作用をベンチマークする—協調的インスタンス物体ナビゲーションの再現可能なベンチマーク

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、協調的インスタンス物体ナビゲーション（CoIN）に対する、実装可能で再現可能なベンチマークとして初めてのQAsk-Navを提案し、身体性を伴うナビゲーション性能と、人間らしい質問のやり取りの相互作用を別々に評価する。
QAsk-Navは部分観測を前提とし、視点中心（エゴセントリック）の視覚に加えてインタラクティブな自然言語対話を用いることで、見た目が似ている複数の物体インスタンス間の曖昧さを解消するためにエージェントが質問できるように設計されている。
本ベンチマークには、軽量で独立にスコア可能な質問-やり取りプロトコル、現実的で多様かつ高品質な目標記述を用いた強化ナビゲーションプロトコル、そして品質チェック済みの推論・質問-やり取りトレースを28,000件含むオープンソースのデータセットが含まれる。
QAsk-Navを用いて著者らは、Light-CoNavという軽量な統一モデルを提示している。これは、従来のモジュール型アプローチと比べて3倍小型かつ70倍高速であると報告されており、未見の物体や環境に対してより強い汎化性能を達成している。

要旨: 本稿では、協調的インスタンス物体ナビゲーション（CoIN）のための最初の再現可能なベンチマークである、Question-Asking Navigation（QAsk-Nav）を提案する。これは、身体化されたナビゲーションと協調的な質問の行動（question asking）を、明示的に別々に評価できることを可能にする。CoINタスクでは、部分観測の下で、自発的な自然言語の形式で指定された目標に到達するよう、身体化されたエージェントに対して課題を与える。エージェントは、視点視野の視覚観測と、人間との間の相互作用的な自然言語対話のみを用いる。ここで、対話は、見た目が似ている物体インスタンス間の曖昧さを解消するのに役立つ。既存のCoINベンチマークは主にナビゲーションの成功に焦点が当てられており、協調的な相互作用を一貫して評価するための支援を提供していない。この制約に対処するため、QAsk-Navは (i) ナビゲーションとは独立に採点される軽量な質問提示（question-asking）プロトコル、(ii) 現実的で多様、かつ高品質な目標記述を備えた強化版ナビゲーションプロトコル、そして (iii) トレーニングとCoINモデルの対話的能力の分析のための、28,000件の品質チェック済みの推論および質問提示トレースを含むオープンソースのデータセット、を提供する。提案するQAsk-Navベンチマークを用いて、Light-CoNavという軽量な協調ナビゲーションのための統一モデルを開発する。これは、既存のモジュール型手法より3倍小さく、70倍高速であり、未見の物体や環境への一般化において最先端のCoINアプローチを上回る。プロジェクトページは https://benchmarking-interaction.github.io/