Chain Of Interaction Benchmark（COIN）：推論が体現型インタラクションに出会うとき

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、部分観測の下での長期タスクにおける、体現型エージェントの「因果に依存する相互作用を伴う推論」を評価するためのベンチマーク「Chain Of Interaction Benchmark（COIN）」を提案する。
COINは、COIN-50（50の生活シーンに基づく対話的タスク）、COIN-Primitive（因果に依存するプリミティブ課題）、COIN-Composition（中期間の複合スキル学習と汎化評価）から構成される。
著者らは、低コストなモバイルARテレオペレーション環境を開発し、プリミティブごとに50デモ（合計1,000件）からなるデータセットを収集した。
実行の安定性と汎化の頑健性に焦点を当てた体系的な評価指標を提案し、CodeAsPolicy、VLA、言語条件付きH-VLAといった手法に適用した。
評価では、現行モデルが視覚理解と運動実行の間に大きなギャップを抱えており、論文はその問題点をきめ細かく分析している。