両腕ロボットの操作を実現するマルチエージェント・インコンテキスト学習

arXiv cs.RO / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、微調整なしでテキストのみのLLMを少数ショットで使って両腕ロボット操作を行えるようにするBiCICLeという枠組みを提案しています。
両腕の協調が難しい点について、マルチエージェントのリーダー・フォロワー問題として制御を捉え、条件付きの単腕動作を逐次予測することで、LLMのコンテキスト長への負荷を抑えています。
「Arms' Debate」と呼ばれる反復的な改良プロセスを拡張し、さらにLLM-as-Judgeで最も妥当な協調軌道を選ぶ仕組みも導入しています。
TWINベンチマークの13タスクで評価した結果、BiCICLeは最大で平均成功率71.1%を達成し、最良の“学習なし”ベースラインを6.7ポイント上回り、多くの教師あり手法も上回りました。
評価に用いなかった新しいタスクに対しても、少数ショットでの汎化が強いことを示しています。

概要: 言語モデル（LLM）は、身体化された制御のための強力な推論エンジンとして登場してきました。とりわけ、イン・コンテキスト学習（ICL）は、タスク固有の学習なしに、既製のテキストのみのLLMがロボットの行動を予測できるようにしつつ、その汎化能力を維持します。双腕（バイマニュアル）操作にICLを適用することは、関節の高次元な行動空間と、腕間の密な協調という制約によって、標準的なコンテキストウィンドウが急速に限界に達してしまうため、依然として困難です。これに対処するために、我々はBiCICLe（Bimanual Coordinated In-Context Learning）を提案します。BiCICLeは、微調整なしで少数ショットの双腕操作を標準的なLLMに可能にする最初の枠組みです。BiCICLeは、双腕の制御をマルチエージェントのリーダー・フォロワー問題として捉え、行動空間を、条件付けられた単腕の逐次予測へとデカップリングします。これは自然に、反復的な洗練プロセスであるArms' Debateへと拡張され、さらに、最ももっともらしい協調軌道を評価して選択するための第3のLLM-as-Judge（LLMを裁定者として用いる）を導入することにもつながります。TWINベンチマークの13タスクで評価したところ、BiCICLeは最大71.1%の平均成功率を達成し、最良の学習不要（training-free）ベースラインを6.7パーセンテージポイント上回り、ほとんどの教師あり手法を上回りました。さらに、未知のタスクに対しても強力な少数ショットの汎化能力を示します。