広告

タスク・トークン:行動基盤モデルを適応させるための柔軟なアプローチ

arXiv cs.RO / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、「タスク・トークン」という手法を導入し、ゼロショットの柔軟性を損なうことなく、トランスフォーマー型行動基盤モデル(BFM)を特定の制御タスクへ適応させる方法を示す。
  • タスク・トークンは、元のBFMを凍結したまま、強化学習によりタスク固有のエンコーダを学習し、タスクに関係する情報を追加トークンとしてモデルの入力ストリームへ注入する。
  • このアプローチは、ユーザーが定義した事前知識(prior)をタスク適応へより直接的に影響させることで、報酬設計とプロンプトエンジニアリングのバランスを取ることを目的としている。
  • 複数のタスク(分布外設定を含む)にわたる実験により、一般化特性を維持しつつ性能が向上し、さらに他のプロンプト手法との互換性も保たれることが示される。

Abstract

近年の模倣学習の発展により、人型エージェントに対して多モーダルで人間らしい制御を可能にする、トランスフォーマー型の行動基盤モデル(BFM)が登場してきました。堅牢な行動のゼロショット生成においては優れている一方で、BFMは特定のタスクに対して細かなプロンプトエンジニアリングを必要とすることが多く、その結果として最適でない挙動につながる可能性があります。私たちは「タスクトークン(Task Tokens)」という手法を提案し、柔軟性を保持したままBFMを特定のタスクに効果的に適応させます。本手法は、BFMのトランスフォーマー構造を活用して、強化学習により新しいタスク固有のエンコーダを学習し、元のBFMは凍結したままにします。これにより、報酬設計とプロンプトエンジニアリングのバランスを取りつつ、ユーザーが定義した事前知識を組み込むことが可能になります。タスクエンコーダを訓練して観測をトークンへ写像し、このトークンを追加のBFM入力として用いることで、モデルの多様な制御特性を維持しながら性能の向上を導きます。私たちは、分布外(out-of-distribution)状況を含むさまざまなタスクにおいて、タスクトークンの有効性を示し、さらに他のプロンプト手法との両立性も示します。これらの結果は、タスクトークンが、汎化能力を保持したままBFMを特定の制御タスクに適応させる有望なアプローチであることを示唆しています。

広告