タスク・トークン:行動基盤モデルを適応させるための柔軟なアプローチ
arXiv cs.RO / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、「タスク・トークン」という手法を導入し、ゼロショットの柔軟性を損なうことなく、トランスフォーマー型行動基盤モデル(BFM)を特定の制御タスクへ適応させる方法を示す。
- タスク・トークンは、元のBFMを凍結したまま、強化学習によりタスク固有のエンコーダを学習し、タスクに関係する情報を追加トークンとしてモデルの入力ストリームへ注入する。
- このアプローチは、ユーザーが定義した事前知識(prior)をタスク適応へより直接的に影響させることで、報酬設計とプロンプトエンジニアリングのバランスを取ることを目的としている。
- 複数のタスク(分布外設定を含む)にわたる実験により、一般化特性を維持しつつ性能が向上し、さらに他のプロンプト手法との互換性も保たれることが示される。



