GIFT:柔軟なテスト時報酬のための意図の一般化

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、実演(デモ)から学習したロボットの報酬関数を、新しい環境へ一般化できるようにすることを目的として、GIFT(Generalizing Intent for Flexible Test-Time Rewards)を提案する。訓練データに含まれる見かけ上の相関ではなく、人間の意図の背後にある要因に焦点を当てることで一般化を実現する。
  • GIFTは言語モデルを用いて、好ましい行動と好ましくない行動を対比することでデモから高レベルの意図を推論し、その意図に条件付けた類似度をテスト時に適用する。これにより、再学習なしで新規の状態を行動的に同等な訓練状態へ対応付ける。
  • シミュレーション上の卓上操作実験では、4つのタスクにわたって50個以上の未見の物体を扱い、GIFTがペアごとの勝率と状態整合のF1の両方で、視覚・セマンティックな類似度ベースラインを上回る。
  • 7自由度(7-DoF)のFranka Pandaロボットによる実世界でのテストでは、本手法が物理環境へ確実に転移することが示され、シミュレーションを超えた頑健性が示唆される。

要旨: ロボットはユーザのデモンストレーションから報酬関数を学習しますが、これらの報酬はしばしば新しい環境へうまく一般化できません。この失敗は、学習された報酬がデモンストレーションが表す人間の意図の背後にあるものではなく、学習データに含まれる紛らわしい相関に結び付いてしまうために起こります。既存の手法は、視覚的または意味的な類似性を活用して頑健性を高めますが、これらの表層的な手がかりは、人間が実際に気にしている事柄としばしば食い違います。本研究では、表層の手がかりではなく人間の意図に基づいて報酬の一般化を行う枠組み、Flexible Test-Time Rewards(GIFT)に対するGeneralizing Intentを提示します。GIFTは、ユーザのデモンストレーションにおいて好まれる行動と好まれない行動を対比することで、言語モデルを用いて高次の意図を推論します。導入時には、GIFTは意図に条件付けられた類似性により、新しいテスト状態を行動的に同等な学習状態へと対応付けます。これにより、再学習なしに分布シフトをまたいで学習された報酬を一般化可能にします。新しい物体とレイアウトを用いたテーブルトップ操作タスクでGIFTを評価します。50個以上の未見物体を含む4つのシミュレーションタスクにおいて、GIFTはテスト時のペアワイズ勝率と状態整合のF1スコアの両方で、視覚的および意味的な類似性のベースラインを一貫して上回ります。さらに、7自由度のFranka Pandaロボットでの実世界実験により、GIFTが物理環境へ確実に移植されることを示します。詳しい議論は https://mit-clear-lab.github.io/GIFT/ をご覧ください。