Masked IRL: デモンストレーションと言語からのLLM誘導報酬曖昧性解消

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、デモンストレーションからの報酬学習における重要な制約に取り組む。すなわち、データが限られると、デモがどの状態の側面が本当に重要なのかを明確化しないため、報酬モデルが見かけ上の相関に過適合してしまう問題である。
大規模言語モデルを用いて自然言語の指示から関連する状態成分を推定する、Masked Inverse Reinforcement Learning（Masked IRL）を提案する。
Masked IRLは、無関係な状態の詳細に対する不変性を強制し、デモだけでは得られない一般化性能の向上を目指す。
指示が曖昧な場合、枠組みはデモの文脈でLLMの推論を用いて指示を明確化し、報酬関数の間の曖昧性をより適切に解消する。
シミュレーションおよび実ロボットでの実験により、Masked IRLは先行する言語条件付きIRL手法より最大15%優れ、最大4.7×少ないデータで済むことが示される。これにより、サンプル効率と頑健性が改善される。

要旨: ロボットは、デモンストレーションから報酬関数を学習することで、ユーザの嗜好に適応できますが、データが限られていると、報酬モデルはしばしば紛れ込んだ相関に過学習し、一般化に失敗します。これは、デモがロボットにタスクの行い方を示す一方で、そのタスクにおいて何が重要かを示さないためです。その結果、モデルは無関係な状態の詳細に注意を向けてしまいます。自然言語は、ロボットが何に注目すべきかをより直接に指定でき、原理的には、デモと矛盾しない多数の報酬関数の曖昧さを解消できます。しかし、既存の言語条件付き報酬学習手法では、指示をしばしば単純な条件付け信号として扱っており、その曖昧さ解消能力を十分に活用できていません。さらに、実際の指示はしばしばそれ自体が曖昧であるため、素朴な条件付けは信頼できません。私たちの重要な洞察は、これら2種類の入力が補完的な情報を運ぶという点です。デモンストレーションはどう行動するかを示し、言語は何が重要かを指定します。私たちは、Masked Inverse Reinforcement Learning（Masked IRL）を提案します。Masked IRLは、大規模言語モデル（LLM）を用いて両方の入力タイプの強みを組み合わせる枠組みです。Masked IRLは、言語指示から状態の関連性マスクを推定し、無関係な状態成分への不変性を強制します。指示が曖昧な場合は、LLMの推論を用いて、デモンストレーションの文脈でその曖昧さを明確化します。シミュレーションおよび実ロボットにおいて、Masked IRLは、従来の言語条件付きIRL手法に比べて最大15%の性能向上を達成しつつ、必要データ量を最大4.7倍少なくしています。これにより、サンプル効率、一般化、曖昧な言語への頑健性が改善されることを示します。プロジェクトページ: https://MIT-CLEAR-Lab.github.io/Masked-IRL およびコード: https://github.com/MIT-CLEAR-Lab/Masked-IRL