要旨: 行動の模倣(Behavior cloning: BC)は、人間のデモンストレーションを点ごとの行動ラベルとして扱うことで方策を最適化します。正確な行動ラベルであれば有効ですが、この定式化は実際には脆弱です。人間が提供した行動が不完全な場合、各ラベルを厳密な目標として扱うことは、特に表現力の高いモデル(例:エネルギー基盤モデル)が用いられるとき、望ましい本質的な行動から方策を逸らしてしまうことがあります。そのため本研究では、点ごとの教師信号を集合値の行動目標に置き換える、人間を介した(human-in-the-loop)代替手法を提案します。Contrastive policy Learning from Interactive Corrections(CLIC)を提案します。CLICは、人間による修正を活用して望ましい行動の集合を構築・洗練し、単一の行動目標ではなく、これらの集合上に確率質量を割り当てるように方策を最適化します。この定式化は、絶対的な修正と相対的な修正の両方を自然に扱うことができ、複雑な多峰性の行動を表現することも可能です。大規模なシミュレーションおよび実ロボット実験により、提案手法が多様な状況において効果的な方策学習をもたらすことが示されます。CLICは、データが正確な場合には最先端と競争力を維持しつつ、ノイズのある、相対的、部分的なフィードバックに対しては大幅に頑健です。実装は https://clic-webpage.github.io/ で公開されています。
行動ラベルから集合へ:正しい行動フィードバックによる模倣学習における行動教師信号の見直し
arXiv cs.RO / 2026/5/1
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 人間のデモに誤りやノイズが含まれると、従来の点ごとの行動ラベルによる行動克服(BC)は、望ましい行動から学習ポリシーを外してしまうため脆さがある。
- 本論文は、CLIC(Contrastive policy Learning from Interactive Corrections)として、単一の行動目標の代わりに、人間の訂正フィードバックから得られる集合値の行動目標を用いる方針を提案する。
- CLICは、望ましい行動集合に対して確率質量を割り当てるようにポリシーを学習し、絶対的・相対的な訂正の両方や、多峰性の行動表現に対応できる。
- シミュレーションと実ロボットの実験では、正確なデータでは最先端と同等の競争力を保ちつつ、ノイズのある・部分的な・相対的なフィードバックに対して大幅に頑健であることが示された。
- 著者は実装を公開しており、再現や発展的な研究利用を促進する。




