高性能制御のための後退（レシーディング）ホライズンによる信用割当と行動制約付き強化学習

arXiv cs.RO / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボティクス制御において、専門家（人間）の行動からの逸脱を明示的に制限しつつ、デモンストレーションを超える性能改善を可能にする行動制約付き強化学習の枠組みを提案する。
さらに、訓練中に先読み（ルックアヘッド）の報酬を用いることで、軌道（トラジェクトリ）レベルの信用割当を行う後退（レシーディング）ホライズンの予測メカニズムを用い、専門家に整合した行動が時間とともにどのように創発するかを反映している。
方策は参照軌道（リファレンストラジェクトリ）に条件付けされ、外乱や状況変化のもとでの専門家行動のばらつきを捉えることで、単一の目標ではなく「許容される行動」の分布をモデル化する。
プロのドライバーデータを用いた高忠実度のレースカーシミュレーションでの実験により、学習した方策が、専門家の運転スタイルに密接に整合しながら競争力のあるラップタイムを達成し、性能と模倣品質の両面で、従来の模倣／学習ベース手法を上回ることが示される。
著者らはさらに、ドライバ・イン・ザ・ループ（人を介した評価）によるヒューマンに根ざした検証を行い、トップのプロレーシングドライバからのフィードバックと整合する、セットアップ依存の運転特性を再現できることを確認している。

要旨: 専門家の行動と整合性を保ったまま高性能な制御方策を学習することは、ロボティクスにおける根本的な課題である。強化学習は高性能な戦略を見出せる一方で、望ましい人間の行動から逸脱しがちである。これに対し、模倣学習はデモンストレーションの品質に制約され、専門家データの範囲を超えて改善することが難しい。我々は、専門家の行動からの逸脱を明示的に制御しつつ、デモンストレーションの水準を超えて性能を向上させる行動制約付き強化学習の枠組みを提案する。動的制御における専門家と整合的な行動は本質的に軌道レベルの性質であるため、短期の将来軌道をモデル化し、学習中に先読み報酬を提供する後退予見（receding-horizon）の予測メカニズムを導入する。外乱や変化する条件下における人間の行動の自然なばらつきを考慮するため、さらに、方策を参照軌道で条件付けし、それにより単一の決定論的な目標ではなく、専門家と整合的な行動の分布を表現できるようにする。実験では、極めてダイナミクスが厳しく性能マージンが狭い領域である、プロのドライバーのデータを用いた高忠実度のレースカー・シミュレーションにて提案手法を評価する。学習された方策は、専門家の運転行動と密接に整合した状態を維持しつつ競争力のある周回タイムを達成し、性能と模倣の質の両面でベースライン手法を上回る。標準的ベンチマークを超えて、ドライバー・イン・ザ・ループのシミュレータで人間に基づく評価を行い、学習された方策が、トップクラスのプロレーシングドライバーからのフィードバックと整合する、セットアップ依存の運転特性を再現することを示す。これらの結果は、本手法が最適かつ行動整合的な高性能制御方策の学習を可能にし、複雑な制御システムにおける人間の意思決定の信頼できる代理（サロゲート）として機能し得ることを示している。