強い意味での複利的（コンパウンド）誤りを起こさないことが証明される、非敵対的模倣学習：ベルマン制約の役割

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、IQ-Learnのような代表的な非敵対的・Qベースの模倣学習手法は理論的に行動模倣（behavioral cloning）へ還元され得る一方で、模倣ギャップに対してホライズン（時間範囲）に二次で依存する下界を依然として持ち、結果として複利的な誤り（コンパウンド誤り）に苦しみ得ることを主張している。
なぜIQ-Learnが汎化に失敗し得るのかを説明し、デモンストレーションによって十分にカバーされていない状態に対する行動のQ値を一様に抑制することで、デモンストレーションされた状態分布の外側で専門家（エキスパート）に対応する振る舞いを回復する能力が制限されると述べている。
これを修正するために著者らは、Dual Q-DM（Dual Q-DM）という、訪問した状態から未訪問の状態へ価値情報を伝播させるベルマン制約を追加する、プライマル・デュアルの分布マッチング枠組みを提案する。
本論文では、Dual Q-DMがある意味で敵対的模倣学習（adversarial imitation learning）と理論的に同等であることを主張し、デモンストレーションの外側でも専門家の行動を回復でき、さらに理論的にコンパウンド誤りを排除できるとしている。
理論的保証は実験によって裏付けられており、著者らは、導出した汎化およびコンパウンド誤りの緩和に関する主張を実験結果が支持していると述べている。

概要: 対抗的イミテーション学習（Adversarial Imitation Learning; AIL）は、行動のクローン化（Behavioral Cloning; BC）における逐次的誤差（compounding errors）を抑えることで高品質な模倣を実現しますが、しばしば対抗的最適化に起因する学習不安定性を示します。この問題を避けるために、IQ-Learnに代表される非対抗的なQベースのイミテーション学習（IL）手法の一群が登場し、オンライン環境との相互作用を活用することでBCを上回ると広く考えられています。しかし本論文ではIQ-Learnを再検討し、それが理論的にBCへと帰着し、かつホライズンに対して二次の依存を伴う模倣ギャップの下界があることを示します。そのため、依然として逐次的誤差に悩まされます。理論解析によれば、オンライン相互作用を用いているにもかかわらず、IQ-Learnはデモンストレーションによって覆われていない状態に対して、全ての行動のQ値を一様に抑制し、一般化に失敗します。この制限に対処するため、分布マッチングのための双対（primal-dual）フレームワークを導入し、新しいQベースのIL手法であるDual Q-DMを提案します。Dual Q-DMの主要な仕組みは、ベルマン制約を組み込んで、訪問された状態から未訪問の状態へ高いQ値を伝播させることであり、それによってデモンストレーションを超えた一般化を達成します。Dual Q-DMがAILと同等であり、デモンストレーションを超えて専門家の行動を回復できることを証明し、逐次的誤差を軽減できることを示します。筆者らの知る限り、Dual Q-DMは逐次的誤差を理論的に確実に排除できる最初の非対抗的IL手法です。さらに、実験結果は理論結果を裏付けます。