AI Navigate

Hindsight-Anchored Policy Optimization: 疎報酬設定における失敗をフィードバックへ変換する

arXiv cs.AI / 2026/3/13

📰 ニュースModels & Research

要点

  • HAPO は、hindsight 機構を介して失敗時に学習を教師デモに固定する疎報酬環境向けの強化学習最適化フレームワークを導入します。
  • Synthetic Success Injection (SSI) 演算子と Thompson sampling に着想を得たゲーティング機構を組み合わせ、自己ペースのカリキュラムを作成します。
  • 著者らは漸近的一致性を証明し、ポリシーが改善するにつれて教師信号が自然に薄れることで、無偏の on-policy 勾配を回復することを示します。
  • グループ相対ポリシー最適化 (GRPO) におけるアドバンテージ崩壊と高分散勾配の問題に対処することで、HAPO は静的な教師強制の制約を超えることを目指します。
Reinforcement Learning with Verifiable Rewards (RLVR) は、訓練後の推論モデルのための有望なパラダイムとして浮上してきました。しかし、GRPO(グループ相対ポリシー最適化)などのグループベースの手法は、疎報酬設定において重大なジレンマに直面します。純粋な強化学習(RL)はアドバンテージ崩壊と高分散勾配推定に悩まされ、混合ポリシー最適化は持続的な分布バイアスを導入します。 このジレンマを解決するために、Hindsight-Anchored Policy Optimization(HAPO)を導入します。HAPO は Synthetic Success Injection (SSI) 演算子という hindsight 機構を用い、失敗時に最適化を教師デモに選択的にアンカーします。この注入は Thompson sampling に着想を得たゲーティング機構によって制御され、自律的かつ自己ペースのカリキュラムを生み出します。理論的には、HAPO は漸近的一致性を達成することを示します。ポリシーが改善するにつれて教師信号を自然にアニーリングすることで、HAPO は無偏の on-policy 勾配を回復します。これにより、オフポリシーのガイダンスは永続的な天井ではなく、一時的な足場として機能し、静的な教師強制の制約を超えることができます。