ヘテロジニアス適応ポリシー最適化：各トークンの性質に合わせて最適化を調整する

arXiv cs.CL / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、LLM向け強化学習においてエントロピーを離散的なフィルタや事後的な調整ではなく、連続的な中核ドライバーとして用いるトークン対応のアルゴリズム「Heterogeneous Adaptive Policy Optimization（HAPO）」を提案しています。
HAPOは、適応温度サンプリング、トークンレベルのグループ平均アドバンテージ推定、エントロピーと重要度比によるアドバンテージ再配分、不均一なエントロピー依存の適応クリッピングという4つの要素で、最適化を動的に調整します。
学習の全期間を通じて各トークンのエントロピーに応じて最適化ダイナミクスを連続的にテーラリングし、シーケンス長の影響を扱いつつバイアスのない扱いを維持することを狙います。
数学的推論、コード、論理タスクを複数モデルで評価した実験では、HAPOが一貫してDAPOより優れていることが示され、実装も公開されています。
本研究は、トークンレベルのヘテロジニアスな扱いを最適化パイプラインのあらゆる段階に組み込むことで、LLMのための強化学習研究を前進させます。

要旨: 異質性の尺度としてエントロピーを用い、それにより最適化を導くことは、LLMにおける強化学習で重要な研究方向として現れてきた。しかし、既存の手法は通常、それを離散的なフィルタ、あるいは事後的な調整装置として扱っており、コアとなる最適化の駆動要因とはしていない。エントロピーの可能性を十分に活用し、きめ細かな制御を実現するために、本研究では、学習の全過程を通じてトークンレベルのエントロピーに基づいて最適化ダイナミクスを継続的に適応させるトークン認識型アルゴリズムであるHeterogeneous Adaptive Policy Optimization（HAPO）を提案する。提案手法は4つの主要コンポーネントを含む。(1) 高エントロピーのトークンにおいて探索を促進するため、サンプリング温度をリアルタイムで調整する適応温度サンプリング。(2) シーケンス長の影響を考慮しつつ、非偏った扱いを維持する、トークンレベルのグループ平均アドバンテージ推定。（3）エントロピーと重要度（インポータンス）比を活用し、明確な信号を持つトークンのアドバンテージを調整する差分アドバンテージ再配分。(4) トークンレベルのエントロピーに基づいてクリッピング境界を動的に調整する非対称適応クリッピング。エントロピーを体系的に調査することで、トークンレベルの扱いをあらゆる段階に組み込む。複数のモデルに対して、数学的推論、コード、ロジック課題に関する大規模な実験を行った結果、HAPOは一貫してDAPOより優れていることが示された。コードは https://github.com/starriver030515/HAPO にて公開している。