AI Navigate

推論負荷のバランス: 長さ再分配を用いた難易度差別化ポリシー最適化による効率的で堅牢な強化学習

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Difficulty-Differentiated Policy Optimization(DDPO)を提案する。DDPO は、単純なタスクと複雑なタスクの最適化を差別化する強化学習アルゴリズムで、大規模推論モデル(LRMs)における過剰な推論と過信に対処する。
  • DDPO は、簡単なタスクでは出力長を短縮し、難しいタスクでは探索空間を拡大することで、精度を維持または向上させつつ、効率と性能のバランスを取る。
  • 著者らは、期待精度を最大化するための理論的条件を導出し、出力長の分布は最適な長さにできるだけ近づき、できるだけ中心化するべきであることを示した。長さ最適化の指針として難易度レベルの平均を参照する。
  • 同一ドメイン内およびドメイン外のベンチマークにおける実験結果は、DDPO が GRPO と比較して平均回答長を 12% 減らし、精度を 1.85% 向上させることを示し、精度と長さのトレードオフが改善されることを示唆している。
  • 著者らは DDPO のコードを https://github.com/Yinan-Xia/DDPO に提供しており、再現と実際の利用を可能にしている。

概要: 大規模推論モデル(LRMs)は卓越した推論能力を示してきましたが、過剰思考の問題にも悩まされ、過度に長く冗長な回答を生成することがよくあります。
モデルの能力を超える問題に対して、LRMsは過信現象を示し、過度に短く誤った回答を生成する傾向があり、それがサブ最適な性能につながる可能性があります。
これらの問題に対処するため、過信現象に基づいて単純なタスクと複雑なタスクを別々に最適化する効率的な強化学習アルゴリズムである Difficulty-Differentiated Policy Optimization (DDPO) を提案します。
具体的には、単純なタスクの出力長を精度を損なうことなく縮小し、複雑なタスクでは探索空間を拡大して性能を向上させます。期待精度を最大化する理論的条件をさらに導出し、これらは長さの分布が最適な長さにできるだけ近づき、できるだけ集中していることを要求します。これらの条件に基づき、長さの最適化に対する妥当な参照として難易度レベルの平均を使用することを提案します。
同一ドメイン内およびドメイン外のベンチマークでの広範な実験は、DDPOの優位性と有効性を検証します。GRPOと比較して、DDPOは複数のベンチマークにおいて平均回答長を12%削減し、精度を1.85%向上させ、精度と長さの間でより良いトレードオフを実現します。コードは https://github.com/Yinan-Xia/DDPO で入手可能です。