コストを意識した学習(Cost-Aware Learning)

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、有限和目的関数に対するコストを意識した学習を扱い、各成分のサンプリングにかかるコストが異なる状況で、目標誤差を達成しつつ総コストを最小化することを目的とする。
  • 凸目的に対してCost-Aware Stochastic Gradient Descent(SGD)アルゴリズムを提案し、誤差εを達成するためのコスト計算量の導出を行う。
  • 著者らはこの設定に対する下界を示し、さらに学習コストを削減するための部分集合選択アルゴリズムも提案する。
  • 理論を言語モデルにおける強化学習に適用し、特にシーケンス長によってポリシーグラディエントの計算コストが変わる点に着目して、Cost-Aware GRPOを導入する。
  • 1.5Bおよび8BのLLMでの実験では、ポリシー最適化に使うトークン数を最大約30%削減しつつ、ベースライン精度と同等以上を達成した。

Abstract

本稿では、コスト認識学習(Cost-Aware Learning)の問題を考察する。ここでは、有限和目的関数の異なる構成要素関数をサンプリングすることに伴うコストがそれぞれ異なる。総コストを最小化しつつ、目標誤差に到達することを目的とする。まず、凸関数に対するコスト認識確率的勾配降下法(Cost-Aware Stochastic Gradient Descent)アルゴリズムを提案し、誤差 epsilon を達成するためのコスト計算量を導出する。さらに、この設定に対する下界を確立し、学習のコストをさらに削減するための部分集合選択アルゴリズムを提示する。理論的洞察を、言語モデルによる強化学習に適用する。そこでは、方策勾配の計算コストが系列長に応じて変化する。これに対応するため、性能を維持しながら方策最適化のコストを削減することを目的としたアルゴリズムである Cost-Aware GRPO を導入する。1.5B および 8B の LLM に関する実験結果により、本手法は、方策最適化に用いるトークン数を最大で約 30% 削減しつつ、ベースライン精度と同等以上であることを示す。