Abstract
本稿では、コスト認識学習(Cost-Aware Learning)の問題を考察する。ここでは、有限和目的関数の異なる構成要素関数をサンプリングすることに伴うコストがそれぞれ異なる。総コストを最小化しつつ、目標誤差に到達することを目的とする。まず、凸関数に対するコスト認識確率的勾配降下法(Cost-Aware Stochastic Gradient Descent)アルゴリズムを提案し、誤差 epsilon を達成するためのコスト計算量を導出する。さらに、この設定に対する下界を確立し、学習のコストをさらに削減するための部分集合選択アルゴリズムを提示する。理論的洞察を、言語モデルによる強化学習に適用する。そこでは、方策勾配の計算コストが系列長に応じて変化する。これに対応するため、性能を維持しながら方策最適化のコストを削減することを目的としたアルゴリズムである Cost-Aware GRPO を導入する。1.5B および 8B の LLM に関する実験結果により、本手法は、方策最適化に用いるトークン数を最大で約 30% 削減しつつ、ベースライン精度と同等以上であることを示す。