要旨: 強化学習に基づき、検証可能な報酬(RLVR)を用いて、さまざまな領域にわたる汎用的な推論モデルを構築することは、最前線のオープンウェイト・モデルによって広く採用されてきました。しかし、それらの学習レシピやドメイン混合はしばしば公開されていません。ドメイン間での共同最適化には重大な課題があります。すなわち、ドメインによってロールアウトの長さ、問題の難易度、サンプル効率が大きく異なります。さらに、長い連鎖的な思考(chain-of-thought)トレースを持つモデルは推論コストとレイテンシを増大させるため、実運用において効率が重要になります。私たちは、公開データセットを用いた5つのドメイン(数学、コード生成、指示追従、論理パズル、関数呼び出し)に関して、15BパラメータのオープンウェイトLLMであるApriel-Base上で、完全に再現可能なマルチドメインRLの事後学習レシピにより訓練したApriel-Reasonerを提示します。異種なロールアウト動力学にもかかわらず目標ドメイン比率を維持する適応的なドメインサンプリング機構を導入し、さらに追加の学習オーバーヘッドなしで、難しい問題に対してはより長い推論を、易しい問題に対しては短いトレースを促す、標準的な長さペナルティの難易度認識拡張を提案します。16Kトークンの厳格な出力予算で訓練したApriel-Reasonerは、推論時に32Kトークンへと一般化し、AIME 2025、GPQA、MMLU-Pro、LiveCodeBenchでApriel-Baseより改善し、さらに推論トレースを30〜50%短縮しつつ生成します。これにより、同程度のサイズの強力なオープンウェイト・モデルと、より低いトークンコストで同等の性能を実現し、精度とトークン予算のパレート最前線を押し広げます。
Apriel-Reasoner:汎用的かつ効率的な推論のためのRL後学習
arXiv cs.LG / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Apriel-Reasonerは、複数ドメインにわたって検証可能な報酬(RLVR)を用いることで、汎用的かつ効率的な推論のためのRL後学習手法として提示される。
- 本研究は、Apriel-Base(15Bパラメータ)上で数学、コード生成、指示追従、論理パズル、関数呼び出しを含む、完全に再現可能なマルチドメインの学習レシピを主張する。
- ロールアウト長、難易度、サンプル効率がドメイン間で異なっても、目標ドメイン比率を維持するための適応的なドメインサンプリングを導入する。
- 難しい問題ではより長い思考(chain-of-thought)トレースを促し、簡単な問題ではより短いトレースを促すための、難易度に応じた長さペナルティ拡張を提案する。追加の学習オーバーヘッドなしに実現する。
- 実験では、AIME 2025、GPQA、MMLU-Pro、LiveCodeBenchにおいてApriel-Baseよりも優れたベンチマーク結果が報告される。また、推論トレースが30〜50%短縮されることを示し、学習時の16K出力予算から推論時に32Kへ一般化できることも示される。




