LLMsに推論を教える際、複雑な損失関数は必要ですか？

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はGRPOを分析し、2つの重要な結果を示している。負のフィードバックを取り入れることは学習に不可欠である一方、ベースラインを超える行動のみで訓練することは性能を制限する。
PPOスタイルの制約（例えばポリシー比クリッピング）は、数学的推論能力や全体的な性能を改善するためには必須ではないことを示している。
著者らはGRPOの簡略化版であるRGRAを導入する。RGRAはグループ相対優位推定を保持するが、PPOスタイルのクリッピングおよびポリシー比の項を削除している。
標準的な数学ベンチマーク全体で、RGRAはGRPOを上回る可能性を示しており、より単純なREINFORCEベースのアプローチがLLMの推論能力を効果的に高め、より透明な訓練パラダイムを提供できることを示唆している。

Abstract

大規模言語モデル（LLMs）における最近の進展は、推論能力と数学的能力を向上させるための事後訓練技術の重要性を浮き彫りにしています。Group Relative Policy Optimization (GRPO) は、グループ相対優位性推定、PPO風のクリッピング、KL正則化を組み合わせることでこの分野で有望であることを示しています。しかし、その複雑さは、推論行動を育成するのにすべての成分が必要かどうかという疑問を投げかけます。GRPOの体系的な分析を行い、二つの重要な発見を特定しました: (1) 負のフィードバックを組み込むことは不可欠であり、基準以上の行動のみに対する訓練は学習を制限します; および (2) ポリシー比クリッピングのようなPPO風の制約は、数学的推論や性能を向上させるためには必要ありません。これらの洞察に基づき、REINFORCE with Group Relative Advantage (RGRA) を提案します。これは、グループ相対優位性推定を保持しつつ、PPO風のクリッピングとポリシー比項を削除した簡略化されたバリアントです。標準的な数学ベンチマークにおける実験は、RGRA が GRPO よりも強力な性能を達成する可能性があることを示しています。我々の結果は、より単純なREINFORCEベースのアプローチがLLMsの推論を効果的に向上させることができ、GRPOよりも透明で効率的な代替手段を提供することを示唆しています。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

LLMsに推論を教える際、複雑な損失関数は必要ですか？

要点

Abstract

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer