| さて、数日前に、smoltldr(2k 行からなる Reddit 投稿の要約データセット)で、RLVR を GRPO と一緒に使って、最大長 64 程度の要約を出力するように、小さな Qwen2.5-0.5B-Instruct モデルを学習した投稿を共有しました。 しかし、落とし穴がありました!
その結果、チャートは急激に低下し、応答長が 15 トークン付近(オン・オフ両方)に収束しているように見えました。 私が使った報酬は 2 つでした:
(OOM を起こす前に)バッチサイズ最大 2 で 1 エポック分を学習した結果は、前回の実行と同一でした。ただし決定的に違う点が 1 つありました:
とにかく次は:
[link] [comments] |
GRPO [P] で Reddit 投稿要約タスクに Qwen2.5-0.5B-Instruct bf16 モデルを再学習
Reddit r/MachineLearning / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Reddit ユーザーが、GRPO(RLVR)を用いて Reddit 投稿の要約タスク向けに小型の Qwen2.5-0.5B-Instruct bf16 モデルを再学習した。要約の長さは 64 トークンを想定していたが、誤って 64 文字として設定してしまった。
- W&B のメトリクスで、平均応答長が崩れて 10〜15 トークン付近で飽和するのを観察し、文字数/トークンの混同による問題だと考えた。
- 学習では報酬を 2 種類用いた: (1) MAX_LENGTH からのズレに基づく長さペナルティ、(2) ゴールデン要約に対する ROUGE-L による品質報酬(報酬の“悪用”を抑えるため)。
- ROUGE-L の品質報酬を入れることで、長さペナルティのみを使った過去の実験で見られた退化した挙動(例:「*20 tokens」などの埋め文を生成する)を防げた。
- 1 エポック後の、品質報酬の有無に関する複数回の実行で同様の結果が得られたと報告しており、次のステップとして GRPO の報酬に対する“悪用(reward gaming)”をデバッグし、別の指標のテスト、さらに judge ベースの評価(LLM-as-a-judge)を試す予定である。




