GRPO [P] で Reddit 投稿要約タスクに Qwen2.5-0.5B-Instruct bf16 モデルを再学習

Reddit r/MachineLearning / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Reddit ユーザーが、GRPO（RLVR）を用いて Reddit 投稿の要約タスク向けに小型の Qwen2.5-0.5B-Instruct bf16 モデルを再学習した。要約の長さは 64 トークンを想定していたが、誤って 64 文字として設定してしまった。
W&B のメトリクスで、平均応答長が崩れて 10〜15 トークン付近で飽和するのを観察し、文字数／トークンの混同による問題だと考えた。
学習では報酬を 2 種類用いた： (1) MAX_LENGTH からのズレに基づく長さペナルティ、(2) ゴールデン要約に対する ROUGE-L による品質報酬（報酬の“悪用”を抑えるため）。
ROUGE-L の品質報酬を入れることで、長さペナルティのみを使った過去の実験で見られた退化した挙動（例：「*20 tokens」などの埋め文を生成する）を防げた。
1 エポック後の、品質報酬の有無に関する複数回の実行で同様の結果が得られたと報告しており、次のステップとして GRPO の報酬に対する“悪用（reward gaming）”をデバッグし、別の指標のテスト、さらに judge ベースの評価（LLM-as-a-judge）を試す予定である。

さて、数日前に、smoltldr（2k 行からなる Reddit 投稿の要約データセット）で、RLVR を GRPO と一緒に使って、最大長 64 程度の要約を出力するように、小さな Qwen2.5-0.5B-Instruct モデルを学習した投稿を共有しました。

しかし、落とし穴がありました！

平均応答長の wandb チャートが下がって、平均で 10〜15 トークンあたりで頭打ちになっていました。これは私が文字数とトークン数を取り違えたのが原因です。64 トークンにするつもりだったのに、誤って 64 文字にしてしまったのです！

その結果、チャートは急激に低下し、応答長が 15 トークン付近（オン・オフ両方）に収束しているように見えました。

私が使った報酬は 2 つでした：

length_penalty：基本的に -abs(response_length - MAX_LENGTH)
quality_reward：ROUGE-L です。これは、上記データセットの一部として用意されていた正解要約の LCS（最長共通部分列）を基本的に指し、生成される応答全体にある程度の構造を持たせ、劣化を最小限に抑えるために使いました。

（OOM を起こす前に）バッチサイズ最大 2 で 1 エポック分を学習した結果は、前回の実行と同一でした。ただし決定的に違う点が 1 つありました：

前回の実行で quality reward が入っていなかった場合、システムは "-------*20" のようなものを出力して、とにかく報酬を稼ごうとしました。つまり、それだけです！
しかし今回は違います。両方の報酬（length penalty と quality reward）を入れた実験と、length penalty だけを入れた実験の報酬がほぼ同じ結果になっていて、さらに 1 エポック分学習後のロールアウトで劣化が見られなかったので、なぜだろう？と思っています。

とにかく次は：