| さて、昨日の実行は成功で、添付の画像にあるとおり平均ロールアウト長が約64トークンになりました! これは quality_reward + length_penalty(詳細は下記!)でした。 次は、報酬として length penalty を使い、トークンとして文字数を数えてしまうミスを修正した上で、システムを“だます”ようなことが起きないか、あるいは出力が劣化していないかを確認します!使用した報酬は2つです:
1ノードがGRPOで学習を駆動し、2ノードがvLLMでロールアウトを投入します。2つのバリアントを学習しました:
評価:LLM-as-a-Judge(gpt-5)
[リンク] [コメント] |
PyTorchからスクラッチで実装したGRPOで、Reddit投稿の要約タスクにQwen2.5-0.5B-Instruct bf16モデルをRedditポスト要約タスクで学習してみた—更新![P]
Reddit r/MachineLearning / 2026/4/15
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Redditの投稿では、PyTorchでスクラッチ実装したGRPOを用いて、Reddit投稿の要約タスクにQwen2.5-0.5B-Instruct bf16モデルをファインチューニングし、成功したことが報告されています。
- 著者は報酬設計の実験を行っており、まずはquality_reward(ROUGE-L)にlength_penaltyを加えた形から始め、その後「gaming(報酬を得るための最適化)」や出力の劣化が起きるかどうかをテストするために、lengthペナルティ単体を報酬として使う予定です。
- 学習のセットアップには小規模なMLクラスタを使用しており(Mac Miniを3台)、1台のノードでGRPO学習を実行し、残り2台のノードでvLLMによりロールアウトを生成します。
- 学習の2つのバリアントを比較します:length-penaltyのみ vs. length-penaltyに加えて品質報酬(BLEU/METEOR/ROUGE-Lを選択肢として言及)を用いるもの。さらに、平均ロールアウト長が約64トークンといったロールアウト挙動を追跡します。
- 評価はLLM-as-a-judge(gpt-5)を用い、DeepEvalベースのルーブリックで、信頼性(faithfulness)、網羅性(coverage)、簡潔さ(conciseness)、明瞭さ(clarity)を別々の軸で採点します。




