| そこで、このプロジェクトでは、長さ制約(たとえば64トークンのみ)の品質の高い要約が、GRPOを使って小型LLMで実現できるかどうかを検証したいです! このタスクについて、2つのバリアントを学習しました:
要約の品質をチェックするために、DeepEvalツールを使ってLLM-As-A-Judgeで評価しました。評価軸は以下です:
結果は添付のとおりで、最終結果は以下です:
その他の報酬に対するt-testのランキング: 要約テーブル
コメント欄に、すべてのコードとwandbのチャートがあります! セットアップ:MLXを動かすクラスタ上で、3x Mac Minis 1ノードがGRPOで学習を駆動し、2ノードがvLLM-metalフレームワーク経由でロールアウトをプッシュします。すべての作業はsmolcluster.comで行いました。 SyncPSアーキテクチャを使用しました。これは、マスターが学習が行われるノードで、ワーカーノード上のvllmがそれに対応する同期型パラメータサーバー・アーキテクチャです。 評価: LLM-as-a-Judge(gpt-5)
複合スコアは、上記スコアの平均です。
[link] [comments] |
3台のMac MiniでGRPOを使い、Reddit投稿要約にLFM-2.5-350Mを学習—最終評価とt検定評価はこちら [P]
Reddit r/MachineLearning / 2026/4/25
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この投稿では、厳しい長さ制約(約64トークン)付きのReddit投稿要約タスクに対して、GRPOを用いて小型LLM(「LFM-2.5-350M」)を学習し、出力を短く制限しても良質で簡潔な要約を作れるかを検証しています。
- 報酬の設定は2通りを比較しており、「長さペナルティのみ」の構成と、「ROUGE-L/METEORなどの品質に基づく報酬を長さペナルティと組み合わせた」構成を用意して効果を比べています。
- DeepEvalのLLM-as-a-judge評価(Consciencess、Coverage、Clarity、Faitfullness)でバリアントを比較し、最良構成は長さペナルティ単独(約2.23/4)に対してコンポジットスコアが約2.769/4まで向上したと報告しています。
- さらにt検定に基づくランキングも示されており、長さだけでなく品質報酬を組み込むことで、コンポジットスコアや信頼性(faithfulness)関連の指標が改善する傾向がある一方、合格率(pass rate)は報酬タイプにより変動することが分かります。
- 実験は著者の3台のMac Miniで実施され、「最終評価」「t検定評価」として共有されており、制約付き要約におけるGRPOの報酬設計の実例として参考になります。



