| それでは、3x Mac miniで、長さを制約したreddit投稿の要約タスクに対する私のGRPO学習のアップデートです—新しい方向性!
そこで、長さペナルティと品質指標(以下)を用いて、LFM2.5.-350MおよびQwen2.5-0,5B-Instructモデルについてt検定と評価がすべて終わった後、品質指標の結果を見て気づいたのですが、スクラッチから学習した場合はBLEUとROUGE-Lが特に低かったのです。
さて、この問題を回避するためのぼんやりしたアイデアが浮かびました。つまり、すでに64トークンをちょうど出力するように微調整されたバージョンを使ったらどうだろう、ということです。でも、そのアイデアは稲妻のように閃いて、ズーッと消えてしまいました! そのとき、Redditの人がそれを指摘してくれて、「うーん、そういえば長さペナルティだけを追加したチェックポイントはすでに持ってる!」となりました。 ここからは、皆さんが考えているように、SFTでモデルを微調整してトークン数を指定した読み取り(read number)だけ出力するようにすることもできましたし、はい、それが次の実験です。さらにDPOとの比較もやります! というわけで、現在は同じことをLFM2.5-350MとQwen2.5-0.5B-Instructの両方で学習しています!
[link] [コメント] |
GRPOで3台のMac mini上に長さ制約付き(64トークン)Reddit投稿要約タスク用の小型LLMを学習する試みの更新
Reddit r/LocalLLaMA / 2026/5/5
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 著者は、出力を厳密に64トークンに制約したReddit投稿要約タスクに対して、GRPOで小型LLMを学習する実験の進捗を共有しており、長さペナルティを入れてスクラッチ学習した際にBLEUやROUGE-Lが伸びにくかったと報告しています。
- 長さペナルティの設計が、brevity penaltyのような要因と組み合わさってテキスト品質指標を押し下げているのではないかという仮説を立て、すでに「ちょうど64トークンを出す」ように微調整されたモデルへの切り替えも検討しています。
- 現在はLFM2.5-350MとQwen2.5-0.5B-Instructの学習を継続しており、トークン長をより適切に制御できるSFT(およびDPO比較)を次の焦点にしています。
- 評価は「LLM-as-a-Judge」方式で、DeepEvalを使ってGPT-5を判定役にし、要約をfaithfulness(幻覚の有無)、coverage、conciseness、clarityの4軸でスコアリングします。
- 学習はMLX上で3台のMac miniクラスタを使用し、1台がGRPOで学習を主導し、残り2台がvLLM-metalでロールアウトを実行する構成で、smolclusterとSyncPS(同期型パラメータサーバ)アーキテクチャにより運用されています。




