GRPOで3台のMac mini上に長さ制約付き（64トークン）Reddit投稿要約タスク用の小型LLMを学習する試みの更新

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者は、出力を厳密に64トークンに制約したReddit投稿要約タスクに対して、GRPOで小型LLMを学習する実験の進捗を共有しており、長さペナルティを入れてスクラッチ学習した際にBLEUやROUGE-Lが伸びにくかったと報告しています。
長さペナルティの設計が、brevity penaltyのような要因と組み合わさってテキスト品質指標を押し下げているのではないかという仮説を立て、すでに「ちょうど64トークンを出す」ように微調整されたモデルへの切り替えも検討しています。
現在はLFM2.5-350MとQwen2.5-0.5B-Instructの学習を継続しており、トークン長をより適切に制御できるSFT（およびDPO比較）を次の焦点にしています。
評価は「LLM-as-a-Judge」方式で、DeepEvalを使ってGPT-5を判定役にし、要約をfaithfulness（幻覚の有無）、coverage、conciseness、clarityの4軸でスコアリングします。
学習はMLX上で3台のMac miniクラスタを使用し、1台がGRPOで学習を主導し、残り2台がvLLM-metalでロールアウトを実行する構成で、smolclusterとSyncPS（同期型パラメータサーバ）アーキテクチャにより運用されています。

長さ制約のあるreddit投稿の要約タスクにGRPOを使って3x Mac Minisで小型LLMを訓練しようとしている—アップデート！

それでは、3x Mac miniで、長さを制約したreddit投稿の要約タスクに対する私のGRPO学習のアップデートです—新しい方向性！

要旨：ちょうど64トークンを使って要約する、要約モデルをどれくらいの性能まで訓練できるのかを試してみようとしていました！

そこで、長さペナルティと品質指標（以下）を用いて、LFM2.5.-350MおよびQwen2.5-0,5B-Instructモデルについてt検定と評価がすべて終わった後、品質指標の結果を見て気づいたのですが、スクラッチから学習した場合はBLEUとROUGE-Lが特に低かったのです。

私がそう考えた理由は、私が追加した長さペナルティのせいで、出力がちょうど64トークンになったとしても、ROUGE-LとBLEUの計算における長さペナルティ（たとえばbrevity penalty）まで含めて、長さの他の変動に対してもペナルティを受けてしまうのではないか、と思ったからです。

さて、この問題を回避するためのぼんやりしたアイデアが浮かびました。つまり、すでに64トークンをちょうど出力するように微調整されたバージョンを使ったらどうだろう、ということです。でも、そのアイデアは稲妻のように閃いて、ズーッと消えてしまいました！

そのとき、Redditの人がそれを指摘してくれて、「うーん、そういえば長さペナルティだけを追加したチェックポイントはすでに持ってる！」となりました。

ここからは、皆さんが考えているように、SFTでモデルを微調整してトークン数を指定した読み取り（read number）だけ出力するようにすることもできましたし、はい、それが次の実験です。さらにDPOとの比較もやります！

というわけで、現在は同じことをLFM2.5-350MとQwen2.5-0.5B-Instructの両方で学習しています！

評価：

LLM-as-a-Judge（gpt-5）

DeepEvalを使って、各要約を4つの軸で採点するジャッジ用のパイプラインを構築しました：

忠実性—幻覚がないか／出典との整合性
カバレッジ—重要なポイントを捉えられているか
簡潔さ—短く、冗長でないか
明瞭さ—それ単体で読めるか

分散学習のセットアップ：

クラスター内の3x Mac MinisでMLXを実行。

1つのノードがGRPOで学習を駆動し、2つのノードがvLLM-metalフレームワーク経由でロールアウトをプッシュします。

すべての作業はsmolclusterを使って行いました。

SyncPSアーキテクチャを使用。同期型パラメータサーバのアーキテクチャで、マスターが学習が行われるノードであり、ワーカーノード上のvllmがそれに従います。

https://preview.redd.it/dy01xrra4azg1.png?width=5034&format=png&auto=webp&s=9e9165673e639c049d66ef38a0d270244c81b391

https://preview.redd.it/a9paftra4azg1.png?width=5040&format=png&auto=webp&s=96165e9698f6e017f0274953523dd3192942b53f

https://preview.redd.it/11q79tra4azg1.png?width=5040&format=png&auto=webp&s=6e09e1c7db8bdfa7ea76d3af64c5b497a505a958

投稿者 /u/East-Muffin-6472
[link] [コメント]