3台のMac MiniでGRPOを使い、Reddit投稿要約にLFM-2.5-350Mを学習—最終評価とt検定評価はこちら [P]

Reddit r/MachineLearning / 2026/4/25

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この投稿では、厳しい長さ制約（約64トークン）付きのReddit投稿要約タスクに対して、GRPOを用いて小型LLM（「LFM-2.5-350M」）を学習し、出力を短く制限しても良質で簡潔な要約を作れるかを検証しています。
報酬の設定は2通りを比較しており、「長さペナルティのみ」の構成と、「ROUGE-L/METEORなどの品質に基づく報酬を長さペナルティと組み合わせた」構成を用意して効果を比べています。
DeepEvalのLLM-as-a-judge評価（Consciencess、Coverage、Clarity、Faitfullness）でバリアントを比較し、最良構成は長さペナルティ単独（約2.23/4）に対してコンポジットスコアが約2.769/4まで向上したと報告しています。
さらにt検定に基づくランキングも示されており、長さだけでなく品質報酬を組み込むことで、コンポジットスコアや信頼性（faithfulness）関連の指標が改善する傾向がある一方、合格率（pass rate）は報酬タイプにより変動することが分かります。
実験は著者の3台のMac Miniで実施され、「最終評価」「t検定評価」として共有されており、制約付き要約におけるGRPOの報酬設計の実例として参考になります。

GRPOで私の3x Mac Minis上でReddit投稿の要約を学習したLFM-2.5-350M — 最終評価とt-test評価はこちら [P]

そこで、このプロジェクトでは、長さ制約（たとえば64トークンのみ）の品質の高い要約が、GRPOを使って小型LLMで実現できるかどうかを検証したいです！

https://preview.redd.it/zynqkm0osaxg1.png?width=2816&format=png&auto=webp&s=7790bcdb17ddf57cd5e9c1037885127b6d5452e5

このタスクについて、2つのバリアントを学習しました：

単に長さペナルティのみを使用
品質報酬（それらの組み合わせ）を1つと長さペナルティを使用

要約の品質をチェックするために、DeepEvalツールを使ってLLM-As-A-Judgeで評価しました。評価軸は以下です：

Consciencess
Coverage
Clarity
Faitfullness

結果は添付のとおりで、最終結果は以下です：

品質（ROUGE-L + METEOR）＋長さペナルティの報酬：2.7/4（また勝った！）
長さペナルティのみ：2.23/4

その他の報酬に対するt-testのランキング：

要約テーブル

報酬コンフィグレーション	複合スコア	忠実性	カバレッジ	簡潔さ	明瞭さ	合格率
`length-quality-meteor-rouge` ⭐	2.769	0.832	0.511	0.659	0.767	44.3%
`length-quality-bleu-rouge`	2.732	0.810	0.502	0.650	0.770	39.1%
`length-quality-meteor-bleu`	2.664	0.792	0.468	0.648	0.756	38.3%
`length-quality-rouge-l`	2.555	0.725	0.415	0.637	0.778	32.4%
`length-quality-meteor`	2.484	0.721	0.427	0.625	0.711	—
`length-quality-bleu`	2.400	0.680	0.399	0.577	0.744	26.9%
`length-only` (baseline)	2.416	0.678	0.407	0.592	0.739	30.7%

smoltldrデータセットのテストサンプル200で実施。ベースライン：長さペナルティのみ

コメント欄に、すべてのコードとwandbのチャートがあります！

セットアップ：MLXを動かすクラスタ上で、3x Mac Minis

1ノードがGRPOで学習を駆動し、2ノードがvLLM-metalフレームワーク経由でロールアウトをプッシュします。すべての作業はsmolcluster.comで行いました。

SyncPSアーキテクチャを使用しました。これは、マスターが学習が行われるノードで、ワーカーノード上のvllmがそれに対応する同期型パラメータサーバー・アーキテクチャです。

評価：

LLM-as-a-Judge（gpt-5）

DeepEvalを使って、各要約を4つの軸でスコアリングするジャッジのパイプラインを構築しました：

Faithfulness — 生成の幻覚がないか（対：ソース） Coverage — 重要ポイントが捉えられているか簡潔さ — 短いこと／冗長さがないこと明瞭さ — 単体で読めること

複合スコアは、上記スコアの平均です。

報酬システム

length_penalty：基本的に、-abs(response_length - MAX_LENGTH)

quality_rewards：

ROUGE-Lは最長共通部分列だけを気にするため、同義語や言い換え（パラフレーズ）を完全に見落とします。

一方でMETEORは両方を扱います。WordNetを使って同義語のマッチングによりトークンを整列させ、精度＋再現率のバランスを、チャンク順序に対するペナルティで調整します。

BLEUは、よりn-gramの精度と長さペナルティに焦点を当てています。

投稿者： /u/East-Muffin-6472
[link] [comments]