GRPOで3台のMac Mini上にて長さ制約付きのReddit投稿要約タスクでQwen2.5-0.5B-Instructを学習—評価アップデート

Reddit r/LocalLLaMA / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、明示的な長さ制約付きでReddit投稿の要約を行うために、Qwen2.5-0.5B-Instructの2つのバリアントを微調整し、長さペナルティのみと品質+長さの報酬を比較した。
  • LLM-as-a-Judgeによって要約の品質を評価し、DeepEvalの指標(Faithfulness、Coverage、Conciseness、Clarity)を用いてから、複合的な平均スコアを算出した。
  • 長さペナルティに加えて品質報酬(ROUGE-L)を導入したことで、長さペナルティのみの場合(2.4/5)よりもわずかに性能が向上した(2.5/4)。
  • 品質+長さペナルティのモデルは、smoltldrデータセットの200サンプル部分集合に対して、5回の評価ラウンドにわたる最終複合スコアで統計的に有意な差を示した(片側t検定、p=0.0042)。
  • この記事では、報酬が主観的であったり、厳密に定義しづらい場合に、人手によるラベルの代替としてLLM-as-a-Judgeを用いる妥当性についても説明している。

そこで、このタスクの2つのバリアントを学習させました:

  • 長さペナルティのみを使用
  • 品質報酬と長さペナルティを使用

要約の品質をチェックするために、DeepEvalツールを用いたLLM-As-A-Judgeの評価を実行しました。対象は以下です:

  • Consciencess
  • Coverage
  • Clarity
  • Faitfullness

結果は以下の通りです:

  • 品質+長さペナルティ報酬の場合: 2.5/4
  • 長さペナルティのみの場合: 2.4/5

結果:

ROUGE Lを品質報酬として、長さペナルティと品質報酬のあるモデルは、有意であり、片側t検定でp値は0.0042です(各モデルについて評価ラウンドを合計5回実施し、最終の複合スコアに対して算出)。

smoltldrデータセットのテストサンプル200で実施。

ベースライン: 長さペナルティのみ

  • LLM-as-A-Judgeとは?

要するに、あなたが選んだ任意のLLMに、ある出力を評価させられるようにするためのものです。要約のように、その分散や主観的な性質のために決定的な報酬として簡単に切り分けられない場合があります!

このような報酬は人によって異なるため、私たちはLLMを“人”のように振る舞わせて報酬を複数回与え、結果を集計します。これは人手によるラベリングに比べて安価です!

そこで、上記の4つの要因について、私のモデルによる要約を評価するための評価システムを作るのに、DeepEvalsの素晴らしいツールを使いました:

Faithfulness: 要約は出典に完全に基づいているか?つまり、幻覚(ハルシネーション)や矛盾はないか?

Coverage: 要約は要点を、意味にとって重要な情報を落とすことなく捉えているか?

Conciseness: 要約は冗長さや不要な詳細なしで、出典より実質的に短くなっているか?

Clarity: 要約は読みやすく、文法的に整っていて、単独でも理解可能か?

複合スコアは、上記のスコアの平均です。

  • 報酬システム

length_penalty: 基本的に、-abs(response_length - MAX_LENGTH)

quality_reward: ROUGE-Lです。これは基本的に、上記データセットの一部として用意した“正解要約”のLCS(最長共通部分列)です。生成される応答全体にある程度の構造を持たせ、劣化を最小限にするためです。

submitted by /u/East-Muffin-6472
[link] [comments]