そこで、このタスクの2つのバリアントを学習させました:
- 長さペナルティのみを使用
- 品質報酬と長さペナルティを使用
要約の品質をチェックするために、DeepEvalツールを用いたLLM-As-A-Judgeの評価を実行しました。対象は以下です:
- Consciencess
- Coverage
- Clarity
- Faitfullness
結果は以下の通りです:
- 品質+長さペナルティ報酬の場合: 2.5/4
- 長さペナルティのみの場合: 2.4/5
結果:
ROUGE Lを品質報酬として、長さペナルティと品質報酬のあるモデルは、有意であり、片側t検定でp値は0.0042です(各モデルについて評価ラウンドを合計5回実施し、最終の複合スコアに対して算出)。
smoltldrデータセットのテストサンプル200で実施。
ベースライン: 長さペナルティのみ
- LLM-as-A-Judgeとは?
要するに、あなたが選んだ任意のLLMに、ある出力を評価させられるようにするためのものです。要約のように、その分散や主観的な性質のために決定的な報酬として簡単に切り分けられない場合があります!
このような報酬は人によって異なるため、私たちはLLMを“人”のように振る舞わせて報酬を複数回与え、結果を集計します。これは人手によるラベリングに比べて安価です!
そこで、上記の4つの要因について、私のモデルによる要約を評価するための評価システムを作るのに、DeepEvalsの素晴らしいツールを使いました:
Faithfulness: 要約は出典に完全に基づいているか?つまり、幻覚(ハルシネーション)や矛盾はないか?
Coverage: 要約は要点を、意味にとって重要な情報を落とすことなく捉えているか?
Conciseness: 要約は冗長さや不要な詳細なしで、出典より実質的に短くなっているか?
Clarity: 要約は読みやすく、文法的に整っていて、単独でも理解可能か?
複合スコアは、上記のスコアの平均です。
- 報酬システム
length_penalty: 基本的に、-abs(response_length - MAX_LENGTH)
quality_reward: ROUGE-Lです。これは基本的に、上記データセットの一部として用意した“正解要約”のLCS(最長共通部分列)です。生成される応答全体にある程度の構造を持たせ、劣化を最小限にするためです。
[link] [comments]




