粗い評価から細かな評価へ:文章生成タスク向けベンチマークと報酬モデリング

arXiv cs.CL / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、文章中心の生成タスクに対する既存のベンチマークや報酬モデルが粗すぎており、特定の文章要件に基づく性能を十分に測れていないと指摘しています。
  • 複数のタスクカテゴリと要件タイプにわたって、報酬モデルの順位付けと正解(ゴールド)順位付けの相関を測ることで評価する、きめ細かな評価パイプラインWEvalを提案しています。
  • さらにWRLとして、指示要件を選択的に落とすことでポジティブ/ネガティブサンプルを作り、要件への適合性をより正確に学習する強化学習の枠組みを提案しています。
  • 実験では複数の文章ベンチマークで大きな改善と強い汎化が示され、コードとデータは公開されています。

粗い評価から細かな評価へ:文章生成タスク向けベンチマークと報酬モデリング | AI Navigate