リストワイズ報酬によるランキングとしての説明品質評価

arXiv cs.AI / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、説明品質評価を説明の生成ではなく、複数の候補説明を相対的な質で比較する「ランキング問題」として再定式化している。
ListNet、LambdaRank、RankNetなどのリストワイズ／ペアワイズのランキング損失を用いて報酬モデルを学習し、順序構造を維持しつつ、点数回帰や二値嗜好目的で起きがちなスコアの圧縮問題を抑える。
実験の結果、ランキング損失は回帰損失よりも一貫してドメイン横断でスコアの分離性能が高いことが示されている。
データ特性により最適な損失が変わり、品質ティアが十分に分離している場合はリストワイズが強く、自然言語のアノテーションがノイジーな場合はペアワイズのほうが頑健である。
ランキングベースのスコアをポリシー最適化の報酬として用いると、回帰ベースの報酬では失敗する設定でも安定した収束が得られ、さらに適切に整備された高品質データなら小型エンコーダが桁違いに大きいモデルに近い性能を示せると報告している。