LLMを審判として用いた法務テキストQAにおけるプロンプト最適化による「審判の気質」の活用

arXiv cs.CL / 2026/4/23

📰 ニュースModels & Research

共有:

要点

本研究は、LEXamベンチマークにおける自由形式の法務QAで、LLM-as-a-Judge（審判役LLM）評価がプロンプト設計と審判LLMの選択にどう左右されるかを調べています。
Qwen3-32B と DeepSeek-V3 の2種類の審判からのフィードバックを、4つのタスクモデルに対して ProTeGi 手法でプロンプト最適化し、結果として自動最適化が人手中心のベースラインを一貫して上回ることを示しています。
審判のフィードバックが「寛容（lenient）」な場合は「厳格（strict）」な場合よりも改善幅と再現性が大きく、寛容フィードバックで最適化したプロンプトの方が厳格な審判へも転移しやすいと報告されています。
分析では、寛容な審判がより許容的なフィードバックを与えることで汎用性の高いプロンプトが得られる一方、厳格な審判は制約的なフィードバックを通じて審判固有の過学習（overfitting）を招くと説明しています。
以上より、学習データ上でプロンプトをアルゴリズム的に最適化することで手作業のプロンプト設計を上回り得ること、そして審判の「気質」が一般化性能に決定的に影響することを結論づけており、コードと最適化済みプロンプトはGitHubで公開されています。

note

note

note

note

Reddit r/MachineLearning