Prosa:実ユーザーチャット(ブラジルポルトガル語)に基づくルーブリック評価によるLLM評価

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 研究では、LLMをジャッジとして用いる「ホリスティック評価」ランキングが、選んだジャッジモデルのバイアスに強く影響され、比較結果が歪み得ることが示されました。
  • Prosaは、WildChat由来の1,000件の実ユーザ・マルチターン(ブラジルポルトガル語)会話からなる新しいベンチマークで、16のモデルを3つの異なるモデル系統のジャッジで評価します。
  • バイナリのルーブリック評価に「複数ジャッジのフィルタリング」を組み合わせることで、ジャッジモデル依存の感度を大幅に低減できました(フィルタリング適用時は16位まで3者が完全一致する一方、ホリスティックでは16中7一致のみ)。
  • ルーブリック・フィルタリングにより弁別力が高まり、隣接モデル間の平均スコア差が47%拡大したことが報告されています。
  • ベンチマークとフィルタリングコードが公開され、今後のモデル評価を同一条件で再現可能にするとともに、ルーブリック型スコアリング手法を他のオープンエンド評価にも転用できるようになります。

要旨: ホリスティックなLLM-as-a-judge(判定者)によるスコアリングで作られるランキングは、選択した判定者モデルのバイアスに敏感であることが示されている。私たちは、マルチ判定者によるフィルタリングを伴う二値ルーブリック・スコアリングへ切り替えることで、この感度が解消されることを示す。判断を分解することが、判定者モデルそれ自体よりも重要である。 この主張を裏付けるために、最初の実ユーザのマルチターン・ブラジルポルトガル語チャット・ベンチマークであるProsaを導入する。これは、16モデルを対象に、3つのモデル系統から選んだ3人の判定者によって評価された1,000件のWildChat会話からなる。 フィルタリングされたルーブリック・スコアリングでは、3人の判定者は16の順位すべてに一致するが、ホリスティック・スコアリングでは一致は16中7にとどまる。さらに、ルーブリック・フィルタリングのパイプラインは、隣接するモデル間の平均スコア差を47%増加させ、それによってProsaの弁別力を高める。 Prosaで新しいモデルを評価するコストは、判定者としてGemini 3 Flashを使用する場合、約$2.1である。将来のモデルを同一条件下で評価できるように、ベンチマークとフィルタリング用コードを公開する。これらの成果物は、Prosaの範囲を超えても、ルーブリックに基づくスコアリング手法を再利用可能にし、他のオープンエンドな評価設定を支える。