「ベスト」を定義するのは誰か:ユーザーが定義できるLLMリーダーボード評価のためのインタラクティブ手法

arXiv cs.AI / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • LLMリーダーボードはモデル比較に広く使われ、導入判断を支えていますが、そのランキングは多くの場合、実際のユーザーや組織の目標・制約ではなくベンチマーク設計者の評価優先度に強く左右されています。
  • 本研究ではLMArena(旧Chatbot Arena)のデータセットを分析し、特定の話題への偏り、プロンプト「スライス」ごとのランク変動、そして嗜好ベースの判断が本来の範囲を曖昧にしてしまう点を明らかにしています。
  • こうした課題を踏まえ、ユーザーがプロンプトスライスを選択して重み付けし、自分の評価優先度を定義できるインタラクティブな可視化インターフェースを提案します。
  • 定性的な調査では、このインタラクティブなアプローチが透明性を高め、文脈に即したより具体的なLLM評価を可能にすることが示され、リーダーボード設計・利用の別のあり方を示唆しています。

概要: LLMのリーダーボードは、モデルを比較し、導入の意思決定を導くために広く使われています。しかし、リーダーボードの順位は、実際の利用者や組織が持つ多様な目的や制約ではなく、ベンチマーク設計者が設定した評価の優先事項によって形づくられます。単一の集約スコアは、さまざまなプロンプトの種類や構成にわたってモデルがどのように振る舞うかをしばしば見えなくしてしまいます。本研究では、LMArena(旧称: Chatbot Arena)ベンチマークで使われているデータセットを対象に詳細な分析を行い、設計プローブとしてインタラクティブな可視化インターフェースを設計することで、この評価上の課題に取り組みます。分析の結果、データセットは特定のトピックに強く偏っていること、モデルのランキングはプロンプトの切り口ごとに変動すること、そして嗜好(選好)に基づく判断が、本来の意図された範囲を曖昧にする形で用いられていることが明らかになりました。この分析を踏まえて、ユーザがプロンプトの切り口を選択し重み付けすることで自身の評価の優先事項を定義でき、さらにそれに応じて順位がどのように変化するかを探究できる可視化インターフェースを提案します。質的研究は、このインタラクティブなアプローチが透明性を高め、より文脈に即したモデル評価を支援することを示唆しており、LLMリーダーボードの設計・活用に関する代替的な方法へとつながる可能性を示しています。