パーソナライズされたベンチマーク:個人の嗜好に基づいてLLMを評価する

arXiv cs.AI / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のLLMベンチマークが利用者の嗜好を平均化しているため、状況に応じた個々のユーザーのモデル順位付けを見えなくしていると主張しています。
  • そこで、Chatbot Arenaの活動中ユーザー115人のデータを用い、ELO評価とBradley–Terry係数によってユーザーごとのLLMランキングを算出する「パーソナライズされたLLMベンチマーク」を提案します。
  • 著者らは、個人のランキングが集計ランキングから大きく乖離し得ることを示し、Bradley–Terryの相関は平均で非常に低い(ρ = 0.04)一方、ELOの相関は中程度(ρ = 0.43)にとどまると報告しています。
  • さらに、ユーザーは話題の好みや文章・コミュニケーションのスタイルに大きな多様性があり、それが好みのLLMに影響することを分析で明らかにします。
  • トピックとスタイルを組み合わせたコンパクトな特徴量空間が、ユーザー固有のモデル順位を予測するのに有用であることを示し、個人の嗜好に沿ったベンチマークの重要性を裏付けています。

Abstract

大規模言語モデル(LLM)の能力が向上し、それらが現実のタスクへ展開されるにつれて、人間の嗜好に対するLLMのアライメントを評価することは重要な課題となっています。現在のベンチマークは、集計評価を計算するために、すべてのユーザにわたる嗜好を平均化しており、モデルのランキングを決める際に個々のユーザの嗜好を見落としています。ユーザは状況ごとに嗜好が異なるため、個々のニーズに応じてモデルを順位付けするパーソナライズされたLLMベンチマークが必要だと提案します。私たちは、115人の稼働中のChatbot Arenaユーザに対して、ELO評価とBradley-Terry係数を用いてパーソナライズされたモデル順位を計算し、ユーザのクエリ特性(トピックと文章スタイル)が、LLMの順位変動とどのように関連しているかを分析します。LLMモデルの個別の順位は、集計されたLLM順位から大きく乖離することを示します。Bradley-Terryの相関は平均してわずか ho = 0.04で(57%のユーザがほぼゼロまたは負の相関を示します)、ELO評価は中程度の相関( ho = 0.43)を示します。トピックモデリングとスタイル分析を通じて、ユーザがトピックに対する関心とコミュニケーションスタイルにおいて大きな異質性を示し、それがモデル嗜好に影響していることを見出します。さらに、トピック特徴とスタイル特徴をコンパクトに組み合わせたものが、ユーザ固有のモデル順位を予測するための有用な特徴空間となることを示します。本研究の結果は、ほとんどのユーザにとって、集計ベンチマークが個々の嗜好を捉えられていないことを強力な定量的証拠として示し、個々のユーザの嗜好に応じてLLMモデルを順位付けするパーソナライズされたベンチマークを開発することの重要性を強調します。