Abstract
大規模言語モデル(LLM)の能力が向上し、それらが現実のタスクへ展開されるにつれて、人間の嗜好に対するLLMのアライメントを評価することは重要な課題となっています。現在のベンチマークは、集計評価を計算するために、すべてのユーザにわたる嗜好を平均化しており、モデルのランキングを決める際に個々のユーザの嗜好を見落としています。ユーザは状況ごとに嗜好が異なるため、個々のニーズに応じてモデルを順位付けするパーソナライズされたLLMベンチマークが必要だと提案します。私たちは、115人の稼働中のChatbot Arenaユーザに対して、ELO評価とBradley-Terry係数を用いてパーソナライズされたモデル順位を計算し、ユーザのクエリ特性(トピックと文章スタイル)が、LLMの順位変動とどのように関連しているかを分析します。LLMモデルの個別の順位は、集計されたLLM順位から大きく乖離することを示します。Bradley-Terryの相関は平均してわずか
ho = 0.04で(57%のユーザがほぼゼロまたは負の相関を示します)、ELO評価は中程度の相関(
ho = 0.43)を示します。トピックモデリングとスタイル分析を通じて、ユーザがトピックに対する関心とコミュニケーションスタイルにおいて大きな異質性を示し、それがモデル嗜好に影響していることを見出します。さらに、トピック特徴とスタイル特徴をコンパクトに組み合わせたものが、ユーザ固有のモデル順位を予測するための有用な特徴空間となることを示します。本研究の結果は、ほとんどのユーザにとって、集計ベンチマークが個々の嗜好を捉えられていないことを強力な定量的証拠として示し、個々のユーザの嗜好に応じてLLMモデルを順位付けするパーソナライズされたベンチマークを開発することの重要性を強調します。