連結トークン生成による大規模言語モデルの評価

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルの評価・ランキング付けは、生成の内在的なランダム性を考慮して制御すべきだと主張する。なぜなら、同一のプロンプトに対して反復実行すると異なる出力が得られ得るからである。
  • 「連結自己回帰生成(coupled autoregressive generation)」のための因果モデルを提案し、複数のLLMを同一の基盤となるランダム性の出所からサンプリングできるようにする。
  • ベンチマーク・データセットでの評価では、連結生成は標準(バニラ)サンプリングと同じランキング結論を導く一方で、証明可能な範囲で必要サンプル数がより少ない。
  • しかし、人手による二者択一(ペアワイズ)比較の評価では、2モデルを超えて比較すると、たとえサンプル数を無限大にしても連結サンプリングとバニラ・サンプリングでモデルのランキングが異なり得ることが示される。これは、現状の評価上の利点がランダム性によって交絡されている可能性を示唆する。
  • Llama、Mistral、Qwen の各ファミリにまたがる実験では、同じベンチマーク結論に到達するために最大75%少ないサンプルで済むことが示され、またLMSYS Chatbot Arena のプロンプトに対する勝率は2つのサンプリング手法で異なる。