出力プリフィリングによる、多肢選択式質問応答におけるLLMの最初のトークン予測の改善

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多肢選択式QAにおいて最初のトークン確率（FTP）でLLMを評価する際に信頼性の問題があることを論じる。具体的には、モデルが無関係なトークンに対して整合してしまったり、回答選択肢を明確に選ばずに妥当な前置き（preamble）トークンを出してしまう場合がある。
そこで、モデル出力に「The correct option is:」のような構造化された自然言語の接頭辞（output prefilling）を追加し、モデルのパラメータを変更せずに、生成をクリーンで有効な選択肢の出力へ誘導する手法を提案する。
実験の結果、FTPにプリフィリングを組み合わせることで、複数のLLMおよびMCQAベンチマークにおいて精度・校正（calibration）・一貫性が大きく改善されることが示される。
このプリフィリング手法は、標準的なFTPよりも優れることが報告されており、場合によっては、より高コストな自由形式生成＋外部分類器方式の性能に匹敵する一方で、効率性は大幅に高いままである。
著者らは、プリフィリングは、多肢選択式の設定においてFTPベースの記号的評価をより信頼できるものにするための、シンプルで頑健かつ低コストな技術だと結論づけている。

概要: 大規模言語モデル（LLM）は、*first-token probability*（FTP）を用いた複数選択式の質問応答（MCQA）タスクで、ますます多く評価されるようになっています。FTPは、最初のトークンが最も高い尤度を持つ回答選択肢を選びます。効率的ではあるものの、FTPは脆い場合があります。モデルが無関係なトークンに高い確率を割り当てる（*ミスアラインメント*）ことがあったり、明確な回答選択肢としてではなく、汎用的な前置きの一部として妥当なトークンを用いたりする（*ミスインタープリテーション*）ことで、象徴的評価の信頼性が損なわれます。そこで、私たちは単純な解決策を提案します。それは、*prefilling attack*（プリフィリング攻撃）です。これは、モデル出力の前に付加する、構造化された自然言語の接頭辞（例:「*The correct option is:*」）です。元々AIセーフティの分野で検討されていたこの手法を、パラメータを変更せずに、モデルに対してクリーンで有効な選択肢のみを返すよう誘導するために転用します。実験的に、プリフィリング戦略付きFTPは、幅広いLLMおよびMCQAベンチマークにおいて、精度、校正（キャリブレーション）、および出力の一貫性を大幅に改善します。これは標準的なFTPを上回り、さらに、完全なデコードと外部分類器を必要とするオープンエンド生成アプローチの性能にしばしば匹敵します。一方で、計算効率は大きく向上します。私たちの結果は、プリフィリングが、多肢選択設定におけるFTPベース評価の信頼性を高める、単純で頑健かつ低コストな手法であることを示唆しています。