概要: 大規模言語モデル(LLM)は、*first-token probability*(FTP)を用いた複数選択式の質問応答(MCQA)タスクで、ますます多く評価されるようになっています。FTPは、最初のトークンが最も高い尤度を持つ回答選択肢を選びます。効率的ではあるものの、FTPは脆い場合があります。モデルが無関係なトークンに高い確率を割り当てる(*ミスアラインメント*)ことがあったり、明確な回答選択肢としてではなく、汎用的な前置きの一部として妥当なトークンを用いたりする(*ミスインタープリテーション*)ことで、象徴的評価の信頼性が損なわれます。そこで、私たちは単純な解決策を提案します。それは、*prefilling attack*(プリフィリング攻撃)です。これは、モデル出力の前に付加する、構造化された自然言語の接頭辞(例:「*The correct option is:*」)です。元々AIセーフティの分野で検討されていたこの手法を、パラメータを変更せずに、モデルに対してクリーンで有効な選択肢のみを返すよう誘導するために転用します。実験的に、プリフィリング戦略付きFTPは、幅広いLLMおよびMCQAベンチマークにおいて、精度、校正(キャリブレーション)、および出力の一貫性を大幅に改善します。これは標準的なFTPを上回り、さらに、完全なデコードと外部分類器を必要とするオープンエンド生成アプローチの性能にしばしば匹敵します。一方で、計算効率は大きく向上します。私たちの結果は、プリフィリングが、多肢選択設定におけるFTPベース評価の信頼性を高める、単純で頑健かつ低コストな手法であることを示唆しています。
出力プリフィリングによる、多肢選択式質問応答におけるLLMの最初のトークン予測の改善
arXiv cs.CL / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多肢選択式QAにおいて最初のトークン確率(FTP)でLLMを評価する際に信頼性の問題があることを論じる。具体的には、モデルが無関係なトークンに対して整合してしまったり、回答選択肢を明確に選ばずに妥当な前置き(preamble)トークンを出してしまう場合がある。
- そこで、モデル出力に「The correct option is:」のような構造化された自然言語の接頭辞(output prefilling)を追加し、モデルのパラメータを変更せずに、生成をクリーンで有効な選択肢の出力へ誘導する手法を提案する。
- 実験の結果、FTPにプリフィリングを組み合わせることで、複数のLLMおよびMCQAベンチマークにおいて精度・校正(calibration)・一貫性が大きく改善されることが示される。
- このプリフィリング手法は、標準的なFTPよりも優れることが報告されており、場合によっては、より高コストな自由形式生成+外部分類器方式の性能に匹敵する一方で、効率性は大幅に高いままである。
- 著者らは、プリフィリングは、多肢選択式の設定においてFTPベースの記号的評価をより信頼できるものにするための、シンプルで頑健かつ低コストな技術だと結論づけている。



