100択に拡張した多肢選択評価で限界領域を押し広げる

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、選択肢数が少ない従来の多肢選択LLMベンチマークでは、ショートカット戦略によって精度が過大評価され、モデルの真の能力が見えにくくなると主張する。
  • そこで、最大100候補まで候補集合を大きくする「大量オプション評価」プロトコルを提案し、偶然による成績への影響を減らしてより安定した精度推定を可能にする。
  • 韓国語の正書法エラー検出タスクに適用すると、反復的なリサンプリングとシャッフルにより、実際の内容に基づく失敗と、位置バイアスなどのアーティファクトを切り分けられることが示される。
  • 実験では、低い選択肢数で良好に見えたモデルの優位が、妨害(ダイストラクタ)密度が高い場合に弱まり、従来ベンチマークが見落としがちな能力の欠落が明確になる。
  • 失敗モードとして「意味の混同」と「不確実性下での早い選択肢への位置バイアス」を特定し、パディング制御と長さマッチのテストからボトルネックは文脈長ではなく候補ランキングである可能性を示す。

Abstract

多肢選択による評価は、大規模言語モデルのベンチマークに広く用いられていますが、選択肢数が少ない設定では、真の能力を覆い隠すショートカット戦略によって天井精度に近い精度が維持され得ます。そこで本研究では、候補集合を100の選択肢まで拡大し、偶然による成績の影響を大幅に低減する大規模オプション評価プロトコルを提案します。この枠組みを、モデルが大きな候補集合から単一の誤り文を選ばなければならない、韓国語の正書法誤り検出タスクに適用します。固定したターゲットと、繰り返しの再サンプリングおよびシャッフルを用いることで、位置に起因するアーティファクトと内容に起因する失敗を切り分けつつ、安定した推定値を得ます。実験を通じて、選択肢が少ない設定における高い性能が、モデルの能力を過大評価し得ることが示されます。この一見した優位性は、多数の干渉が生じる大きな N のもとではしばしば弱まり、従来のベンチマークでは見えにくいギャップが明らかになります。失敗のモードとして、意味的な混同と、不確実性の下で初期の選択肢に偏る位置バイアスの2種類を特定します。文脈長の影響を切り分けるため、パディングを制御したテストおよび長さを一致させたテストを行ったところ、主なボトルネックは文脈長ではなく候補のランキングであることが示唆されます。これらの知見は、大規模オプション評価を、極端な選別妨害(ディストラクタ)密度のもとでモデルの信頼性をストレステストするための一般的な枠組みとして位置づけるものであり、低選択肢ベンチマークでは明らかにできない領域を超えた評価を可能にします。