推論タスクにおける大規模言語モデルの性能は、質問の聞き方によって影響を受けるのか?

arXiv cs.CL / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、複数選択式・真偽・短文/長文回答などのように質問の出し方を変えることで、LLMの推論タスクにおける精度が変わるかを検証しています。
  • 5つのLLMを対象に、推論ステップの精度と最終回答の選択精度という2つの観点で評価した結果、質問タイプによって性能が有意に異なることが示されました。
  • 推論ステップの精度は、最終的にモデルが正しい選択をできるかどうし必ずしも相関せず、途中の推論と結果の選択にずれが生じうることが示唆されています。
  • 選択肢の数や、質問文の具体的な言い回しが、LLMの性能に大きく影響することが明らかになりました。
  • 結果として、推論ベンチマークの評価はモデルの推論能力だけでなく、プロンプト/質問のフォーマットに強く左右される可能性があると指摘しています。

要旨: 大規模言語モデル(LLM)は、多肢選択、真偽判定、短答・長答など多様な質問形式を用いて評価されてきました。本研究は、推論課題において異なる質問形式がLLMの精度に与える影響についての未解明の問いに答えます。定量的推論課題および演繹的推論課題を用いて、3種類の異なる質問形式に対する5つのLLMの性能を調査します。評価指標には、推論手順における正確さおよび最終回答の選択に関する正確さが含まれます。主要な発見:(1)LLMの性能には、質問形式の違いによって有意な差が存在します。(2)推論の正確さは、最終選択の正確さと必ずしも相関しません。(3)選択肢の数と、用いられる語の選び方が、LLMの性能に影響します。