推論タスクにおける大規模言語モデルの性能は、質問の聞き方によって影響を受けるのか？

arXiv cs.CL / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、複数選択式・真偽・短文／長文回答などのように質問の出し方を変えることで、LLMの推論タスクにおける精度が変わるかを検証しています。
5つのLLMを対象に、推論ステップの精度と最終回答の選択精度という2つの観点で評価した結果、質問タイプによって性能が有意に異なることが示されました。
推論ステップの精度は、最終的にモデルが正しい選択をできるかどうし必ずしも相関せず、途中の推論と結果の選択にずれが生じうることが示唆されています。
選択肢の数や、質問文の具体的な言い回しが、LLMの性能に大きく影響することが明らかになりました。
結果として、推論ベンチマークの評価はモデルの推論能力だけでなく、プロンプト／質問のフォーマットに強く左右される可能性があると指摘しています。

要旨: 大規模言語モデル（LLM）は、多肢選択、真偽判定、短答・長答など多様な質問形式を用いて評価されてきました。本研究は、推論課題において異なる質問形式がLLMの精度に与える影響についての未解明の問いに答えます。定量的推論課題および演繹的推論課題を用いて、3種類の異なる質問形式に対する5つのLLMの性能を調査します。評価指標には、推論手順における正確さおよび最終回答の選択に関する正確さが含まれます。主要な発見:（1）LLMの性能には、質問形式の違いによって有意な差が存在します。（2）推論の正確さは、最終選択の正確さと必ずしも相関しません。（3）選択肢の数と、用いられる語の選び方が、LLMの性能に影響します。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

Dev.to

推論タスクにおける大規模言語モデルの性能は、質問の聞き方によって影響を受けるのか？

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力