要旨: 大規模言語モデル(LLM)は、人間による評価のためのスケーラブルな代理として広く採用されているが、これらの判定者は不完全であり、表面的なバイアスの影響を受けやすい。考えられる理由の一つは、判定者が解答の正しさを評価するのに十分な情報を欠いていることである。推論能力を備えたモデルの台頭により、生成器の推論内容を判定者に開示することは、より豊かな情報を提供し、判定精度を改善する自然な候補である。だが、その実際の影響が判定者のふるまいに与える効果は、十分に研究されていない。本論文では、推論チェーンへのアクセスが、事実質問応答(QA)および数学的推論のベンチマークにおけるLLMベースの判定にどのように影響するかを体系的に調査する。弱い判定者は、推論が存在するだけで簡単に影響を受け、しばしば流暢な推論を伴う誤った解答を受け入れることが分かる。一方で強い判定者は、推論を情報として部分的に活用できる。しかしそれでも、強い判定者でさえ、見かけ上質の高い推論チェーンによって誤導される。制御された実験により、推論チェーンの流暢さと事実性の両方が、判定者の意思決定を駆動する重要なシグナルであることも明らかになる。これらの知見は、現代の推論モデルを評価する際に、表面的な流暢さと真に妥当な推論の質とを区別できる、より頑健なLLM判定者が必要であることを示している。
推論チェーンの長さがLLMの回答の事実性判断に与える影響
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMのジャッジに生成モデルの推論チェーンを提示すると、事実性QAおよび数学推論のベンチマークにおいて、ジャッジが回答の事実性を評価する能力がどのように変化するかを研究する。
- 「弱い」ジャッジはしばしば推論の存在に過度に影響され、流暢に聞こえる説明が伴う場合に誤った回答を受け入れやすいことが分かる。
- 「強い」ジャッジは、推論を正しさの部分的な根拠として利用できるが、それでも質が高く見える推論チェーンにしばしば惑わされる。
- 制御された実験により、推論チェーンの流暢さと事実性の両方が、ジャッジの判断を導く重要なシグナルとして機能し、表面的な推論が結果を偏らせ得ることが示される。
- これらの結果は、頑健なLLMジャッジは、現代の推論能力を持つモデルを評価する際に、本当に有益な推論と表面的な流暢さを見分けられる必要があることを示唆している。



