正しいチェーン、間違った回答:LLMのロジックにおける推論と出力の分離

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルが、最終的な回答が誤っていながらも、完全に正しい段階的なチェーン・オブ・ソート(思考過程)の推論を生成しうることを示し、「推論の正しさ」と「出力の正しさ」の間にギャップがあることを明らかにしている。
  • 「Novel Operator Test(新規オペレータ・テスト)」というベンチマークを導入し、複数の深さにわたって、未知の命名規則のもとでブール演算の推論を評価することで、演算子ロジックと演算子名を切り分ける。
  • 5つのモデルに対して(各最大8,100問)実験を行った結果、既存のベンチマークでは検出できない推論―出力の分離が確認できた。たとえばClaude Sonnet 4では、観測された誤りがすべて、検証可能な正しい推論を伴っていたにもかかわらず、宣言された回答が誤っていたケースがある。
  • 研究では、主な失敗モードとして2つを特定している。浅い深さでの戦略的失敗(モデルが簡潔な検索に過度に依存してしまう)と、より深いところでの内容的失敗(介入後も、正しく推論しているが体系的な誤りを犯し続ける)である。
  • 「トロイの木馬オペレータ」実験(XORの真理値表に新しい名称を付け替える)から、名称だけでは推論の正しさは決まらないことが示される。一方で、新規性が増すにつれて性能低下が拡大する挙動を示すモデルもある。

Abstract

LLMは、推論の連鎖(chain-of-thought)におけるすべてのステップを正しく実行できるとしても、それでもなお最終回答を誤ることがあります。我々は、オペレータの論理をオペレータ名から切り離すベンチマークであるNovel Operator Test(新規オペレータ試験)を導入します。これにより、本当に推論していることと、パターンの想起(retrieval)によるものを、厳密に識別できるようになります。5つのモデルで、深さ1〜10の範囲にわたり、見慣れない名前のもとでブール演算子を評価し(各モデルにつき最大8,100問)、既存のベンチマークでは検出できない、推論出力の解離(reasoning-output dissociation)を示します。Claude Sonnet 4の深さ7では、宣言された答えが誤っているにもかかわらず、31件すべての誤りについて検証可能な正しい推論が確認されます。混合オペレータの連鎖における19件中17件の誤りでも同様のパターンが見られます。このベンチマークにより、2種類の失敗タイプが明らかになります。深さ2で生じる戦略的失敗(strategy failures)では、モデルが簡潔な想起を試みます(足場付け/scaffoldingから+62pp)。一方、深さ7で生じる内容的失敗(content failures)では、モデルは十分に推論しますが、それでも体系的に誤ります(+8〜30pp、介入後は0/300の誤り)。トロイの木馬的オペレータ(XORの真理値表を新規名のもとで提示)により、名前だけでは推論のゲートとして機能しないことが確認されます(p >= 0.49)。また、Llamaでは新規性のギャップが深さ8〜9で28ppまで広がり、トロイの木馬が92〜100%に達することで、“新規な論理”に起因する本質的な困難さと、“名前への不慣れ”による困難さを切り分けます。