正しいチェーン、間違った回答:LLMのロジックにおける推論と出力の分離
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルが、最終的な回答が誤っていながらも、完全に正しい段階的なチェーン・オブ・ソート(思考過程)の推論を生成しうることを示し、「推論の正しさ」と「出力の正しさ」の間にギャップがあることを明らかにしている。
- 「Novel Operator Test(新規オペレータ・テスト)」というベンチマークを導入し、複数の深さにわたって、未知の命名規則のもとでブール演算の推論を評価することで、演算子ロジックと演算子名を切り分ける。
- 5つのモデルに対して(各最大8,100問)実験を行った結果、既存のベンチマークでは検出できない推論―出力の分離が確認できた。たとえばClaude Sonnet 4では、観測された誤りがすべて、検証可能な正しい推論を伴っていたにもかかわらず、宣言された回答が誤っていたケースがある。
- 研究では、主な失敗モードとして2つを特定している。浅い深さでの戦略的失敗(モデルが簡潔な検索に過度に依存してしまう)と、より深いところでの内容的失敗(介入後も、正しく推論しているが体系的な誤りを犯し続ける)である。
- 「トロイの木馬オペレータ」実験(XORの真理値表に新しい名称を付け替える)から、名称だけでは推論の正しさは決まらないことが示される。一方で、新規性が増すにつれて性能低下が拡大する挙動を示すモデルもある。
