Cognitive Loop of Thought:効率的な数学的推論のための可逆階層型マルコフ連鎖

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデル(LLM)における長い連鎖的推論(chain-of-thought)を、より計算効率よく行うことを目的とした「Cognitive Loop of Thought(CLoT)」という可逆階層型マルコフ連鎖ベースの枠組みを提案する。
  • CLoTは、階層的な下位問題分解、高い層ごとの後向き検証、そして高い層での検証後に冗長な低レベル手順を刈り込むことを組み合わせることで、従来のマルコフ/long-CoTアプローチの弱点に対処する。
  • 枠組みの後向き推論と検証メカニズムを支えるため、新たな指示形式の後向き推論データセット「CLoT-Instruct」を提案する。
  • 4つの数学ベンチマークでの実験により、頑健性の向上と誤り伝播の抑制が示される。GPT-4o-miniによるAddSubでの報告精度は99.0%であり、ベースラインのCoTバリアントをそれぞれ4.1%および2.9%上回った。
  • 全体として本研究は、長いchain-of-thoughtによる推論の質を維持しつつ、広く普及を妨げる長系列長やKVキャッシュの非効率を削減することを目指している。

Abstract

多段のChain-of-Thought(CoT)は、明示的な推論ステップを活用することで、LLMの数学的推論能力を大きく前進させてきました。しかし、Long CoTが広く普及することで、扱い可能な計算上の制限を超えるほど長いシーケンス長が生じることがしばしばあります。既存の手法では、マルコフ連鎖のような構造によりKVキャッシュの冗長性を減らすことでこの問題を緩和しようとしていますが、そこには2つの重要な制限があります。すなわち、固有の「メモリレス性」(文脈の喪失)と、「後ろ向きの推論能力」の限界です。これらの制限に対処するために、Reversible Hierarchical Markov Chainに基づく新しいChain-of-Thoughtフレームワーク、Cognitive Loop of Thought(CLoT)と、後ろ向き推論データセットであるCLoT-Instructを提案します。CLoTでは、問題を階層的な依存関係を持つサブ問題へと分解します。人間の認知プロセスに着想を得て、各階層レイヤで後ろ向き検証メカニズムを導入します。さらに、剪定戦略も実装します。すなわち、上位レベルのサブ問題が検証された時点で、冗長な下位レベルのサブ問題を剪定し、効率を最大化します。このアプローチにより、誤り伝播を効果的に抑制し、推論の頑健性を高めることができます。4つの数学ベンチマークでの実験により、本手法の有効性が示されます。特に、GPT-4o-miniを用いたAddSubデータセットでは、CLoTは99.0%の精度を達成しており、従来のCoTおよびCoT-SCをそれぞれ4.1%および2.9%上回ります。