AI Navigate

EndoCoT: 拡散モデルにおける内生的連鎖思考推論のスケーリング

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • EndoCoTは、内生的連鎖思考フレームワークを導入し、反復的な思考ガイダンスモジュールを通じて潜在的思考状態を反復的に洗練させ、それらの状態を拡散モデルのノイズ除去プロセスに結びつけます。
  • 拡散フレームワークでMLLMをテキストエンコーダとして用いる際の2つの重要な制限(単一ステップエンコーディングによる推論深さの不足とデコーディング中のガイダンスの不変性)に対処し、進行的な推論とテキスト監督によるグラウンディングを可能にします。
  • Maze、TSP、VSP、Sudoku などで平均正解率92.1%を達成し、最も強力なベースラインを8.3ポイント上回りました。
  • 全体として、EndoCoTは内生的推論を導くことで拡散モデルが複雑なタスクを段階的に解くことを可能にすることを示しています。
近年、マルチモーダル大規模言語モデル(MLLMs)は、空間推論などの複雑なタスクに対処するため、主にテキストエンコーダとして拡散フレームワークへ広く統合されている。しかし、このパラダイムには2つの重要な制限がある:(i)MLLMsのテキストエンコーダは推論の深さが不十分である。単一ステップのエンコーディングは Chain-of-Thought(CoT)過程を活性化できず、複雑なタスクに対して正確なガイダンスを提供するために不可欠である。(ii)デコーディング過程でのガイダンスは不変のままである。デコード中の不変ガイダンスは、正しいMLLMエンコーディングがあっても、DiTが複雑な指示を段階的なノイズ除去ステップへと進行的に分解するのを妨げる。これを踏まえ、我々は内生的連鎖思考(EndoCoT)という新規フレームワークを提案する。まず、反復的な思考ガイダンスモジュールを介して潜在的思考状態を反復的に洗練させることでMLLMの推論潜在力を活性化し、次にこれらの状態をDiTのノイズ除去プロセスに橋渡しする。第二に、終端思考グラウンディングモジュールを適用し、最終状態をグラウンドトゥルース解答と一致させることで、推論軌道がテキスト監督の下でグラウンディングされたままであることを保証する。これらの2つの要素により、MLLMテキストエンコーダは綿密に推論されたガイダンスを提供し、DiTがそれを段階的に実行して最終的には複雑なタスクを一歩ずつ解決できるようになる。Maze、TSP、VSP、Sudoku などの多様なベンチマークで広範に評価を実施し、平均正解率は92.1%に達し、最も強力なベースラインを8.3ポイント上回った。