[R] 制約充足問題ベンチマークとしての Extreme Sudoku、ツール・CoT(チェーン・オブ・思考)・解のバックトラッキングなしでネイティブに解かれる

Reddit r/MachineLearning / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本投稿は 'Sudoku Extreme' ベンチマーク、約25万の難解なインスタンスを含む制約充足問題について論じており、解は検証が容易だが、先端的なLLMはほぼ0点に近いスコアを示す一方、BDHアーキテクチャは連鎖思考(CoT)やバックトラッキングなしで97.4%の精度を達成する。
  • この論考は、内部状態が限られたトランスフォーマーのトークンごとの逐次生成が、探索型の推論を難しくする。複数の候補となる世界を維持し、仮定を修正することは、外部ツールなしには難しい。
  • 本稿は、言語のみの推論をさらに推し進められるのか、それともこのようなタスクをネイティブに解決するには、内部メモリを強化したアーキテクチャや潜在的推論空間を持つアーキテクチャが必要なのかを問う。
  • これらの結果は、チェーン・オブ・思考のスケーリングや長い文脈の拡張といった現在の潮流に挑戦しており、AIにおける推論能力の見方に研究者が与える影響が広範囲に及ぶ可能性を示唆している。

Pathway の興味深い解説に出会い、それはパズルの結果というより推論のベンチマークとしてより興味深いと思います。

彼らは“数独エクストリーム”を使います:およそ25万個の非常に難しい数独の事例。魅力は、ここで数独が純粋な制約充足問題として扱われる点です。解は検証が容易で、嘘をつくのは難しく、課題は自然言語的ではありません。彼らの数値によれば、先端的な大規模言語モデル(O3‑mini、DeepSeek R1、Claude 3.7 8K)はこのベンチマークで0%の精度しか出せませんが、彼らの BDH アーキテクチャは連鎖的思考の痕跡や明示的な解のバックトラッキングなしで97.4%の精度に達します。

私が注目したのは、報告された結果だけでなく、その機構の主張です。トランスフォーマーはトークン単位の逐次的な継続処理を、ステップごとに比較的限られた内部状態で行いますが、これは複数の候補となる世界を同時に保持し、以前の仮定を修正し、厳密な制約の下で収束させたい探索重視の推論には適していません。Python のソルバーを作成したりツールを呼び出すことは「機能する」ことですが、それは制約問題をネイティブに解くこととは別の能力です。

最近の研究の多くが連鎖的思考と長い文脈のスケールアップに関するものであることを踏まえると、トランスフォーマー中心の推論にはいくつかの居心地の悪い疑問を投げかけると思います: 1. 外部ツールなしで大規模で明確な制約充足ベンチマークに対応できないモデルが、言語のみの推論をどこまで押し進められるのか? 2. 探索を内部で実際に実行するアーキテクチャを構築する代わりに、探索の長い言語表現を高く評価しているのではないか? 3. これらのタスクには別の推論基盤(例: よりリッチな潜在/連続推論空間と強力な内部メモリ)が必要なのか、それとも十分な足場があればトランスフォーマーは現実的にそこへ到達できるのか?

追記: 投稿本文をすっきりさせるために、ブログのリンクと論文/ベンチマークの詳細をコメント欄に載せました。

投稿者 /u/THEGAM3CHANG3R
[リンク] [コメント]

[R] 制約充足問題ベンチマークとしての Extreme Sudoku、ツール・CoT(チェーン・オブ・思考)・解のバックトラッキングなしでネイティブに解かれる | AI Navigate