Pathway の興味深い解説に出会い、それはパズルの結果というより推論のベンチマークとしてより興味深いと思います。
彼らは“数独エクストリーム”を使います:およそ25万個の非常に難しい数独の事例。魅力は、ここで数独が純粋な制約充足問題として扱われる点です。解は検証が容易で、嘘をつくのは難しく、課題は自然言語的ではありません。彼らの数値によれば、先端的な大規模言語モデル(O3‑mini、DeepSeek R1、Claude 3.7 8K)はこのベンチマークで0%の精度しか出せませんが、彼らの BDH アーキテクチャは連鎖的思考の痕跡や明示的な解のバックトラッキングなしで97.4%の精度に達します。
私が注目したのは、報告された結果だけでなく、その機構の主張です。トランスフォーマーはトークン単位の逐次的な継続処理を、ステップごとに比較的限られた内部状態で行いますが、これは複数の候補となる世界を同時に保持し、以前の仮定を修正し、厳密な制約の下で収束させたい探索重視の推論には適していません。Python のソルバーを作成したりツールを呼び出すことは「機能する」ことですが、それは制約問題をネイティブに解くこととは別の能力です。
最近の研究の多くが連鎖的思考と長い文脈のスケールアップに関するものであることを踏まえると、トランスフォーマー中心の推論にはいくつかの居心地の悪い疑問を投げかけると思います: 1. 外部ツールなしで大規模で明確な制約充足ベンチマークに対応できないモデルが、言語のみの推論をどこまで押し進められるのか? 2. 探索を内部で実際に実行するアーキテクチャを構築する代わりに、探索の長い言語表現を高く評価しているのではないか? 3. これらのタスクには別の推論基盤(例: よりリッチな潜在/連続推論空間と強力な内部メモリ)が必要なのか、それとも十分な足場があればトランスフォーマーは現実的にそこへ到達できるのか?
追記: 投稿本文をすっきりさせるために、ブログのリンクと論文/ベンチマークの詳細をコメント欄に載せました。
[リンク] [コメント]