マルチトークン予測によってトランスフォーマーが計画を学習する方法

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語モデルにおける次トークン予測(NTP)は一般的だが、それでは推論に必要なグローバルな構造を捉えきれない場合があると主張し、その代替としてマルチトークン予測(MTP)を動機づける。
  • 実験結果では、MTPが合成グラフの経路探索や、Countdownおよびブール充足可能性(boolean satisfiability)課題などの推論ベンチマークにおいて、NTPを上回ることが示される。
  • 著者らは、簡略化した2層Transformerを用いた理論的解析を提示し、MTPが「逆向きの推論」挙動を2段階で生み出すことを証明する。すなわち、まず終端ノードに注意を向け、次に中間の経路ノードを逆方向に復元する。
  • この逆向きの計画効果は、MTPの勾配分離(gradient-decoupling)特性に起因するとされ、NTPよりもよりクリーンで効果的な学習信号を与えるものとして提示される。
  • 全体として、この研究は、マルチトークンの学習目的が、特に計画のようなタスクにおいて、より頑健で解釈可能な「推論回路」へ最適化を自然にバイアスしうることを示唆している。

要旨: 次トークン予測(NTP)は言語モデルの学習における標準的な目的ですが、推論タスクにおいてグローバルな構造を捉えることはしばしば困難です。マルチトークン予測(MTP)は最近有望な代替として登場してきましたが、その基盤となるメカニズムは十分に理解されていません。本論文では、特に計画に焦点を当て、MTPがどのように推論を促進するのかを研究します。経験的に、MTPが、合成グラフの経路探索タスクと、Countdownやブール充足可能性問題のようなより現実的な推論ベンチマークの両方において一貫してNTPを上回ることを示します。理論的には、星型グラフのタスクに対する単純化した2層Transformerを解析します。MTPは、2段階の逆向き推論プロセスを誘発することを証明します。すなわち、モデルはまず終端ノードに注意を向け、次に中間ノードを遡って辿ることで経路を再構成します。この挙動は、MTPの勾配デカップリング特性に起因しており、NTPと比べてより明確な学習シグナルを提供します。最終的に、本結果は、マルチトークンの目的が、頑健で解釈可能な推論回路へと最適化を本質的にどのようにバイアスするのかを明らかにします。