マルチトークン予測によってトランスフォーマーが計画を学習する方法

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、言語モデルにおける次トークン予測（NTP）は一般的だが、それでは推論に必要なグローバルな構造を捉えきれない場合があると主張し、その代替としてマルチトークン予測（MTP）を動機づける。
実験結果では、MTPが合成グラフの経路探索や、Countdownおよびブール充足可能性（boolean satisfiability）課題などの推論ベンチマークにおいて、NTPを上回ることが示される。
著者らは、簡略化した2層Transformerを用いた理論的解析を提示し、MTPが「逆向きの推論」挙動を2段階で生み出すことを証明する。すなわち、まず終端ノードに注意を向け、次に中間の経路ノードを逆方向に復元する。
この逆向きの計画効果は、MTPの勾配分離（gradient-decoupling）特性に起因するとされ、NTPよりもよりクリーンで効果的な学習信号を与えるものとして提示される。
全体として、この研究は、マルチトークンの学習目的が、特に計画のようなタスクにおいて、より頑健で解釈可能な「推論回路」へ最適化を自然にバイアスしうることを示唆している。

要旨: 次トークン予測（NTP）は言語モデルの学習における標準的な目的ですが、推論タスクにおいてグローバルな構造を捉えることはしばしば困難です。マルチトークン予測（MTP）は最近有望な代替として登場してきましたが、その基盤となるメカニズムは十分に理解されていません。本論文では、特に計画に焦点を当て、MTPがどのように推論を促進するのかを研究します。経験的に、MTPが、合成グラフの経路探索タスクと、Countdownやブール充足可能性問題のようなより現実的な推論ベンチマークの両方において一貫してNTPを上回ることを示します。理論的には、星型グラフのタスクに対する単純化した2層Transformerを解析します。MTPは、2段階の逆向き推論プロセスを誘発することを証明します。すなわち、モデルはまず終端ノードに注意を向け、次に中間ノードを遡って辿ることで経路を再構成します。この挙動は、MTPの勾配デカップリング特性に起因しており、NTPと比べてより明確な学習シグナルを提供します。最終的に、本結果は、マルチトークンの目的が、頑健で解釈可能な推論回路へと最適化を本質的にどのようにバイアスするのかを明らかにします。

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修

日経XTECH

マルチトークン予測によってトランスフォーマーが計画を学習する方法

要点

関連記事

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

AI時代も「議事録の取り方」必要か 下積み減も土台固め、IT5社の全体研修

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修