要旨: 自己回帰モデル(ARMs)は、現在、大規模言語モデル(LLMs)における支配的なパラダイムを構成しています。エネルギーベースモデル(EBMs)は、もう一つの種類のモデルであり、歴史的にはLLM開発においてそれほど一般的ではなかったものの、事後学習(post-training)のアライメントにおいて自然に最適方策を特徴づけます。本論文では、これら2種類のモデルの統一的な見方を提示します。確率の連鎖律を出発点として、関数空間においてARMsとEBMsの間の明示的な全単射を構築し、それが最大エントロピー強化学習におけるソフト・ベルマン方程式の特別な場合に対応することを示します。この全単射に基づいて、ARMsとEBMsの教師あり学習の同値性を導出します。さらに、理論的な誤差境界を与えることで、EBMsをARMsへ蒸留する過程を解析します。本研究の結果は、次トークン予測というパラダイムに基づいているにもかかわらず、ARMsが先を見通して(計画して)行動できる能力に関する洞察を与えるものです。
自己回帰型言語モデルは秘密裏にエネルギーベースモデルである:次トークン予測のルックアヘッド能力に関する洞察
arXiv stat.ML / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己回帰型言語モデル(ARM)を関数空間における明示的な全単射によって、エネルギーベースモデル(EBM)として再解釈できると主張している。
- 次トークン予測を、最大エントロピー強化学習の観点と結び付け、ソフトベルマン方程式の特別な場合との対応関係を示す。
- 著者らは、ARM形式での教師あり学習とEBM学習との理論的同値性を導出し、これまで別個に見られていた2つのモデリング観点を統一する。
- 本研究では、EBMをARMへ蒸留する際の理論的な誤差上界も提示し、次トークン目的からどのように計画(プランニング)に似た振る舞いが生じ得るのかを理解する枠組みを与える。
- 全体として、本研究は、局所的な学習シグナルにもかかわらず、なぜ次トークン予測が「ルックアヘッド」や計画能力を示し得るのかについて、新たな洞察を提供する。


