この論文は、ICLR 2026におけるワークショップ「Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning 2026」で採択された。
次トークン予測で学習された自己回帰言語モデルは、離散トークンを1つずつサンプリングして生成することで文章を作る。非常にスケーラブルである一方、この目的は各ステップでモデルにコミットを強いるため、複数のもっともらしい後続を探索したり熟考したりすることができない。さらに、トークン間の計算配分は一様であり、各トークンは1回のフォワードパスに基づいて形成される。そのため、扱いの難しいトークンの場合におけるモデルの表現力が制限される可能性がある…



