要旨: 長い明示的な連鎖的思考(CoT)が複雑な推論課題に対して有効であることは証明されてきましたが、推論時にそれらを生成するにはコストがかかります。非言語的な推論手法は、連続表現を活用して生成長を短くすることで登場してきましたが、言語化されたCoTに比べると性能が劣ります。私たちは、言語モデルが自然言語のCoTの代わりに、予約された語彙からの短いトークン列を生成してから応答を生成する、事後学習(post-training)における離散潜在推論メカニズムである\textbf{Abstract Chain-of-Thought}を提案します。これまで見たことのない「抽象」トークンを有用にするために、方策反復(policy iteration)スタイルのウォームアップループを導入します。これは、(i.) マスキングによって言語化されたCoTからボトルネック化を行い、教師あり微調整を実施することと、(ii.) コードブックによる制約付きデコードで、プロンプトだけからモデルに抽象トークンを生成させるように訓練する自己蒸留とを交互に行います。ウォームアップの後、制約付きデコード下でウォームスタートした強化学習により抽象系列の生成を最適化します。Abstract-CoTは、数学的推論、指示追従、多段(multi-hop)推論において同等の性能を示しつつ、推論トークンを最大で11.6\times削減します。また、言語モデルのファミリーをまたいで汎化します。さらに、学習フェーズを通じて進化する、自然言語で見られるものに類似した、抽象語彙に関する創発的なべき乗則分布も見出します。これらの発見は、学習された抽象推論言語によって効率的な推論を可能にする、事後学習における潜在推論メカニズムの可能性を示しています。
言葉を使わずに考える:抽象的なチェーン・オブ・ソートによる効率的な潜在的推論
arXiv cs.CL / 2026/4/27
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は「Abstract Chain-of-Thought」を提案し、推論時に長い明示的な自然言語のチェーン・オブ・ソート(CoT)を、予約された語彙から選ばれる短い離散的な“抽象”トークン列で置き換えることで、推論コストを削減します。
- ウォームアップでは、ポリシー反復に似た手順として、(i) マスキング等によるボトルネック化を通じて言語化CoTから教師あり微調整を行う段階と、(ii) コードブックを用いた制約付きデコーディングによりプロンプトのみから抽象トークンを生成する自己蒸留を行う段階を交互に実施します。
- ウォームアップ後は、制約付きデコーディングのもとでウォームスタート付き強化学習を用いて、抽象的な推論系列の生成を最適化します。
- 実験では、数学・命令追従・マルチホップ推論の各タスクで同等の性能を保ちながら、推論に使うトークン数を最大11.6倍削減できると報告されており、異なるLLMファミリー間でも汎化します。
- さらに、抽象トークンの語彙に関して、自然言語で見られるようなパワーロー分布が学習フェーズに応じて自発的に現れ、変化することも観察されています。




