Shorthand for Thought:エントロピー誘導型のスーパートークンでLLM推論を圧縮する

arXiv cs.CL / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論が推論時の計算コストを押し上げる理由を、推論トレースのトークンレベルの情報構造の観点から分析します。
  • 推論トークンは低エントロピーの「構造(structural)トークン」(推論を支える反復フレーズ)と、高エントロピーの「オーガニック(organic)トークン」(課題固有の内容)に分かれることを見出します。
  • 著者らは、モデル非依存の圧縮パイプラインとして、モデル自身の推論トレースに対して単語をまたぐBPEマージで「スーパートークン」を作り、教師あり微調整でそれをモデルに採用させる手法を提案します。
  • 3つのモデルファミリーと5つの数学推論ベンチマークで、推論トレース長を平均8.1%短縮しつつ、いずれのモデル–ベンチマーク組でも統計的に有意な精度低下は見られません。
  • さらにスーパートークンは、推論の手順(例:巻き戻し、検証、戦略転換)を解釈可能な注釈としても機能し、正しいトレースでは生産的な回復が見られ、誤ったトレースでは混乱のループが支配的になるなどの診断洞察が得られるため、RLでの報酬設計や早期停止への応用が期待されます。

要旨: 大規模言語モデルにおける推論は、推論時の計算量を大きく必要としますが、推論トレースのトークンレベルの情報構造は十分に調査されていません。我々は、推論トークンが2つの機能タイプに分かれることを観察します。すなわち、低エントロピーの extit{構造} トークン(推論プロセスを足場化する反復されるフレーズ)と、高エントロピーの extit{有機的} トークン(解に向けて進む問題固有の内容)です。この非対称性は、モデルに依存しない単純な圧縮パイプラインを動機づけます。すなわち、モデル自身の推論トレースに対してワード間でクロスワードのBPEマージを適用し、頻出する構造パターンを捉える extit{スーパートークン} を導出し、その後、教師あり微調整によってモデルにそれらを採用させます。3つのモデルファミリーと5つの数学的推論ベンチマークにわたって、我々のアプローチは平均で推論トレースを8.1 extit{%}短縮しますが、どのモデル—ベンチマークの組でも統計的に有意な精度低下はありません。圧縮のみにとどまらず、スーパートークンは解釈可能な推論の手の注釈(巻き戻し、検証、戦略の切り替え)として機能し、モデルの高レベルの戦略を一目で明らかにします。構造カテゴリー間の遷移を分析すると、正しいトレースと誤ったトレースの間に体系的な違いがあることが分かります。正しいトレースでは、生産的な回復(巻き戻しの後に戦略の切り替えと検証が続く)が見られる一方、誤ったトレースは混乱のサイクル(繰り返されるためらい表現と解決されない矛盾)に支配されます。これらの診断シグナルは、強化学習ベースの推論学習におけるリワードシェーピングや早期停止といった用途を示唆します。