LightThinker++:推論圧縮からメモリ管理へ

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、長いLLMの「思考トレース」に伴う効率コストを、途中の推論を動的に圧縮してコンパクトな意味表現へ変換することで削減するLightThinkerを提案します。
  • さらにLightThinker++では、静的な圧縮によるボトルネックを回避するために、明示的な適応型メモリ管理(Explicit Adaptive Memory Management)を導入します。具体的には、明示的なメモリ・プリミティブと、学習されたメモリスケジューリングのための軌道合成(trajectory synthesis)パイプラインを用います。
  • 実験の結果、LightThinkerはピークトークン使用量を70%削減し、推論時間を26%短縮しつつ、精度の低下は最小限に抑えられることが示されます。
  • LightThinker++はさらに、標準的な推論においてピークトークン使用量を69.9%削減する一方で、同一のコンテキスト予算のもとで精度を+2.42%向上させ、最高の性能を達成します。
  • 長期ホライズンのエージェント型タスクにおいても、LightThinker++は80ラウンドを超えて(60〜70%削減)メモリ/トークンのフットプリントを安定に維持し、複雑なシナリオ全体で平均14.8%の性能向上を実現します。

要旨: 大規模言語モデル(LLM)は複雑な推論に優れていますが、その効率は長い思考トレースによって生じる急増する認知的オーバーヘッドによって制限されています。本論文では、中間の思考をコンパクトな意味表現へ動的に圧縮することを可能にする手法 LightThinker を提案します。しかし、静的な圧縮は、途中の詳細が取り返しのつかない形で失われることで論理的なボトルネックにつながりうるような複雑な推論においては、しばしばうまく機能しません。そこで本研究では、この枠組みを LightThinker++ へと発展させ、「明示的・適応的メモリ管理(Explicit Adaptive Memory Management)」を導入します。このパラダイムは、明示的なメモリ・プリミティブを取り入れることにより、行動レベルでの管理へと転換します。さらに、目的のあるメモリ・スケジューリングを学習するための、専用の軌跡合成(trajectory synthesis)パイプラインによって支えられます。大規模な実験により、この枠組みが3つの次元すべてにわたって多用途であることが示されます。 (1) LightThinker は、最小限の精度低下でピークトークン使用量を70%削減し、推論時間を26%削減します。 (2) 標準的な推論では、LightThinker++ はピークトークン使用量を69.9%削減しつつ、最大性能のための同一コンテキスト予算のもとで +2.42% の精度向上をもたらします。 (3) 最も注目すべき点として、長いホライズンのエージェント型タスクにおいて、80ラウンド超まで安定したフットプリントを維持します(60%〜70%の削減)。さらに、さまざまな複雑なシナリオにわたって平均14.8%の性能向上を達成しています。全体として、本研究は、最小限のオーバーヘッドで拡張されたホライズンにわたって深いLLM推論を維持するためのスケーラブルな方向性を提供します。