CRISP：固有の重要度（サリエンシー）に基づくチェーン・オブ・ソートの冗長性圧縮

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、外部コンプレッサーではなくモデル固有の重要度（サリエンシー）を活用して、長いチェーン・オブ・ソート（CoT）推論を圧縮するCRISPという枠組みを提案する。
推論の終了トークン（論文中では [object Object] と表記）が「情報アンカー」として機能し、注意（アテンション）パターンが重要な推論と冗長な部分を切り分けることを見いだす。
CRISPは、これらの内部アテンション信号を用いてきめ細かな（“atomic”な）圧縮操作を導くことで、論理的な整合性を保ちながら情報密度を高めることを狙う。
複数のバックボーンモデルと数学データセットでの実験では、CRISPがトークン数を50–60%削減しても精度を損なわず、長文コンテキスト推論の効率ボトルネックを軽減できることが示される。
著者らは、効率的推論の研究を促すため実装をオープンソース化している。

要旨: 長いチェーン・オブ・ソート（CoT）の推論は、近年の推論モデルの成功にとって極めて重要ですが、計算オーバーヘッドとレイテンシが高いという問題があります。先行研究では、外部コンプレッサによってCoTを圧縮しようとする試みがなされてきましたが、多くの場合、モデル内部の推論ダイナミクスと整合せず、その結果、重要な論理ステップが失われてしまいます。本論文では、モデル固有の顕著性を活用することでCoTを圧縮する枠組みである extbf{C}ompressing extbf{R}edundancy in Chain-of-Thought via extbf{I}ntrinsic extbf{S}aliency extbf{P}runing（ extbf{CRISP}）を提案します。私たちの分析により、明確な現象が見いだされます。すなわち、推論終了トークン exttt{[object Object]} が情報アンカーとして機能しており、その注意（アテンション）パターンが、冗長性から重要な推論を効果的に区切り分ける役割を果たすのです。この発見に基づき、これらの内在的な注意信号を用いて、原子的な圧縮操作を導く方策を設計します。粗視的な枝刈り戦略とは対照的に、CRISPは論理的な整合性を保持しつつ、情報密度を最大化するように推論チェーンを戦略的に蒸留します。さまざまなバックボーンモデルおよび数学データセットにまたがる実験結果から、CRISPは精度を損なうことなくトークン数を50〜60%削減できることが示されており、長いコンテキストでの推論における効率ボトルネックを効果的に緩和します。効率的な推論に関するさらなる研究を促進するために、実装をオープンソースとして公開します。