DiffuMask:トークン単位のプロンプト枝刈りのための拡散言語モデル

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DiffuMaskは、LLMにおけるインコンテキスト学習やチェーン・オブ・ソート推論で用いられるプロンプトの長さ(およびコスト)を削減することを目的とした、トークン単位のプロンプト枝刈りのための拡散ベースのフレームワークです。
  • 従来の手法がトークンを順次削除するのに対し、DiffuMaskは消去(ノイズ除去)ステップごとに複数のトークンに対して並列にマスクを予測することで、圧縮プロセスを大幅に高速化します。
  • この手法では、ショットレベルとトークンレベルの両方で階層的な枝刈りのための信号を用い、どれだけの内容を保持するかを調整可能にしています。
  • 実験では、精度をインドメイン、アウトオブドメイン、さらには異なるモデル間の設定でも維持または改善しつつ、最大80%のプロンプト長削減が報告されています。
  • 全体として、本論文はDiffuMaskを、インコンテキスト推論をより効率的かつ信頼性高くするための、汎用的で制御可能な高速なプロンプト圧縮手法として位置づけています。