潜在埋め込み空間におけるシーケンス圧縮：大規模言語モデル向けKトークン・マージ

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、長いプロンプトに対するLLMの自己注意が入力長に対して計算・メモリを二乗的に増やす点を、トークン圧縮で解決することを目的としつつ、トークン空間だけでなく潜在埋め込み空間の非効率にも焦点を当てています。
提案手法K-Token Mergingでは、軽量なエンコーダを使って連続するKトークンの埋め込みブロックを1つの埋め込みに統合し、生成は元の語彙に基づいて行うことを維持します。
圧縮された系列はLoRAで適応したLLMで処理され、潜在空間の圧縮とパラメータ効率の良い適応を組み合わせています。
構造推論（Textualized Tree）、感情分類（Amazon Reviews）、コード編集（CommitPackFT）の3種類のタスクで評価し、性能低下を抑えつつ最大で入力長を75%削減できることを示し、性能と圧縮のトレードオフにおいてパレート最適の領域に位置づけています。
全体として、出力の意味を保ちながら埋め込み空間で表現を圧縮することで、長文コンテキストのLLM推論を効率化する実用的な方針を示しています。