類似性から構造へ:ハイブリッドグラフ事前知識による学習不要のLLMコンテキスト圧縮
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、厳しいトークン予算の下で長いLLMコンテキストを圧縮するために、学習不要かつモデル非依存の文選択手法を提案しています。
- 互いのk-NNによる意味的なエッジと短距離の逐次エッジを組み合わせたスパースなハイブリッド文グラフを構築し、クラスタリングによってトピックの「スケルトン」を抽出します。
- 文のランキングは、タスク関連性、クラスタ代表性、ブリッジ中心性、さらにサイクル被覆の手がかりを統合した解釈可能なスコアリング関数で行います。
- 冗長性抑制付きの予算制約グリーディ選択により文を選び、元の順序のまま読みやすい圧縮コンテキストを生成します。
- 4つのデータセットでの実験では、抽出型・要約型の強力なベースラインに対して競争力があり、特に長文ベンチマークで大きな改善が見られたと報告されています。

