AI Navigate

UT-ACA: 長文推論のための不確実性に基づく適応的コンテキスト割り当て

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 大規模言語モデルにおける長文推論は、アテンションの希薄化とトークンレベルの文脈要求の非均一性に苦しみ、固定されたコンテキスト予算では対応できない。
  • UT-ACAは、デコード時のトークンごとの不確実性に応じて、コンテキストウィンドウを動的に調整する推論時フレームワークである。
  • 意味的埋め込みとロジットベースの信頼度を統合し、デコードステップ間の不確実性の蓄積を考慮することで、不確実性検出器を学習する。
  • 十分な根拠が得られない場合、UT-ACAはロールバックしてコンテキストウィンドウを拡張し、追加のサポートを用いてトークンを再生成することで、平均的なコンテキスト使用量を削減する。
  • 実験により、UT-ACAは長文コンテキスト設定において平均的なコンテキスト使用量を大幅に削減しつつ、生成品質を維持することが示された。

要旨: 長い文脈での推論は、注意の薄まりと分布外の劣化のため、巨大言語モデルにとって依然として難題です。コンテキスト選択は、キーとバリューのキャッシュエントリの一部に注目することでこの制約を緩和しますが、多くの手法はデコード全体を通じて固定の文脈予算を割り当てており、トークンレベルの文脈需要が非常に不均一であるにもかかわらずです。これを解決するため、Uncertainty-Triggered Adaptive Context Allocation (UT-ACA) という推論時フレームワークを提案します。これはトークンごとの不確実性に基づいて文脈ウィンドウを動的に調整します。UT-ACA は、意味埋め込みとロジットベースの信頼度を組み合わせた不確実性検出器を学習し、デコードの各段階における不確実性の蓄積を考慮します。証拠が不十分と示された場合、UT-ACA は選択的にロールバックし、文脈ウィンドウを拡張し、追加のサポートとともにトークンを再生成します。実験結果は、長い文脈設定において平均的な文脈使用量を大幅に削減しつつ、生成品質を維持できることを示しています。