PRISM-$\Delta$:大規模言語モデルにおけるプロンプトハイライトのための差分サブスペース・ステアリング
arXiv cs.CL / 2026/3/12
📰 ニュースModels & Research
要点
- PRISM-$\Delta$は、正と負のクロス共分散の差を分解して識別エネルギーを最大化しつつ、共有方向を除去する射影ベースで関連性を情報に基づくステアリング手法である。
- この手法は、各アテンションヘッドに連続的なsoftplus重要度ウェイトを割り当て、弱くても有用なヘッドが低強度で寄与できるようにする。
- Value表現にも自然に拡張され、Keyのみの手法で活用されないコンテンツ-チャネル信号を捉える。
- 実証的には、4つのベンチマークと5つのモデルで、20配置中19で既存の最良手法と同等か上回り、相対的な利得は最大で+10.6%、ステアリングの流暢さコストを半減させる。
- 長-contextリトリーブに拡張可能で、従来の最良手法を最大+4.8%の相対利得で上回り、FlashAttentionと互換性があり、メモリオーバーヘッドはほとんどありません。
本文: arXiv:2603.10705v1 アナウンス種別: new
Abstract: 要約:プロンプトハイライトは、生成過程でユーザー指定のテキスト区間を優先するように大規模言語モデルを誘導します。重要な課題は、関連コンテキストと無関係なコンテキストの差を捉える steering directions を抽出することであり、両方に共通する共有的構造パターンを捉えることではありません。PRISM-$\Delta$(射影ベースの関連性情報に基づくステアリング法)を提案します。これは正の共分散と負の共分散行列の差を分解して識別エネルギーを最大化しつつ、共有方向を除去します。各アテンションヘッドには連続的なソフトプラス重要度ウェイトが割り当てられ、弱くても有用なヘッドが低強度で寄与できるようにします。このフレームワークはValue表現にも自然に拡張され、Keyのみの手法では利用されないコンテンツ-チャネル信号を捉えます。4つのベンチマークと5つのモデルにまたがって、PRISM-$\Delta$は20構成のうち19で既存の最良手法と同等かそれ以上を満たし、相対的な利得は最大で+10.6%、一方でステアリングの流暢さコストを半減します。PRISM-$\Delta$は長文コンテキストの検索にもスケールし、従来の最良手法を最大+4.8%の相対利得で上回ります。PRISM-$\Delta$はFlashAttentionと互換性があり、メモリオーバーヘッドはほとんどありません。



