大規模言語モデルにおける原理に基づくブースティング注意による指示追従

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの指示（instruction）に関する制約（システムプロンプト、拒否、プライバシー／ツール利用ルールなど）が、推論時に長いコンテキストや、ユーザーが提供したコンテキスト同士の衝突によってどのように破られ得るかを扱う。
著者らは、指示追従を、注意（attention）によって媒介される「指示ルール」と「コンテキスト由来ルール」の間のルールベースの競争としてモデル化する理論により、注意（attention）を用いたステアリング手法を統一する。
指示トークンへの注意を増強（ブースト）すると、指示ルールが支配的になりやすくなり、安全性／信頼性のリスクを生み得るコンテキストによる上書きを抑えられることを示す。
推論時手法である Instruction Attention Boosting（InstABoost）を提案し、全レイヤーおよび全ヘッドにわたって、指示トークンのキー注意ロジットに一定のバイアスを加える仕組みとする。15のタスクで評価を行う。
InstABoostは、既存のステアリングおよびプロンプトのベースラインと同等、またはそれを上回る性能を示しつつ、ステアリングの強さと、タスクに関連する流暢なコンテキスト統合とのバランスを保つ。

要旨: 大規模言語モデルの振る舞いは、システムプロンプト、拒否境界、プライバシー制約、推論時に成立しなければならないツール利用ルールといった指示によってしばしば形作られる。にもかかわらず実際には、長いコンテキストのもとや、ユーザーが提示したコンテキストがそれらと矛盾する場合に、これらの制約が破られることがある。その結果、信頼性と安全性のリスクが生じる。そこで、再学習を行わずに指示の影響を強める推論時介入が動機づけられる。そのような介入の1つがアテンション・スティアリングであり、指示トークンへ注意をバイアスする。本研究では、アテンション・スティアリング手法のための統一的な理論を提示する。すなわち、指示追従を、指示ルールとコンテキスト由来ルールの間のルールベースの競合として定式化し、どのルールが優勢になるかをアテンションが媒介する、という枠組みである。指示トークンへの注意を高めると、この競合が傾き、コンテキストが指示追従を上書きすることが難しくなることを証明する。しかし、注意の過剰な強化は、指示とともに取り込まれるべき、タスクに関連するコンテキストを抑制し得る。本理論に導かれ、Instruction Attention Boosting（InstABoost）という単純な介入を提案する。これは、全層および全ヘッドにわたり、指示キーの注意ログitに対して一定の加法バイアスを適用する。15のタスクにわたって、InstABoostをプロンプティング、潜在スティアリング、ならびに従来のアテンション・スティアリング手法と比較評価する。InstABoostは、潜在手法の流暢性崩壊を回避し、従来のアテンション手法の指示過集中を抑えつつ、すべてのベースラインに匹敵、またはそれを上回る。より強いスティアリングの品質とトレードオフを実現する。