要旨: 多くの大規模言語モデルアプリケーションでは、長い文脈に条件付けることが求められます。トランスフォーマーは通常、過去の活性化を層ごとに大規模な KV キャッシュとして保存することでこれをサポートしますが、かなりのメモリオーバーヘッドを伴います。望ましい代替案は圧縮メモリです。1回の文脈を読み取り、それをコンパクトな状態に保存し、その状態から多数のクエリに応答します。私たちはこれを文脈除去設定で研究します。推論時に元の文脈へアクセスできない状態で答えを生成する必要があります。GradMemを導入します。GradMemはサンプルごとの推論時最適化を介して文脈をメモリに書き込みます。文脈が与えられると、GradMemはモデルの重みを凍結したまま、少数のプレフィックス・メモリ・トークンに対して数ステップの勾配降下を実行します。GradMemはモデルレベルの自己教師あり文脈再構成損失を明示的に最適化し、反復的な誤差訂正を伴う損失駆動の書き込み操作を生み出します。これは前方のみの手法とは異なります。連想キー-値検索において、GradMemは同じメモリサイズの前方のみのメモリ書き込み手法を上回り、追加の勾配ステップは繰り返しの前方書き込みよりも容量をはるかに効果的に拡張します。さらに、GradMemは合成ベンチマークを超える転移を示します。事前学習済み言語モデルを用いて、bAbI および SQuAD のバリアントを含む自然言語タスクで競争力のある結果を達成し、メモリにエンコードされた情報だけに依存します。
GradMem: テスト時勾配降下法でメモリに文脈を書き込む学習
arXiv cs.CL / 2026/3/17
💬 オピニオンModels & Research
要点
- GradMemは、サンプルごとのテスト時勾配降下法を用いてメモリに文脈を書き込む一方、モデルの重みを凍結したままにする。
- モデル全体の自己教師付き文脈再構成損失を最適化し、誤差訂正を伴う反復的で損失駆動のメモリ書き込みを可能にする。
- キーと値の検索において、GradMemは同じサイズの前方のみのメモリ書き込み手法を上回り、より多くの勾配ステップに伴って容量を効果的に拡張する。
- 事前学習済み言語モデルへ適用すると、メモリにエンコードされた情報だけを用いて、bAbI および SQuAD 派生タスクのような自然言語タスクで競争力のある結果を達成する。
- 本手法は、長い文脈条件付けのためのトランスフォーマーにおける、各レイヤの大規模 KV キャッシュに対するメモリ効率の高い代替手段を提供する。