概要: トランスフォーマーは自己注意において配列長に応じて計算コストが高くなるため、メモリ消費によって長いストリームでの推論が禁じられます。RNNやSSMのような一定メモリの代替手法は、履歴を固定サイズの状態に圧縮することで長い尾の依存関係を失います。一方、Test-Time Training(TTT)のように文脈をパラメータに記憶する手法は、トークン単位の射影に過学習しやすく、事前学習済みLLMにおける文脈の因果的効果を保存できません。私たちはAbsorber LLMを提案します。これは長文脈の保持を自己教師ありの因果的同期として定式化します。すなわち、歴史的な文脈をパラメータに吸収した後、文脈なしのモデルが、将来の生成においてフルの文脈を持つ元のモデルと一致するべきだとします。この目的を、更新されたモデルの内部の振る舞いを元のモデルと同期させることで最適化し、文脈の吸収と汎化を両立します。長文脈およびストリーミングのベンチマークでの実験により、Absorber LLMは推論時のメモリを削減し、先行する「パラメータをメモリとして扱う」ベースラインよりも精度を向上させることが示されました。
Absorber LLM:因果同期によるテスト時トレーニングでの長文保持の活用
arXiv cs.LG / 2026/4/24
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、長いシーケンスやストリーミング推論で問題になる、トランスフォーマの自己注意に起因する高い計算コストとメモリ負荷に対処する「Absorber LLM」を提案します。
- 固定サイズの状態に履歴を圧縮するRNN/SSM系では長い尻尾の依存関係が失われやすく、またTTT(Test-Time Training)のように文脈をパラメータへ記憶する手法はトークン単位の射影に対する過学習や因果効果の保持失敗が起きると指摘しています。
- Absorber LLMは、長文脈保持を自己教師ありの因果同期として定式化し、文脈なしモデルが将来世代において元のモデル(フル文脈)の出力と一致するように学習します。
- 更新後モデルと元のモデルの内部挙動を同期させることで、文脈の吸収と汎化の両立を狙います。
- 長文脈およびストリーミングのベンチマークで、推論時メモリを削減し、従来の「パラメータをメモリとする」ベースラインより精度が向上することを示しています。



