In-Place Test-Time Training

arXiv cs.LG / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来の「学習してから展開する(train then deploy)」というアプローチが、実運用においてLLMが新しい情報に動的に適応することを妨げると主張し、その動機としてTest-Time Training(TTT)を提示する。
  • MLPブロック内の最終的な投影行列を、迅速で適応可能な重みとして用いることで「In-Place Test-Time Training」を導入し、既存のLLMアーキテクチャに対する差し替え(drop-in)による拡張として機能するよう設計する。
  • 著者らは、TTTの汎用的な再構成目標を、自己回帰型の言語モデリングに合わせて調整した「次トークン予測(next-token-prediction)に整合する目的関数」に置き換え、実運用での性能を損なうミスアラインメントの問題を是正することを狙う。
  • 計算効率を高め、スケーラビリティのためにコンテキスト並列性(context parallelism)との互換性を維持することを目的として、効率的なチャンク単位の更新メカニズムを提案する。
  • 実験では、この手法を適用することで、コンテキスト長が最大128kまでのタスクにおいて4Bパラメータのモデルの性能が向上することが示される。また、スクラッチからの学習でも関連するTTT手法に対して一貫した改善が得られ、本フレームワークがLLMの継続学習に向けた一歩となることを裏付ける。

要旨: 静的な「訓練してからデプロイする」パラダイムは、現実世界のタスクに固有の、新たな情報が連続的に流れ込む状況に応じて大規模言語モデル(LLM)がその重みを動的に適応させることを、本質的に根本から制限してしまいます。テスト時学習(TTT)は、推論時にモデルの一部パラメータ(高速重み)を更新することで有力な代替手段となりますが、現在のLLMエコシステムにおけるその潜在力は、建築(アーキテクチャ)上の非互換、計算の非効率、言語モデリングに対する高速重みの目的の不整合といった重要な障壁によって制約されています。本研究では、LLMにテスト時学習能力をシームレスに付与するフレームワークとして、インプレース・テスト時学習(In-Place TTT)を提案します。In-Place TTTでは、広く使われているMLPブロックの最終射影行列を、その適応可能な高速重みとして扱い、コストの高いゼロからの再訓練なしに、LLMに対する「そのまま差し込める(drop-in)」強化を可能にします。さらに、TTTの汎用的な再構成目的を、自己回帰型言語モデリングを統括する次トークン予測タスクに明確に整合した、理論的に裏付けられた目的に置き換えます。この原理に基づく目的と、効率的なチャンク単位の更新メカニズムを組み合わせることで、コンテキスト並列性と両立可能な、非常にスケーラブルなアルゴリズムが得られます。大規模な実験により、本フレームワークの有効性が検証されています。インプレースの拡張として用いる場合、4Bパラメータのモデルが、最大128kまでのコンテキストを伴うタスクで優れた性能を達成できることが示されました。また、事前学習をゼロから行う場合には、競合するTTT関連手法を一貫して上回ります。アブレーション研究の結果も、設計上の選択に関するより深い洞察を提供します。総合すると、我々の結果は、LLMにおける継続学習のパラダイムに向けた有望な一歩として、In-Place TTTを位置付けるものです。