Borrowed Geometry:凍結したテキスト事前学習Transformerの重みをモダリティ間で計算的に再利用する

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「Borrowed Geometry」として、テキストトークンのみで事前学習されたGemma 4 31Bの重みを変更せずに凍結し、薄い学習可能なインターフェースでモダリティ間転送する手法を提案しています。
  • OGBenchのロボティクス操作(scene-play-singletask-task1-v0)では、凍結重み方式が公開GCIQLに対してn=3で+4.33pt(std 0.74)を達成し、学習基盤が見たことのないタスクでの新たな公開SOTA勝利と報告されています。
  • D4RL Walker2d-medium-v2では、Decision-Transformerと同等の性能(76.2±0.8、n=3)を、DTの0.43倍の学習可能パラメータ数で実現し、凍結基盤は実質的に5Lスライスに圧縮されます。
  • 连想記憶では、凍結スライス+113Kパラメータの線形インターフェースが per-bit error 0.0505(n=2)を達成し、同等容量で学習したスクラッチTransformerをプロトコル下で8.7倍上回ります。
  • 制御実験とデュアル測定プロトコル(英語文での活性プロービング+非言語ターゲットでのタスクアブレーション)により、効果が単なるアーキテクチャ由来ではないことを示し、L26.28のヘッドのように重要なヘッドを両測定で特定しています。

要旨: Frozen Gemma 4 31Bは、テキストトークンのみによって、変更なしで事前学習された重みであり、薄い学習可能なインターフェースを介してモダリティ境界を越えて転移する。(1)OGBench scene-play-singletask-task1-v0: 既報のGCIQLに対してn=3+4.33pt、標準偏差0.74 -- 基盤がこれまで見たことのないロボット操作タスクにおける、公表SOTAの勝利。(2)D4RL Walker2d-medium-v2: 決定トランスフォーマーの同等性(76.2 \pm 0.8, n=3)をDTの学習可能なパラメータ数の0.43\timesで達成し、凍結した基盤が5Lスライスに圧縮される(n=3で6Lベースラインに対して+1.66pt)。(3)連想想起は、最も明確な事前学習の担保(load-bearing)事例:凍結スライス+113Kパラメータの線形インターフェースにより、L30最良チェックポイント当たりのビット誤差0.0505に到達(n=2);一致した能力での6.36Mパラメータのスクラッチ学習トランスフォーマー(1/\sqrt{d_k}スケーリング、2つのシード、LRスイープ)は、プロトコル下ではタスクをまったく解けない(最良L30 = 0.4395)--- 8.7\timesの優位。アーキテクチャ単体での反証:正しい1/\sqrt{d_k}スケーリングを持つ凍結ランダム・トランスフォーマーは、50kステップでランダムな損失のまま維持;ランダム初期化のGemmaスライスはOGBench cube-double-play-task1を完全に失敗する(n=3で0.89%であり、事前学習は60%に到達)。二重測定プロトコル -- 95の英語文に対するテキスト活性プロービングに加え、非言語ターゲットに対するタスクアブレーション -- は、両プロトコルで独立に同定可能な個々のヘッドを名前で示す:head L26.28は英語トークンのコピーにおけるスライス平均の3.7\timesのスコアを出し、二値コピー・アブレーションにおける最も重要な#2ヘッドである( \Delta L30 = +0.221);さらに3つのヘッド(L27.28, L27.2, L27.3)も同じプロトコルで分類する。メカニズムは単一モデルであり、モダリティ横断の結果は、それぞれのベンチマーク内での単一タスクに限られる。クロスモデルの再現性は構造的に制約される。というのも、Gemma 4 31Bは2026年4月時点で、小規模なパレートフロンティア上で唯一のモデルであるため。

Borrowed Geometry:凍結したテキスト事前学習Transformerの重みをモダリティ間で計算的に再利用する | AI Navigate