Borrowed Geometry：凍結したテキスト事前学習Transformerの重みをモダリティ間で計算的に再利用する

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「Borrowed Geometry」として、テキストトークンのみで事前学習されたGemma 4 31Bの重みを変更せずに凍結し、薄い学習可能なインターフェースでモダリティ間転送する手法を提案しています。
OGBenchのロボティクス操作（scene-play-singletask-task1-v0）では、凍結重み方式が公開GCIQLに対してn=3で+4.33pt（std 0.74）を達成し、学習基盤が見たことのないタスクでの新たな公開SOTA勝利と報告されています。
D4RL Walker2d-medium-v2では、Decision-Transformerと同等の性能（76.2±0.8、n=3）を、DTの0.43倍の学習可能パラメータ数で実現し、凍結基盤は実質的に5Lスライスに圧縮されます。
连想記憶では、凍結スライス＋113Kパラメータの線形インターフェースが per-bit error 0.0505（n=2）を達成し、同等容量で学習したスクラッチTransformerをプロトコル下で8.7倍上回ります。
制御実験とデュアル測定プロトコル（英語文での活性プロービング＋非言語ターゲットでのタスクアブレーション）により、効果が単なるアーキテクチャ由来ではないことを示し、L26.28のヘッドのように重要なヘッドを両測定で特定しています。

要旨: Frozen Gemma 4 31Bは、テキストトークンのみによって、変更なしで事前学習された重みであり、薄い学習可能なインターフェースを介してモダリティ境界を越えて転移する。（1）OGBench scene-play-singletask-task1-v0: 既報のGCIQLに対して $n=3$ で $+4.33$ pt、標準偏差0.74 -- 基盤がこれまで見たことのないロボット操作タスクにおける、公表SOTAの勝利。（2）D4RL Walker2d-medium-v2: 決定トランスフォーマーの同等性（ $76.2 \pm 0.8$ , $n=3$ ）をDTの学習可能なパラメータ数の $0.43\times$ で達成し、凍結した基盤が5Lスライスに圧縮される（ $n=3$ で6Lベースラインに対して $+1.66$ pt）。（3）連想想起は、最も明確な事前学習の担保（load-bearing）事例：凍結スライス＋113Kパラメータの線形インターフェースにより、L30最良チェックポイント当たりのビット誤差0.0505に到達（ $n=2$ ）；一致した能力での6.36Mパラメータのスクラッチ学習トランスフォーマー（ $1/\sqrt{d_k}$ スケーリング、2つのシード、LRスイープ）は、プロトコル下ではタスクをまったく解けない（最良L30 = 0.4395）--- $8.7\times$ の優位。アーキテクチャ単体での反証：正しい $1/\sqrt{d_k}$ スケーリングを持つ凍結ランダム・トランスフォーマーは、50kステップでランダムな損失のまま維持；ランダム初期化のGemmaスライスはOGBench cube-double-play-task1を完全に失敗する（ $n=3$ で0.89%であり、事前学習は60%に到達）。二重測定プロトコル -- 95の英語文に対するテキスト活性プロービングに加え、非言語ターゲットに対するタスクアブレーション -- は、両プロトコルで独立に同定可能な個々のヘッドを名前で示す：head L26.28は英語トークンのコピーにおけるスライス平均の $3.7\times$ のスコアを出し、二値コピー・アブレーションにおける最も重要な#2ヘッドである（ $\Delta$ L30 $= +0.221$ ）；さらに3つのヘッド（L27.28, L27.2, L27.3）も同じプロトコルで分類する。メカニズムは単一モデルであり、モダリティ横断の結果は、それぞれのベンチマーク内での単一タスクに限られる。クロスモデルの再現性は構造的に制約される。というのも、Gemma 4 31Bは2026年4月時点で、小規模なパレートフロンティア上で唯一のモデルであるため。