アソシエイティブ状態ユニバーサル・トランスフォーマー:スパース検索が構造化された再帰と出会う

arXiv cs.LG / 2026/4/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、構造化された再帰的状態が、言語モデリングのためのコンパクトな連想(アソシエイティブ)基盤になり得るか、そして厳密な検索(エグザクト・リトリーバル)にも対応できるかを検討しています。
  • UniMatrixと呼ばれるUniversal Transformer系のモデル群を提案し、共有された再帰ブロックを深さ方向で再利用しつつ、ハイブリッドな状態更新、ROSA風の残差経路、トークン条件付き埋め込みモジュレーションを組み合わせています。
  • バイトレベルのWikiText-2では、小規模設定でUniMatrixがパラメータを揃えたTransformerをわずかに上回りつつ、はるかに少ないパラメータ数で動作します(約5.08 vs 5.12 bits-per-byte)。
  • 重要な限界として、元のUniMatrix系列は連想リコールでほぼランダムに近い性能にとどまり、検索志向の派生(UniMatrix-Assoc)も改善はわずかでした。
  • しかし、UniMatrix-SparsePointerはスパースなスロット・ルーティングとポインタ・ロジット融合を追加することで大幅な改善を示し、連想リコールで75.6%(元のパイロット)から99.2%(ドロップアウトなしの追試)を達成し、Transformer基準より大幅に少ないパラメータ数でも実現しています。増分の鍵は十分なスロット容量と、ポインタ単位の厳密な出力ルーティングにあると示唆されています。

要旨: 本研究では、構造化された再帰的状態が、言語モデリングのためのコンパクトな連想的バックボーンとして機能しつつ、正確なリトリーブ(厳密な検索)も引き続きサポートできるかどうかを検討する。共有された再帰ブロックを深さ全体で再利用し、ハイブリッドな状態更新、ROSAスタイルの残差パス、トークン条件付き埋め込みモジュレーションを組み合わせて強化する、Universal Transformer 系のファミリーである UniMatrix を提案する。我々はこれらのモデルを、バイトレベルの WikiText-2、合成の連想リコール、Apple MPS 上でのスループット計測、およびトリプルトークン相互作用のための修正済みベンチマークで評価する。
小規模では、UniMatrix-Core と UniMatrix-ROSA は、パラメータ数を一致させた Transformer よりもわずかに優れており、用いるパラメータははるかに少ない。その結果として、WikiText-2 では 5.084 および 5.083 bits-per-byte となり、5.124 に対して良好である。主な否定的結果も同様に重要である。すなわち、連想リコールにおいて元の UniMatrix ファミリーは依然として偶然に近い一方、Transformer は 25.4 パーセントに到達し、圧縮された再帰的状態だけでは厳密なルックアップには不十分であることが示される。検索志向の追試である UniMatrix-Assoc は、改善をわずかにしかもたらさない。これに対して、疎なスロットのルーティングと直接的な pointer-logit の融合を追加する UniMatrix-SparsePointer は、元のパイロット手順で 75.6 パーセント、ドロップアウトなしの追試で 99.2 パーセントを達成し、Transformer のベースラインよりパラメータ数を 53.8 パーセント少なく使用する。アブレーションにより、その利得は十分なスロット容量と、ポインタ・レベルの出力ルーティングを厳密に行えることに由来することが示される。総合すると、構造化された再帰的状態は有望でありパラメータ効率も高いが、強い長距離挙動にはなお明示的な疎なリトリーブと、より良いカーネルが必要である。