概要: 本研究では、デコーダのみのトランスフォーマーにおけるフィードフォワード・ネットワーク(FFN)サブレイヤーを、周辺の自己回帰(autoregressive)アーキテクチャを保持したまま、明示的に学習されたメモリグラフで置き換えられるかどうかを調査する。提案するGraph Memory Transformer(GMT)は因果的自己注意(causal self-attention)をそのまま維持するが、通常のトークンごとのFFN変換を、学習済みの重心(centroids)のバンクに接続された学習済みの有向遷移行列によって、トークン表現をルーティングするメモリセルで置き換える。本論で検討する基底GMT v7の実装では、16個の各トランスフォーマーブロックに128個の重心が含まれ、128×128のエッジ行列、重力源ルーティング、トークン条件付きのターゲット選択、およびゲート付きの変位読み出しが備わっている。したがって、このセルは、取得(retrieved)された値ではなく、推定されたソースのメモリ状態からターゲットのメモリ状態へ向かう移動を返す。その結果得られるモデルは、82.2Mの学習可能パラメータを持つ、完全なデコーダのみの言語モデルであり、評価で用いた103.0Mパラメータの密なGPTスタイルのベースラインと比べて、密なFFNサブレイヤーを持たない。基底v7モデルは安定して学習でき、重心の使用状況、遷移構造、そしてソースからターゲットへの移動を、順伝播計算として直接検査可能な形で示す。モデルは検証における検証損失とパープレキシティ(3.5995/36.58 vs. 3.2903/26.85)では大きい密なベースラインに後れを取る一方で、評価された設定のもとではゼロショットのベンチマーク挙動が非常に近いことを示す。これらの結果は最先端(state-of-the-art)を主張するものではない。むしろ、密なトークン内変換を、グラフを介したメモリナビゲーションで置き換えることの妥当性と、構造的な解釈可能性を支持するものである。より広範なスケーリング、最適化されたカーネル、そしてより大規模なベンチマーク評価は、今後の課題として残されている。
グラフ・メモリ・トランスフォーマー(GMT)
arXiv cs.LG / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Graph Memory Transformer(GMT)は、因果的な自己注意と自己回帰デコーダ構造を維持しつつ、デコーダ型トランスフォーマーのFFNサブレイヤーを学習済みメモリグラフに置き換えることを検討します。
- GMTは、学習したセントロイド群と有向遷移行列を用いてトークン表現をルーティングし、「値の取得」ではなく推定したソース状態からターゲット状態へ向けたメモリ状態の移動として出力します。
- 本論文で調査したbase GMT v7では、16の各トランスフォーマーブロックに128セントロイドと関連するエッジ/遷移構造を用い、ゲート付き変位リードアウトによってセントロイド使用状況や遷移構造を前向き計算で直接観測できる点が特徴です。
- base GMT v7は、82.2Mパラメータのデコーダ専用言語モデルで、密なFFNサブレイヤーを持たない一方、検証時の損失とパープレキシティでは103.0Mの密なGPTスタイル基準モデルに劣ります。
- 著者らは本結果を最先端主張ではないとしつつ、グラフを介したメモリナビゲーションによってトークン内変換をより構造的に解釈可能にできる可能性を示すものだと位置付け、スケーリングやより広範な評価は今後の課題としています。