アテンション投影における線形性を超えて: 非線形クエリの提案

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

新しい論文は、エンコーダ専用およびデコーダ専用のトランスフォーマーにおけるクエリ射影 W_Q を、非線形残差 Q(X) = X + f_theta(X) に置換することを提案する。ここで f_theta はボトルネックMLPである。
この手法は、アテンションが X が XW_Q、XW_K、XW_V の積を通じてのみ依存するという事実を活用し、非線形性を恒等項で固定し、隣接する層に吸収されるようにする。
GPT-3 小型スタイルのモデルでの実験は、ベースラインを一貫して上回り、非埋め込みパラメータを12.5%多く持つモデルをも上回る結果を示している。
著者らは、このアプローチをより大規模なモデルやクロスモーダル設定にスケールさせ、より広い恩恵を評価すべきだと主張している。

要約: 最近の代数的解析は、デコーダー専用およびエンコーダー専用のトランスフォーマーにおいて、クエリ投影 $W_Q$ を恒等行列に設定しても、顕著な性能低下は生じないことを示している。これは、アテンションが $X$ が $XW_Q, XW_K, XW_V$ の積を通じてのみ依存するためであり、基底変換を隣接する層に吸収させ、ネットワーク全体に伝搬させることを可能にする。私たちは、 $W_Q \in \mathbb{R}^{d \times d}$ を、 $Q(X) = X + f_\theta(X)$ の形の非線形残差で置換する。ここで $f_\theta$ は $d^2 + O(d)$ 個のパラメータを持つボトルネック MLP である。恒等項は、非線形性を既知の良好な事前知識に固定する。GPT-3小型スタイルのモデルでの実験は、ベースラインに対して一貫した改善を示し、非埋め込みパラメータが12.5%多いモデルを楽に上回った。これらの結果は、より大規模な規模とモダリティを横断した調査を促す。

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

Dev.to

AIにおけるMCPを解説（実例付き）

Dev.to

アテンション投影における線形性を超えて: 非線形クエリの提案

要点

関連記事

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

AIにおけるMCPを解説（実例付き）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer