いま話題の生成AI(ChatGPT、Claude、Gemini など)は、ほぼすべてTransformerという同じ土台の上に立っています。その心臓部がAttention(アテンション)という仕組み。本記事は、数式を覚えなくても「中で何が起きているのか」を図でつかむことを目的に、Attention から最新モデルの設計までを一本の線でたどります。
Under the Hood
01Transformer は「全部いっぺんに見る」仕組み
Transformer は 2017 年の論文「Attention Is All You Need」で登場したアーキテクチャです。それまで主流だった RNN や LSTM は、文章を左から1単語ずつ順番に処理していました。これだと処理が遅く、文が長くなるほど最初のほうの単語を「忘れて」しまうのが弱点でした。
Transformer はここを根本から変えます。文中の単語を同時にまとめて見て、どの単語とどの単語が関係しているかを一度に計算する。だから速く、しかも文の端と端のような離れた単語どうしの関係もきちんと拾えます。
FIG.1 順番に渡す RNN に対し、Transformer は全単語の関係を一度に見る
02Attention =「どの単語をどれだけ気にするか」
Attention は一言でいうと、「ある単語を理解するために、文中の他のどの単語を、どれだけ重視するか」を計算する仕組みです。人間が文を読むときも、無意識に重要な語に注目していますね。それを数値でやるのが Attention です。
たとえば「彼は銀行で休んだ」という文。「銀行」が金融機関なのか川の岸(土手)なのかは、それだけでは決まりません。同じ文の「休んだ」という語に注目することで、「ここは座って休める場所=土手寄りかな」と意味が定まっていきます。Attention は、こうした単語どうしのつながりの強さを一つひとつ数値にしていきます。
FIG.2 線が太いほど注目が強い。意味を決める手がかりの語ほど重みが大きくなる
03Q・K・V — 検索にたとえると分かる
では、その「注目の強さ」をどう計算するのか。Transformer は各単語から Q・K・V という 3 種類のベクトル(数値の並び)を作ります。図書館での本探しにたとえると直感的です。
- Query(クエリ/Q):「いま自分が探しているのはこんな情報」という問い合わせ
- Key(キー/K):「私はこういう情報を持っています」という見出し・ラベル
- Value(バリュー/V):実際に渡される中身そのもの
処理の流れはこうです。ある単語の Q を、文中すべての単語の K と照合して「どれくらい合うか(関連度)」を計算する。関連度の高い相手ほど、その単語の V(中身)を多めに受け取る。これを全単語ぶん混ぜ合わせたものが、その単語の新しい表現になります。
具体的には、Q と K の内積で関連度の生スコアを出し、√(次元数)で割って大きくなりすぎを抑え、softmaxで「合計が 1 になる割合」に変換します。その割合で V を重み付けして足し合わせる——これが Attention の中身です。式は softmax(QKᵀ / √d) × V の一本だけ。図で押さえれば怖くありません。




