なぜ Transformer が必要か
2017 年の論文「Attention Is All You Need」で提案されたアーキテクチャ。それ以前の RNN や LSTM は単語を順番に処理するため遅く、長文も苦手でした。Transformer は並列処理と長距離依存の学習を両立します。
Attention とは何か
Attention とは「今の単語を理解するために、文中の他のどの単語を、どれだけ重視するか」を学習する仕組みです。
例:「彼は銀行に座った」
「銀行」が「金融機関」か「川岸」かは、文脈の他の単語(「座った」)への注意で決まります。Attention は単語間の関連性を数値で表現。
Q / K / V(クエリ・キー・バリュー)
各単語に 3 つのベクトルを作ります。
- Query(Q):「今、自分は何を探しているか」
- Key(K):「自分はこういう情報を提供できる」
- Value(V):実際の情報内容

