要旨: 双方向トランスフォーマは、自然言語・生物言語・化学言語の領域にまたがる多くのシーケンスモデリング課題の基盤ですが、明示的な位置埋め込みがないと順列不変です。対照的に、単方向アテンションは三角マスクによって本質的に位置情報を符号化しているため、位置埋め込みをまったく用いずにモデルを動作させることができます。ここでは、Dual Triangle Attention(双対トライアングル注意)という新しい双方向アテンション機構を提案します。これは、各アテンションヘッドのクエリ—キー部分空間を、互いに補完的な2つの三角マスクに分離します。ひとつは過去と自己の位置に注目し、もうひとつは未来と自己の位置に注目します。この設計により、両方向の文脈を提供しつつ、両方向のそれぞれで因果マスクが持つ暗黙の位置的な帰納バイアスを維持します。PyTorchのflex_attentionを用いることで、Dual Triangle Attentionは標準的なマルチヘッドアテンション以外に追加のパラメータを持たず、単一のコンパイル済みカーネル呼び出しとして実装されます。私たちは、Dual Triangle Attentionを3つの設定で評価しました: (1) 合成のargmax位置プローブ、(2) 自然言語に対するマスク言語モデリング(MLM)、(3) タンパク質配列に対するMLMです。argmaxの課題では、Dual Triangle Attentionと因果アテンションの両方が、明示的な位置埋め込みなしで位置情報を学習するのに対し、標準的な双方向アテンションは学習できません。MLMの実験では、Rotary Positional Embeddings(RoPE)を用いたDual Triangle Attentionが、文脈拡張性能で最良の結果を達成し、全体的に強い性能を示しました。これらの結果は、Dual Triangle Attentionが双方向トランスフォーマに対して妥当なアテンション機構であり、位置埋め込みの有無にかかわらず適用可能であることを示唆しています。
デュアル・トライアングル・アテンション:位置埋め込みなしで双方向注意を効果的に行う
arXiv cs.LG / 2026/4/22
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、標準的な双方向トランスフォーマーが明示的な位置埋め込みなしでは順序に関して置換不変になってしまう一方、単方向注意は因果的な三角マスクによって暗黙に順序を符号化できるというギャップを扱います。
- 各注意ヘッドのクエリ・キー空間を2つの補完的な三角マスクに分け、過去+自己と未来+自己をそれぞれ別に注意させる「デュアル・トライアングル・アテンション」を提案し、双方向の文脈を保ちつつ因果マスク由来の位置的帰納バイアスを両方向で維持します。
- PyTorchのflex_attentionを用いて単一のコンパイル済みカーネル呼び出しとして実装され、学習パラメータの追加は標準的なマルチヘッド注意に対して行われません。
- argmaxの位置プローブと、自然言語・タンパク質配列のマスク言語モデリングにおける評価により、デュアル・トライアングル・アテンションは明示的な位置埋め込みなしでも位置情報を学習でき、さらにRoPEと組み合わせた場合に強い性能を示すことが報告されています。
