概要: Rotary Positional Embedding (RoPE) は、言語モデルにおける位置情報を符号化するために広く採用されている手法であり、有効である一方、入力長が訓練長を超えると性能が崩れる。先行分析は(正しく)長い入力がチャネルを「分布外へ回転」させると主張するが、追加の回転が病的な挙動とどのように関連するのか、またはそれを引き起こすのかは明らかではない。経験的および理論的分析を通じて、RoPE を用いた注意挙動の統一的な幾何学的理解を深める。私たちは、注意が分離されたキーとクエリの潜在点雲を密集させるきついクラスタリングを生み出し、必要のない場合に注意ヘッドがトークンの混合を避けることを可能にする sink tokens(シンクトークン)を作成できることを見出す。RoPE を長い入力に適用すると、キー/クエリクラスタ分離が損なわれ、sink token の機能を抑制することによって病的な挙動を生み出す。この幾何学的視点から、RoPE-ID(In Distribution、分布内)を提案する。これは、注目層が長い入力へそのまま一般化できるようにする、素直な修正であり、チャネルの一部に高周波数の RoPE を適用する。私たちは、LongBench および RULER 情報検索ベンチマークを用いて、拡張入力に対する RoPE-ID の有効性を 1B および 3B パラメータの Transformer で実証する。
返却形式: {"translated": "翻訳されたHTML"}