AI Navigate

ほつれた RoPE と長い入力――幾何学的観点

arXiv cs.LG / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は Rotary Positional Embedding (RoPE) の幾何学的解析を提示し、入力長が訓練時の長さを超えた場合にアテンションの挙動がどう変化するか、そしてキー/クエリの点群がどのようにクラスタ化されるかを示しており、それによってシンクトークンをプレースホルダとして利用し、トークンの混合を防ぐことを可能にする。
  • より長い入力はキー/クエリのクラスタ分離を乱し、これがシンクトークン機能を損ない、異常なアテンション挙動を引き起こすことを特定した。
  • 著者らは RoPE-ID(In Distribution)を提案しており、長い入力へ一般化を再訓練なしで可能にするため、チャネルの一部に高頻度で RoPE を適用する簡単な改変を提示している。
  • LongBench および RULER ベンチマークを用い、1B および 3B パラメータの Transformer で RoPE-ID を検証し、拡張入力の処理の改善を示している。

概要: Rotary Positional Embedding (RoPE) は、言語モデルにおける位置情報を符号化するために広く採用されている手法であり、有効である一方、入力長が訓練長を超えると性能が崩れる。先行分析は(正しく)長い入力がチャネルを「分布外へ回転」させると主張するが、追加の回転が病的な挙動とどのように関連するのか、またはそれを引き起こすのかは明らかではない。経験的および理論的分析を通じて、RoPE を用いた注意挙動の統一的な幾何学的理解を深める。私たちは、注意が分離されたキーとクエリの潜在点雲を密集させるきついクラスタリングを生み出し、必要のない場合に注意ヘッドがトークンの混合を避けることを可能にする sink tokens(シンクトークン)を作成できることを見出す。RoPE を長い入力に適用すると、キー/クエリクラスタ分離が損なわれ、sink token の機能を抑制することによって病的な挙動を生み出す。この幾何学的視点から、RoPE-ID(In Distribution、分布内)を提案する。これは、注目層が長い入力へそのまま一般化できるようにする、素直な修正であり、チャネルの一部に高周波数の RoPE を適用する。私たちは、LongBench および RULER 情報検索ベンチマークを用いて、拡張入力に対する RoPE-ID の有効性を 1B および 3B パラメータの Transformer で実証する。

返却形式: {"translated": "翻訳されたHTML"}