ほつれた RoPE と長い入力――幾何学的観点

arXiv cs.LG / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は Rotary Positional Embedding (RoPE) の幾何学的解析を提示し、入力長が訓練時の長さを超えた場合にアテンションの挙動がどう変化するか、そしてキー/クエリの点群がどのようにクラスタ化されるかを示しており、それによってシンクトークンをプレースホルダとして利用し、トークンの混合を防ぐことを可能にする。
より長い入力はキー/クエリのクラスタ分離を乱し、これがシンクトークン機能を損ない、異常なアテンション挙動を引き起こすことを特定した。
著者らは RoPE-ID（In Distribution）を提案しており、長い入力へ一般化を再訓練なしで可能にするため、チャネルの一部に高頻度で RoPE を適用する簡単な改変を提示している。
LongBench および RULER ベンチマークを用い、1B および 3B パラメータの Transformer で RoPE-ID を検証し、拡張入力の処理の改善を示している。

概要: Rotary Positional Embedding (RoPE) は、言語モデルにおける位置情報を符号化するために広く採用されている手法であり、有効である一方、入力長が訓練長を超えると性能が崩れる。先行分析は（正しく）長い入力がチャネルを「分布外へ回転」させると主張するが、追加の回転が病的な挙動とどのように関連するのか、またはそれを引き起こすのかは明らかではない。経験的および理論的分析を通じて、RoPE を用いた注意挙動の統一的な幾何学的理解を深める。私たちは、注意が分離されたキーとクエリの潜在点雲を密集させるきついクラスタリングを生み出し、必要のない場合に注意ヘッドがトークンの混合を避けることを可能にする sink tokens（シンクトークン）を作成できることを見出す。RoPE を長い入力に適用すると、キー/クエリクラスタ分離が損なわれ、sink token の機能を抑制することによって病的な挙動を生み出す。この幾何学的視点から、RoPE-ID（In Distribution、分布内）を提案する。これは、注目層が長い入力へそのまま一般化できるようにする、素直な修正であり、チャネルの一部に高周波数の RoPE を適用する。私たちは、LongBench および RULER 情報検索ベンチマークを用いて、拡張入力に対する RoPE-ID の有効性を 1B および 3B パラメータの Transformer で実証する。

返却形式: {"translated": "翻訳されたHTML"}

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

ほつれた RoPE と長い入力――幾何学的観点

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも