要旨: 表現学習はNLPの基礎ですが、異なる計算予算でもうまく機能する埋め込みを構築することは難しいです。Matryoshka Representation Learning(MRL)は、ネストされた埋め込みによって柔軟な推論パラダイムを提供します。しかし、このような構造を学習するには、埋め込みの次元の大きさとモデルの深さの間で情報がどのように配置されるかを明示的に協調させる必要があります。本研究では、MIPIC(Matryoshka Representation Learning via Self-Distilled Intra-Relational Alignment and Progressive Information Chaining)を提案します。これは、構造的に整合的で意味的にコンパクトなMatryoshka表現を生成することを目的とした統一的な学習枠組みです。MIPICは、Self-Distilled Intra-Relational Alignment(SIA)によって、次元をまたいだ構造的な一貫性を促進します。SIAは、トップkのCKA自己蒸留を用いて、完全な表現と切り詰められた表現の間で、トークンレベルの幾何学的および注意に駆動された関係を整列させます。補完的に、Progressive Information Chaining(PIC)によって、深さ方向の意味の統合を可能にします。PICは、足場(スキャフォールド)付きの整列戦略であり、成熟したタスクの意味をより深い層からより前の層へ段階的に転送します。STS、NLI、分類ベンチマークに対する広範な実験(TinyBERTからBGEM3、Qwen3に至るモデルを含む)により、MIPICが全ての能力(キャパシティ)において非常に競争力の高いMatryoshka表現を生成すること、そして特に極端に低次元で大きな性能向上が観察されることが示されます。
MIPIC:自己蒸留によるイントラ関係整合と漸進的情報チェイニングを用いたマトリョーシカ表現学習
arXiv cs.CL / 2026/4/28
📰 ニュースModels & Research
要点
- 本論文は、マトリョーシカ表現学習(MRL)の埋め込みを、埋め込み次元とモデル深さの両方にまたがって首尾よく学習するための新しい統一トレーニング枠組み「MIPIC」を提案している。
- MIPICは、自己蒸留(top-k CKA)を用いて、完全表現と切り詰め表現の間でトークン単位の幾何学的および注意駆動の関係を整合させることで、次元をまたぐ構造的一貫性を確保するSelf-Distilled Intra-Relational Alignment(SIA)を用いる。
- さらにProgressive Information Chaining(PIC)により、意味を層間で統合し、深い層から早い層へとタスク理解を段階的に移すことで、深さ方向のセマンティクスを固める。
- STS、NLI、分類ベンチマークでの実験(TinyBERTからBGEM3、Qwen3まで幅広いモデルを含む)では、MIPICが全キャパシティで競争力の高いマトリョーシカ表現を生み出し、特に極端に低い埋め込み次元で大きな性能優位が見られることを示している。
- まとめると、本研究はMRLにおける「次元と深さの中で情報をどう配置するか」という調整課題に対して、構造整合と意味転送の両方のための学習戦略を提示している。

