マルチレイヤー・クロスアテンションはマルチモーダル・インコンテキスト学習において証明可能に最適である

arXiv stat.ML / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来より理論的理解が進んでいないマルチモーダルデータに対する、トランスフォーマー系モデルのインコンテキスト学習を扱います。
  • 著者らは、インコンテキスト学習がベイズ最適性能に到達する条件を解析するための、潜在因子モデルにもとづく数学的に扱いやすい枠組みを提示します。
  • まず否定的な結果として、単層・線形の自己注意(self-attention)では、タスク分布全体にわたってベイズ最適予測器を一様に復元できないことを証明します。
  • これを補うために、線形化したマルチレイヤー・クロスアテンション機構を提案し、クロスアテンション層数とコンテキスト長が大きい領域で解析します。
  • さらに、勾配フロー最適化のもとで当該クロスアテンション機構がベイズ最適であることを証明し、インコンテキスト学習における深さとクロスアテンションの有効性を示します。

Abstract

最近の進展により、現代の注意(アテンション)ベースのニューラルネットワークにおけるインコンテキスト学習のメカニズム理解が急速に前進しました。しかし、既存の成果は専ら単一モダリティのデータに焦点を当てています。一方で、多モダリティデータに対するインコンテキスト学習の理論的基盤はいまだ十分に解明されていません。本論文では、多モダリティ学習を研究するための数学的に扱いやすい枠組みを導入し、トランスフォーマーのようなアーキテクチャがインコンテキスト内でベイズ最適性能を回復できるのはいつかを探ります。多モダリティ問題をモデル化するために、観測データが潜在因子モデルから生じると仮定します。最初の結果として、表現力に関する否定的な指摘を提示します。すなわち、単一層の線形自己注意では、タスク分布に一様にわたってベイズ最適予測器を回復できないことを証明します。この制約に対処するために、新しい線形化されたクロスアテンション機構を導入し、クロスアテンション層の数とコンテキスト長の両方が大きい領域で解析します。勾配フローを用いて最適化するなら、このクロスアテンション機構が証明可能にベイズ最適となることを示します。本結果は、インコンテキスト学習における深さの利点を強調するとともに、多モダリティ分布に対してクロスアテンションが持つ証明可能な有用性を確立します。