マルチレイヤー・クロスアテンションはマルチモーダル・インコンテキスト学習において証明可能に最適である
arXiv stat.ML / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、従来より理論的理解が進んでいないマルチモーダルデータに対する、トランスフォーマー系モデルのインコンテキスト学習を扱います。
- 著者らは、インコンテキスト学習がベイズ最適性能に到達する条件を解析するための、潜在因子モデルにもとづく数学的に扱いやすい枠組みを提示します。
- まず否定的な結果として、単層・線形の自己注意(self-attention)では、タスク分布全体にわたってベイズ最適予測器を一様に復元できないことを証明します。
- これを補うために、線形化したマルチレイヤー・クロスアテンション機構を提案し、クロスアテンション層数とコンテキスト長が大きい領域で解析します。
- さらに、勾配フロー最適化のもとで当該クロスアテンション機構がベイズ最適であることを証明し、インコンテキスト学習における深さとクロスアテンションの有効性を示します。



