要約: Mamba は、低い計算複雑性とトランスフォーマーに対する競争力のある性能のため、汎用的なシーケンスモデルとして広く関心を集めています。
しかし、推論時のシーケンス長が学習時に見られた長さを超えると、性能が低下することがあります。
この現象を、Mamba が画像パッチの列から画像を再構成する視覚タスクを用いて研究します。
シーケンス処理の異なる段階での再構成を分析することで、学習中に出会ったシーケンス長の分布に対して Mamba が定性的に挙動を適応させることを明らかにし、その結果、この範囲を超えて一般化できない戦略が生じることが示されます。
我々の分析を補足するために、学習時のシーケンス長全体で性能を改善する長さ適応型の Mamba を導入します。
我々の結果は、Mamba における長さ一般化について直感的な視点を提供し、アーキテクチャを改善する方向性を示唆します。
Mambaにおける長さ一般化を画像再構成で探る
arXiv cs.LG / 2026/3/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Mambaは低複雑性のシーケンスモデルであり、推論時のシーケンス長が学習時に観測された長さを超えると性能が低下することがあり、これは制御された画像再構成タスクで実証されている。
- 本研究はシーケンス処理のさまざまな段階における再構成を分析し、Mambaが学習時の長さの分布に適応する一方で、その範囲を超えた一般化には失敗することを示している。
- 長さに適応できるMambaの変種が提案され、学習時のシーケンス長の範囲全体で性能を向上させる。
- これらの知見は、Mambaにおける長さ一般化を直観的に捉える視点を提供し、トランスフォーマーと比較して一般化と効率性を向上させるためのアーキテクチャ的方向性を示唆する。

