概要: Mambaの再帰的状態 h_t は、構築上、これまでに見たすべてのトークンの圧縮要約です。ここで、魅力的な仮説が持ち上がります。固定されたパッチ境界でトークンレベルの出力 y_t を取り出せば、プーリングヘッドも、ファインチューニングも、[CLS]トークンも不要で、意味的な文の要約がそのまま得られるのではないか、というものです。本稿では、この仮説を慎重に検証します。5つのベンチマーク(SST-2、CoLA、MRPC、STS-B、IMDb)にわたって、厳密なフリーズ特徴プロービング手順のもとで、事前学習済みのMamba-130Mバックボーンから凍結した文表現を抽出する4つの戦略を比較します。計算可能な場合には、3つのランダムシードを用います。その結果は仮説を支持しません。すなわち、パッチ境界の読み出しは一貫して単純な平均プーリングを上回りません。さらに、2つの構造的な病理を特定し、定量化します。すなわち、深刻な異方性(平均のペアワイズコサイン類似度 0.9999、標準偏差 0.000044)と、原データの最終SSM状態における表現の崩壊です(CoLAでMCC = 0.000、3つすべてのシードで、混同行列により確認)。加えて、直交的注入(orthogonal injection)という新たな手法を提案します。これは、新しい情報の投入を制約する改変された再帰であり、…
状態空間に迷う:Frozen Mamba表現の探査
arXiv cs.CL / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、Mambaの再帰状態h_tから、固定されたパッチ境界でトークン出力y_tを取り出すことで、プーリングヘッドや微調整、[CLS]トークンなしに意味的な文表現が得られるという仮説を検証します。
- Mamba-130M(事前学習済みを凍結)から特徴抽出を行い、SST-2、CoLA、MRPC、STS-B、IMDbの5つのベンチマークで比較した結果、パッチ境界の読み出しは単純な平均プーリングを一貫して上回りません。
- 著者らは、極端な異方性と、最終SSM状態の生表現における表現崩壊(例:CoLAで3つのseedすべてでMCC=0)という2つの構造的な問題を特定し、定量化しています。
- これらの病理に対処するため、新しい情報の取り込み方を制約する改良された再帰として「orthogonal injection」を提案しています。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →


