AI Navigate

参照画像セグメンテーションのための Mixture-of-Experts を用いた空間-意味的エキスパート・ルーティングアーキテクチャ

arXiv cs.AI / 2026/3/16

💬 オピニオンModels & Research

要点

  • SERA は、参照画像セグメンテーションのための空間-意味的エキスパート・ルーティングアーキテクチャを導入し、空間的一貫性と境界の精度を向上させる SERA-Adapter と SERA-Fusion を特徴とします。
  • 軽量で表現を意識したルーティング機構と、正規化層とバイアス項のみを更新するパラメータ効率の高いチューニングを採用しており、バックボーンのパラメータの 1% 未満を更新するだけで済むため、事前学習済みエンコーダと互換性を維持します。
  • SERA-Adapter は、選択されたバックボーンブロックに表現条件付きアダプタを挿入して、エキスパート主導の洗練とクロスモーダル注意を可能にします。一方、SERA-Fusion は、マルチモーダル相互作用の前に、幾何情報を保持するエキスパート変換を用いてトークン特徴を空間グリッドに再形成します。
  • 標準ベンチマークでの実験は、SERA が強力なベースラインを一貫して上回ることを示しており、特に正確な空間局在化と境界の描写を要する表現で顕著な改善を示しています。

要旨: 指示表現に基づく画像セグメンテーションは、自然言語表現で記述された画像領域のピクセルレベルのマスクを生成することを目的とします。事前学習済みのビジョン-ランゲージモデルは意味的グラウンディングを向上させているものの、多くの既存手法は依然として均一なリファインメント戦略に依存しており、指示表現の多様な推論要件を完全には満たしていません。この不一致のため、予測はしばしば断片化した領域、あるいは不正確な境界、場合によっては誤った物体を含むことがあります。特に計算効率のために事前学習済みのバックボーンを固定している場合に顕著です。これらの制限に対処するため、指示画像分割のための時空意味的エキスパートルーティングアーキテクチャ SERA を提案します。SERA は、ビジョン-ランゲージフレームワーク内の二つの補完的な段階で、軽量で表現を意識したエキスパートのリファインメントを導入します。まず、SERA-Adapter を設計します。これは、選択されたバックボーンブロックに表現条件付きアダプタを挿入し、エキスパート主導のリファインメントとクロスモーダルアテンションを通じて空間的一貫性と境界の精度を改善します。次に、SERA-Fusion を導入します。これは、トークン特徴を空間グリッドに再形成し、幾何学を保持するエキスパート変換をマルチモーダル相互作用前に適用することで、中間的な視覚表現を強化します。さらに、軽量なルーティング機構が、事前学習済み表現と互換性を保ちながらエキスパートの寄与を適応的にウェイト付けします。凍結されたエンコーダの下でもこのルーティングを安定させるために、SERA は正規化層とバイアス項のみを更新するパラメータ効率的なチューニング戦略を採用しており、バックボーンパラメータの1%未満に影響します。標準的な指示画像セグメンテーションのベンチマークでの実験は、SERA が一貫して強力なベースラインを上回ることを示しており、特に正確な空間的位置特定と正確な境界描画を要する表現で顕著な利得を示します。