AI Navigate

単一のセグメンテーション・トークンでMLLM自体をセグメンターとして再考する

arXiv cs.CV / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • SELF1E 論文は、MLLM に対するデコーダー不要のセグメンテーションを、単一のセグメンテーション埋め込みを用いて検討し、外部マスクデコーダの必要性を排除することを目指している。
  • 画像特徴を元の解像度のまま保持し、LLMで処理された圧縮特徴の残差を用いて再補充することで、解像度の低下を補い精度を高める。
  • ピクセル・アンシャッフル操作とデュアルパスアテンションマスク(画像間および画像からセグメンテーションへの経路)を導入し、ピクセルとセグメンテーション・トークンの間の特徴相互作用を豊かにする。
  • 実験により、SELF1Eは複数のセグメンテーションタスクでデコーダー型手法と競合する結果を達成し、MLLMにおけるデコーダーフリーのセグメンテーションの実現可能性を示している。プロジェクトページ: https://github.com/ANDYZAQ/SELF1E。