単一のセグメンテーション・トークンでMLLM自体をセグメンターとして再考する
arXiv cs.CV / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SELF1E 論文は、MLLM に対するデコーダー不要のセグメンテーションを、単一のセグメンテーション埋め込みを用いて検討し、外部マスクデコーダの必要性を排除することを目指している。
- 画像特徴を元の解像度のまま保持し、LLMで処理された圧縮特徴の残差を用いて再補充することで、解像度の低下を補い精度を高める。
- ピクセル・アンシャッフル操作とデュアルパスアテンションマスク(画像間および画像からセグメンテーションへの経路)を導入し、ピクセルとセグメンテーション・トークンの間の特徴相互作用を豊かにする。
- 実験により、SELF1Eは複数のセグメンテーションタスクでデコーダー型手法と競合する結果を達成し、MLLMにおけるデコーダーフリーのセグメンテーションの実現可能性を示している。プロジェクトページ: https://github.com/ANDYZAQ/SELF1E。




