単一のセグメンテーション・トークンでMLLM自体をセグメンターとして再考する

arXiv cs.CV / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

SELF1E 論文は、MLLM に対するデコーダー不要のセグメンテーションを、単一のセグメンテーション埋め込みを用いて検討し、外部マスクデコーダの必要性を排除することを目指している。
画像特徴を元の解像度のまま保持し、LLMで処理された圧縮特徴の残差を用いて再補充することで、解像度の低下を補い精度を高める。
ピクセル・アンシャッフル操作とデュアルパスアテンションマスク（画像間および画像からセグメンテーションへの経路）を導入し、ピクセルとセグメンテーション・トークンの間の特徴相互作用を豊かにする。
実験により、SELF1Eは複数のセグメンテーションタスクでデコーダー型手法と競合する結果を達成し、MLLMにおけるデコーダーフリーのセグメンテーションの実現可能性を示している。プロジェクトページ: https://github.com/ANDYZAQ/SELF1E。

note

note

note

note

note