Moondream セグメンテーション:言葉からマスクへ
arXiv cs.AI / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Moondream セグメンテーションは、入力画像とテキスト表現を与えて参照(referring)画像セグメンテーションを行う Moondream 3 の視覚・言語モデルの拡張として導入される。
- 本手法はベクタ経路を自己回帰的にデコードし、ラスタへのリファインメントを反復的に行うことで、詳細な最終マスクへと洗練する。高品質な出力のために、ベクタからラスタへのリファインメントを組み合わせる。
- 強化学習段階を用いて、教師あり学習で生じる曖昧さを解消する。マスク品質を直接最適化し、リファインメント用モジュールへ粗いものから正解(グラウンドトゥルース)へ至るターゲットを生成する。
- 評価の信頼性を高めるために、論文では RefCOCO-M を公開する。これはポリゴン注釈に起因するノイズを減らすため、境界に正確なマスクを用いた、RefCOCO のクリーン化されたバリデーション分割である。
- 報告されている結果として、RefCOCO(val)で cIoU が 80.2%、LVIS(val)で mIoU が 62.6% と示されており、ベンチマーク全体で強力なセグメンテーション性能を示している。



