Moondream セグメンテーション:言葉からマスクへ

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Moondream セグメンテーションは、入力画像とテキスト表現を与えて参照(referring)画像セグメンテーションを行う Moondream 3 の視覚・言語モデルの拡張として導入される。
  • 本手法はベクタ経路を自己回帰的にデコードし、ラスタへのリファインメントを反復的に行うことで、詳細な最終マスクへと洗練する。高品質な出力のために、ベクタからラスタへのリファインメントを組み合わせる。
  • 強化学習段階を用いて、教師あり学習で生じる曖昧さを解消する。マスク品質を直接最適化し、リファインメント用モジュールへ粗いものから正解(グラウンドトゥルース)へ至るターゲットを生成する。
  • 評価の信頼性を高めるために、論文では RefCOCO-M を公開する。これはポリゴン注釈に起因するノイズを減らすため、境界に正確なマスクを用いた、RefCOCO のクリーン化されたバリデーション分割である。
  • 報告されている結果として、RefCOCO(val)で cIoU が 80.2%、LVIS(val)で mIoU が 62.6% と示されており、ベンチマーク全体で強力なセグメンテーション性能を示している。

Abstract

我々は、視覚言語モデルであるMoondream 3の参照画像セグメンテーション拡張であるMoondream Segmentationを提示する。画像と参照表現が与えられると、モデルは自己回帰的にベクトルパスをデコードし、ラスタ化されたマスクを反復的に改良して最終的な詳細マスクを生成する。我々は、教師あり信号における曖昧さを解消するために、マスク品質を直接最適化する強化学習段階を導入する。この段階からのロールアウトは、改良器(refiner)に対する粗いから真値(ground-truth)へ至るターゲットを生成する。ポリゴン注釈による評価ノイズを軽減するために、境界精度の高いマスクを備えた、クリーンアップ済みのRefCOCO検証分割であるRefCOCO-Mを公開する。Moondream Segmentationは、RefCOCO(val)でcIoU 80.2%、LVIS(val)でmIoU 62.6%を達成する。

Moondream セグメンテーション:言葉からマスクへ | AI Navigate