Moondream セグメンテーション：言葉からマスクへ

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Moondream セグメンテーションは、入力画像とテキスト表現を与えて参照（referring）画像セグメンテーションを行う Moondream 3 の視覚・言語モデルの拡張として導入される。
本手法はベクタ経路を自己回帰的にデコードし、ラスタへのリファインメントを反復的に行うことで、詳細な最終マスクへと洗練する。高品質な出力のために、ベクタからラスタへのリファインメントを組み合わせる。
強化学習段階を用いて、教師あり学習で生じる曖昧さを解消する。マスク品質を直接最適化し、リファインメント用モジュールへ粗いものから正解（グラウンドトゥルース）へ至るターゲットを生成する。
評価の信頼性を高めるために、論文では RefCOCO-M を公開する。これはポリゴン注釈に起因するノイズを減らすため、境界に正確なマスクを用いた、RefCOCO のクリーン化されたバリデーション分割である。
報告されている結果として、RefCOCO（val）で cIoU が 80.2%、LVIS（val）で mIoU が 62.6% と示されており、ベンチマーク全体で強力なセグメンテーション性能を示している。

Abstract

我々は、視覚言語モデルであるMoondream 3の参照画像セグメンテーション拡張であるMoondream Segmentationを提示する。画像と参照表現が与えられると、モデルは自己回帰的にベクトルパスをデコードし、ラスタ化されたマスクを反復的に改良して最終的な詳細マスクを生成する。我々は、教師あり信号における曖昧さを解消するために、マスク品質を直接最適化する強化学習段階を導入する。この段階からのロールアウトは、改良器（refiner）に対する粗いから真値（ground-truth）へ至るターゲットを生成する。ポリゴン注釈による評価ノイズを軽減するために、境界精度の高いマスクを備えた、クリーンアップ済みのRefCOCO検証分割であるRefCOCO-Mを公開する。Moondream Segmentationは、RefCOCO（val）でcIoU 80.2%、LVIS（val）でmIoU 62.6%を達成する。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/6Dailyインサイトを見る →

Black Hat Asia

AI Business

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

日経XTECH

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

日経XTECH

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

日経XTECH

Moondream セグメンテーション：言葉からマスクへ

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長 早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに