PR-MaGIC: マスクデコーダのグラディエントフローによるインコンテキスト・セグメンテーションのためのプロンプト洗練

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、SAM のような視覚基盤モデルを基盤とするインコンテキスト画像セグメンテーションに対し、プロンプトを洗練する学習不要の推論時手法 PR-MaGIC を提案する。
既存のインコンテキスト手法における主要な弱点、すなわちサポート画像とクエリ画像間の視覚的不整合によって生じる不十分なプロンプトを扱う。
PR-MaGIC は、SAM のマスクデコーダからのグラディエントフローを活用してプロンプトの質を向上させ、その結果としてセグメンテーション出力を改善する。さらに、既存のインコンテキスト・セグメンテーション枠組みにそのまま組み込める。
著者らは、性能の頑健性を異なるサンプル間で確保するための理論的な正当化と、実用的な安定化メカニズム（単純な top-1 選択戦略）を提示する。
複数のベンチマークで行った実験により、追加学習やアーキテクチャ変更なしで一貫したセグメンテーション品質の改善が確認される。

Abstract

Segment Anything Model（SAM）のような視覚基盤モデル（VFM）は、画像のセグメンテーションの幅広い利用を大きく前進させてきました。しかし、SAMとその派生モデルは、プロンプト生成のために相当の手作業を要し、さらに特定のアプリケーションに対応するための追加学習も必要です。近年の手法では、SAMをインコンテキスト（ワンショット／フューショット）セグメンテーションに統合することで、クエリ画像とサポート画像の意味的整合により自動プロンプト生成を可能にし、これらの制約を解決しようとしています。これらの取り組みにもかかわらず、サポート画像とクエリ画像の視覚的な不整合により生成されたプロンプトが最適でないものとなり、その結果としてセグメンテーションの品質が低下します。この制限に対処するために、我々はPR-MaGIC（In-Context Segmentationにおけるマスクデコーダの勾配フローによるプロンプト洗練）を提案します。PR-MaGICは、SAMのマスクデコーダから導出される勾配フローによりプロンプトを洗練する、学習不要のテスト時フレームワークです。PR-MaGICはインコンテキストセグメンテーションの枠組みにシームレスに統合でき、理論的裏付けを持ちながら、サンプル間で頑健な性能を保証する単純なtop-1選択戦略によって実用上安定化されています。広範な評価の結果、PR-MaGICはさまざまなベンチマークにおいて一貫してセグメンテーション品質を向上させ、不十分なプロンプトによる悪影響を、追加学習やアーキテクチャ変更なしで効果的に緩和できることが示されました。

Black Hat Asia

AI Business

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

日経XTECH

PR-MaGIC: マスクデコーダのグラディエントフローによるインコンテキスト・セグメンテーションのためのプロンプト洗練

要点

Abstract

関連記事

Black Hat Asia

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵