BALD-SAM: インタラクティブセグメンテーションにおける不一致ベースのアクティブプロンプト

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

BALD-SAMは、モデル由来のエピステミック不確実性を介して情報量の多い領域を選択することで、インタラクティブセグメンテーション向けのアクティブプロンプトフレームワークを導入し、BALDの概念を空間的プロンプトへ拡張します。
本手法はSAMのバックボーンを凍結し、ベイズ的不確実性モデリングを小さな学習ヘッドのみに適用することで、大規模なファウンデーションモデル上で実用的な不確実性推定を可能にします。
自然、医療、水中、地震といった16のデータセットに跨る強力なドメイン横断性能を達成し、14ベンチマークで一位または二位を獲得し、いくつかのケースで人間のプロンプトを上回っています。
3つのSAMバックボーンと35のLaplace事後分布設定（38設定）にわたる広範なアブレーション研究が、堅牢性を示し、特に薄い物体や構造的に複雑な物体に対して顕著な改善をもたらします。
本研究は、主観的な視覚判断への依存を減らし、各インタラクションの有用性を高めることで、注釈ワークフローの有意義な改善を示唆します。

本文: arXiv:2603.10828v1 アナウンス種別: 新規要約: Segment Anything Model (SAM) は、空間的プロンプトを通じてインタラクティブセグメンテーションを革新してきました。既存の研究は主にさまざまな設定でプロンプトを自動化することに焦点を当てていますが、実世界の注釈ワークフローには、モデル出力を観察し、曖昧さを解消するために戦略的にプロンプトを配置する反復的な改善が含まれます。現在のパイプラインは通常、予測マスクの品質をアノテータの視覚的評価に依存します。私たちは、自動化された対話型プロンプトの原則的アプローチは、次のプロンプトのために最も情報量の多い領域を識別するモデル由来の基準を用いることだと提案します。本研究では、アクティブプロンプティングを確立します。これは、画像内の場所が未ラベルのプールを構成し、プロンプトが情報量の多い領域を優先するクエリとして機能する、空間的なアクティブ学習のアプローチです。各相互作用の有用性を高めます。我々はさらに BALD-SAM を提示します。これは、ベイズ的不一致によるアクティブラーニング（BALD）を空間的なプロンプト選択に適用する原理的なフレームワークで、エピステミック不確実性を定量化します。そうするために、モデル全体を凍結し、ベイズ的不確実性モデリングを小さな学習ヘッドのみに適用します。これにより、多数百万パラメータを持つ大規模ファウンデーションモデルでの難解な不確実性推定を実用的なものにします。自然、医療、水中、地震の領域にまたがる16のデータセットを通じて、BALD-SAM は強力なドメイン横断性能を示し、16ベンチマークのうち14で一位または二位を獲得しています。これらの利得は、3つのSAMバックボーンと35のLaplace事後分布設定を網羅する包括的なアブレーション群を通じて検証され、合計38件の異なるアブレーション設定に及びます。強力な平均性能を超えて、BALD-SAM は人間のプロンプトを上回り、いくつかのカテゴリでオラクルプロンプトにも及ぶことがあり、最終的なセグメンテーション品質では一発のベースラインを一貫して上回ります。特に薄く構造的に複雑な物体に対して顕著です。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

BALD-SAM: インタラクティブセグメンテーションにおける不一致ベースのアクティブプロンプト

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer