意味論的に根拠づけられた監督による統一マルチモーダルモデルの整合性向上

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

要点

  • SeGroS は、統一マルチモーダルモデル (UMMs) における粒度の不一致と監督の冗長性に対処するためのファインチューニングフレームワークとして提案されている。
  • 新規の視覚的グラウンディングマップを導入し、二つの補完的な監督信号を生み出す。すなわち、意味的ビジュアルヒントと意味論的に根拠づけられた破損入力である。
  • 意味的ビジュアルヒントはまばらなテキストプロンプトを補い、意味論的に根拠づけられた破損入力は再構成損失をテキストと整合したコア領域のみに限定して、マスキングベースのUMMsを強化する。
  • GenEval、DPGBench、CompBench での評価は、複数のUMMアーキテクチャにおいて、生成忠実度とクロスモーダル整合性の改善を示している。
  • 結果は SeGroS が将来の統一マルチモーダルシステムのアライメントと生成品質を向上させる可能性を示唆している。

要約: 統一マルチモーダルモデル(UMMs)は、統一されたモデリングフレームワークの中でマルチモーダルな理解と生成を統合する有望なパラダイムとして浮上しています。しかし、現在の生成トレーニング・パラダイムには固有の制限が存在します。私たちは Semantically-Grounded Supervision(SeGroS)、UMMsの粒度の不一致と監督の冗長性を解消するよう設計されたファインチューニングフレームワークを提示します。核となるのは、2つの補完的な監督信号を構築するための新しい視覚的グラウンディングマップを提案することです。まず、テキストプロンプトの希薄さを補うために意味論的ビジュアルヒントを定式化します。第二に、意味論的に根拠づけられた破損入力を生成して、再構成損失をコアなテキスト整合領域のみに限定することにより、マスキングベースのUMMsの監督を明示的に強化します。GenEval、DPGBench、CompBenchでの広範な評価は、SeGroSがさまざまなUMMアーキテクチャにおいて生成忠実度とクロスモーダル整合性を著しく向上させることを示しています。