シーングラフに導かれるファインチグレインドSegCaptioning Transformer:制御可能な動画セグメンテーションとキャプション生成のためのきめ細かなアライメント

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、新しいマルチモーダル課題「Controllable Video Segmentation and Captioning(制御可能な動画セグメンテーションとキャプション生成)」を提案する。ユーザは局所的な手がかり(例:バウンディングボックス)でプロンプトし、意図を反映した対象物のマスクと、それに対応するキャプションの両方を生成できる。
  • そのために、SG-FSCFormer(Scene Graph-guided Fine-grained SegCaptioning Transformer)を提案する。これは、プロンプトに導かれるTemporal Graph Formerと、時間経過にわたってユーザの指示をより適切に表現し追従するための適応的プロンプトアダプタを用いる。
  • 手法には、キャプション–マスクのペアを同時に予測するFine-grained Mask-linguistic Decoderが含まれており、多エンティティのコントラスティブ損失によって学習する。
  • さらに、各予測マスクと対応するキャプショントークンとの間のファインチグレインドなアライメントを追加し、解釈可能性とユーザ理解を向上させる。
  • 2つのベンチマークデータセットでの実験により、ユーザの意図の捉え方および、プロンプトに固有な正確なマルチモーダル出力の生成において性能が向上することを示し、コードはGitHubで公開されている。

要旨: マルチモーダルの大規模モデルにおける近年の進歩により、異なるモダリティ間の表現ギャップが大きく埋められ、相関するモダリティを生成することで動画コンテンツの理解を高める、動画マルチモーダル解釈の進化が促進されてきました。しかし、既存の多くの動画マルチモーダル解釈手法は主としてグローバルな理解に焦点を当てており、ユーザーとのインタラクションは限定的です。そこで本研究では、新たなタスクである、制御可能な動画セグメンテーション&キャプション生成(SegCaptioning)を提案します。これは、ユーザーが関心対象の物体を囲むバウンディングボックスなどの具体的なプロンプトを与えることで、ユーザーの意図を正確に体現する、相関したマスクとキャプションを同時に生成できるようにします。さらに、ユーザーの意図を適応的なプロンプト・アダプタを通して効果的に捉え表現するための、プロンプト誘導型テンポラル・グラフ・フォーマーを統合した新しい枠組み、Scene Graph-guided Fine-grained SegCaptioning Transformer(SG-FSCFormer)を設計しました。これにより、生成内容がユーザーの要件に適切に一致することを保証します。加えて、本モデルは、Multi-entity Contrastive 損失を用いて高品質なキャプション-マスクの組を協調的に予測する Fine-grained Mask-linguistic Decoder を導入するとともに、各マスクとそれに対応するキャプショントークンとの間のきめ細かな整合も提供し、それによってユーザーの動画理解をさらに高めます。2つのベンチマークデータセットで実施した包括的な実験により、SG-FSCFormer が目覚ましい性能を達成し、ユーザーの意図を効果的に捉え、ユーザーの指定に合わせた正確なマルチモーダル出力を生成できることが示されました。コードは https://github.com/XuZhang1211/SG-FSCFormer で公開しています。