AI Navigate

FACE-net: 検索強化による感情付き動画キャプション生成のための事実性校正と感情増強

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • FACE-netは、生成されるキャプションにおける事実性と感情の偏りを緩和するため、事実情報と感情情報を共同で抽出する検索強化型の感情付き動画キャプション生成フレームワークを提案する。
  • 本モデルは、動画内容に整合した最も関連性の高い文を外部リポジトリから検索・取得し、キャプション生成の意味情報を豊かにする。
  • 不確実性推定を備えた事実校正モジュールは、取得した情報を主語-述語-目的語の三つ組に分解し、動画内容を用いてそれらを洗練する。
  • 段階的な視覚的感情増強モジュールは、較正済みの意味情報を活用して視覚クエリと候補感情を生成し、それらを統合して、各事実意味情報に対して感情を適応的に増強する。

要約: Emotional Video Captioning (EVC) は新たに登場した課題であり、動画に表現された内在的な感情とともに事実的内容を説明することを目指す。既存の研究は全体的な感情の手がかりを捉え、それを動画コンテンツと組み合わせて記述を生成する。しかし、生成過程での事実的手がかりと感情的手がかりの抽出および協調が不十分であるため、彼らの方法は生成時における事実-感情バイアスに対処するのが難しい。これは生成時にサンプルごとに事実性と感情性の要件が異なることを指す。これに対して、統一されたアーキテクチャを通じて事実-感情意味論を協働で掘り下げ、生成に適応的で正確な指針を提供し、すべてのサンプル学習における事実-感情記述の妥協的傾向を打破する、FActual Calibration(FActual補正)とEmotion augmentation(感情拡張)を組み込んだ検索強化フレームワーク FACE-net を提案する。技術的には、まず外部リポジトリを導入し、動画内容と最も関連性の高い文を取得して意味情報を補強する。次に、我々の不確実性推定モジュールによる事実補正は、取得された情報を主語-述語-目的語の三つ組に分解し、ビデオコンテンツを通じて各コンポーネントを自己精製および相互精製することで、事実的意味論を効果的に抽出する。一方、我々の段階的視覚的感情拡張モジュールは、校正済みの事実的意味論を専門家として活用し、動画コンテンツと感情辞典と相互作用して視覚的クエリと候補感情を生成し、それらを統合して各事実的意味論に対して感情を適応的に拡張する。さらに、事実-感情バイアスを緩和するため、サンプルのバイアスの程度を予測・調整する動的バイアス調整ルーティングモジュールを設計する。