グローバルな動画コンテキストを用いたビデオ誘導型機械翻訳

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、局所的に整列された1対1の動画-字幕セグメント手法を超えることで、長時間動画をより適切に扱うためのグローバルに動画誘導するマルチモーダル翻訳フレームワークを提案する。
  • 事前学習済みのセマンティックエンコーダとベクターデータベースを用いて字幕を検索し、対象字幕の意味に一致する動画セグメントのコンテキスト集合を構成する。
  • 注意機構により、最も関連性の高い視覚内容を選択的に強調しつつ、他の特徴も保持してセグメント間にまたがるより広い物語コンテキストを損なわないようにする。
  • 領域認識型のクロスモーダル注意モジュールが、翻訳時における視覚領域と字幕テキストの間の意味的整合性を高める。
  • 大規模なドキュメンタリー翻訳データセットでの実験により、ベースラインモデルに比べて大幅な改善が示されており、特に長時間動画の翻訳において顕著である。

Abstract

動画ガイド付きマルチモーダル翻訳(VMT)は、近年大きく進展してきました。しかし、既存の多くの手法は、字幕と1対1に対応するようにローカルに整合された動画セグメントに依存しているため、長い動画の複数セグメントにまたがるグローバルな物語文脈を捉える能力が制限されています。この制約を克服するために、本研究では、事前学習済みの意味エンコーダと、ベクタデータベースに基づく字幕検索を活用して、対象字幕の意味論に密接に関連する動画セグメントの文脈集合(context set)を構築する、グローバル動画ガイド付きマルチモーダル翻訳フレームワークを提案します。注目機構(attention mechanism)を用いて、関連性の高い視覚コンテンツに焦点を当てつつ、残りの動画特徴は保持することで、より広範な文脈情報を維持します。さらに、翻訳中の意味整合性を高めるために、領域認識型クロスモーダル注目機構(region-aware cross-modal attention mechanism)を設計します。大規模なドキュメンタリー翻訳データセットでの実験により、提案手法がベースラインモデルを大幅に上回り、長尺動画のシナリオにおいて有効であることが示されました。