グローバルな動画コンテキストを用いたビデオ誘導型機械翻訳
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、局所的に整列された1対1の動画-字幕セグメント手法を超えることで、長時間動画をより適切に扱うためのグローバルに動画誘導するマルチモーダル翻訳フレームワークを提案する。
- 事前学習済みのセマンティックエンコーダとベクターデータベースを用いて字幕を検索し、対象字幕の意味に一致する動画セグメントのコンテキスト集合を構成する。
- 注意機構により、最も関連性の高い視覚内容を選択的に強調しつつ、他の特徴も保持してセグメント間にまたがるより広い物語コンテキストを損なわないようにする。
- 領域認識型のクロスモーダル注意モジュールが、翻訳時における視覚領域と字幕テキストの間の意味的整合性を高める。
- 大規模なドキュメンタリー翻訳データセットでの実験により、ベースラインモデルに比べて大幅な改善が示されており、特に長時間動画の翻訳において顕著である。
