グローバルな動画コンテキストを用いたビデオ誘導型機械翻訳

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、局所的に整列された1対1の動画-字幕セグメント手法を超えることで、長時間動画をより適切に扱うためのグローバルに動画誘導するマルチモーダル翻訳フレームワークを提案する。
事前学習済みのセマンティックエンコーダとベクターデータベースを用いて字幕を検索し、対象字幕の意味に一致する動画セグメントのコンテキスト集合を構成する。
注意機構により、最も関連性の高い視覚内容を選択的に強調しつつ、他の特徴も保持してセグメント間にまたがるより広い物語コンテキストを損なわないようにする。
領域認識型のクロスモーダル注意モジュールが、翻訳時における視覚領域と字幕テキストの間の意味的整合性を高める。
大規模なドキュメンタリー翻訳データセットでの実験により、ベースラインモデルに比べて大幅な改善が示されており、特に長時間動画の翻訳において顕著である。

Abstract

動画ガイド付きマルチモーダル翻訳（VMT）は、近年大きく進展してきました。しかし、既存の多くの手法は、字幕と1対1に対応するようにローカルに整合された動画セグメントに依存しているため、長い動画の複数セグメントにまたがるグローバルな物語文脈を捉える能力が制限されています。この制約を克服するために、本研究では、事前学習済みの意味エンコーダと、ベクタデータベースに基づく字幕検索を活用して、対象字幕の意味論に密接に関連する動画セグメントの文脈集合（context set）を構築する、グローバル動画ガイド付きマルチモーダル翻訳フレームワークを提案します。注目機構（attention mechanism）を用いて、関連性の高い視覚コンテンツに焦点を当てつつ、残りの動画特徴は保持することで、より広範な文脈情報を維持します。さらに、翻訳中の意味整合性を高めるために、領域認識型クロスモーダル注目機構（region-aware cross-modal attention mechanism）を設計します。大規模なドキュメンタリー翻訳データセットでの実験により、提案手法がベースラインモデルを大幅に上回り、長尺動画のシナリオにおいて有効であることが示されました。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

グローバルな動画コンテキストを用いたビデオ誘導型機械翻訳

要点

Abstract

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」