AI Navigate

Script-to-Slide Grounding (S2SG) を、スクリプトの文を対応するスライドオブジェクトへ結びつけるタスクとして定義し、自動的な教育用ビデオ生成を可能にする。

arXiv cs.CV / 2026/3/19

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は Script-to-Slide Grounding (S2SG) を、スクリプトの文を対応するスライドオブジェクトへ結びつけるタスクとして定義し、自動的な教育用ビデオ生成を可能にする。
  • Text-S2SG を提案しており、大規模言語モデル(LLM)を活用してスライド内のテキストオブジェクトを結びつける手法である。
  • 実験では F1スコアが 0.924 という高い値を報告しており、強力な結びつけ性能を示している。
  • スライドベースのビデオ編集プロセスを計算可能なタスクとして形式化することで、本研究は自動的な教育用ビデオ作成の道を開くことを目指している。

要約: スライドベースの動画に視覚効果を組み込んだものは、教育および研究プレゼンテーションで広く利用されていますが、話された内容をスライドのオブジェクトへ結びつける視覚効果を適用するビデオ編集プロセスは、依然として労力を要します。本研究は、スライドと対応するスクリプトからこの種の教育用動画を自動的に生成するシステムの開発を目指します。基盤的な一歩として、本論文は Script-to-Slide Grounding (S2SG) を提案・定義します。S2SG は、スクリプトの文をそれに対応するスライドのオブジェクトへ結びつけるタスクとして定義されます。さらに初期段階として、テキストオブジェクトのためのこの結びつけタスクを実行するために大規模言語モデル(LLM)を活用する手法「Text-S2SG」を提案します。我々の実験は、提案手法が高い性能を達成することを示しています(F1スコア: 0.924)。本研究の貢献は、以前は暗黙的だったスライドベースの動画編集プロセスを計算可能なタスクとして形式化し、それによって自動化への道を開くことです。
返却形式: {"translated": "翻訳されたHTML"}