意味の進捗関数によるビデオ解析と生成

arXiv cs.CV / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、画像・ビデオ生成モデルにおいて意味が時間的に非線形に変化しやすく、内容がほとんど変わらない区間の後に急激な意味の飛躍が起きるという問題に取り組んでいます。
  • 1次元の「Semantic Progress Function(意味の進捗関数)」を提案し、各フレームで意味埋め込み同士の距離を測って累積の変化を表す滑らかな曲線をフィットすることで、シーケンス上での意味の移り変わりをモデル化します。
  • 意味の進捗曲線が直線から外れることは「意味のペース」が不均一であることを示し、生成ビデオにおける時間的な不規則性の診断や分析に活用できます。
  • この洞察に基づき、意味の変化が一定速度で進むようにシーケンスの再パラメータ化(リタイミング)を行う「semantic linearization(意味の線形化)」手法を提案し、遷移の滑らかさと整合性を高めます。
  • さらに、この枠組みはモデル非依存であるとして、異なる生成器間でのペース比較や、実データおよび生成データの両方を任意の目標ペースに誘導することができると述べています。

Abstract

画像および動画生成モデルによって生み出される変換は、多くの場合きわめて非線形な形で進行します。内容がほとんど変化しない長い区間が続いたのち、突然で急な意味的ジャンプが起こるのです。この挙動を分析し、修正するために、我々はセマンティック・プログレス・ファンクション(Semantic Progress Function)を導入します。これは、ある系列の意味が時間とともにどのように変化するかを捉える1次元の表現です。各フレームについて、セマンティック埋め込み間の距離を計算し、系列全体にわたる累積的な意味の変化を反映する滑らかな曲線を当てはめます。この曲線が直線から逸脱していることは、意味の進行が均一でないことを示します。この洞察に基づき、セマンティックの線形化(semantic linearization)手続きを提案します。これは、系列を再パラメータ化(あるいは再時間化)し、意味の変化が一定の速度で展開されるようにすることで、より滑らかで首尾一貫した遷移を得ます。線形化の先において、我々の枠組みは、時間的な不規則性を特定するためのモデル非依存の基盤を提供します。さらに、異なる生成器間で意味の進行ペースを比較したり、生成された動画系列および現実世界の動画系列の両方を、任意の目標ペースへと導いたりすることも可能にします。