要旨: 動画が早送りされているのか、あるいはスローダウンされているのかを、どのように判断できるでしょうか? さまざまな速度で動画を生成するにはどうすればよいでしょうか? 動画は現代のコンピュータビジョン研究の中心に位置しているものの、時間の経過を知覚し、制御することにはほとんど注目が払われてきませんでした。本論文では、時間を学習可能な視覚的概念として捉え、動画内における時間の流れを推論し、操作するためのモデルを開発します。まず、動画に自然に存在するマルチモーダルな手がかりと時間的な構造を活用し、自己教師ありの方式で速度変化を検出し、再生速度を推定することを学習します。次に、こうして学習した時間的推論モデルによって、雑音を含む実環境(in-the-wild)のソースから、これまで最大規模となるスローモーション動画データセットをキュレーションできることを示します。このようなスローモーション映像は、通常は高速度カメラで撮影されており、標準的な動画よりも大幅に豊かな時間的詳細を含んでいます。このデータを用いて、さらに時間制御が可能なモデルを発展させます。これには、指定した再生速度で動きを生成する「速度条件付き動画生成」や、低FPSでぼやけた動画を、高FPSの、きめ細かな時間的詳細を備えた系列へと「時間的超解像」へ変換する手法を含みます。本研究の結果は、時間を動画学習における操作可能な知覚次元として位置づけるものであり、時間的に制御可能な動画生成、時間フォレンジック(改変・捏造の見抜き)検出、そして出来事が時間とともにどのように展開するかを理解する、より豊かなワールドモデルの可能性を切り拓きます。
速い時間と遅い時間を見分ける:動画における時間の流れを学ぶ
arXiv cs.CV / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、動画がどの程度スピードアップ/スローダウンされているかを検出し、再生速度を推定する方法を扱っています。
- 「視覚的概念としての時間」を自己教師あり学習で獲得し、多モーダルな手がかりと動画が持つ自然な時間的構造を活用して、ラベルなしで時間推論を可能にします。
- 学習したモデルを用いて、ノイズの多い“実世界のソース”からこれまでで最大規模だと主張するスローモーション動画データセットを構築しています。
- このスローモーションデータを使い、速度条件付きの動画生成や、低FPSでぼやけた映像を高FPSかつきめ細かな時間情報へ変換する時間超解像などの時間制御モデルを開発しています。
- 本研究は、時間を操作可能な知覚次元として捉え、時間制御型の動画生成や時系列フォレンジクス(改変検出)につながる新たな展開を示しています。


