DCARL：自己回帰型ロングトラジェクトリービデオ生成のための分割統治フレームワーク

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、スケーラビリティ、視覚的ドリフト、制御性の課題に直面している既存モデルの限界を改善することを目的とした、分割統治型の自己回帰フレームワークであるDCARLを提案する。
DCARLは、まずKeyframe Generatorによって大域的に一貫した構造アンカーを生成する（時間圧縮なしで学習）し、その後、重なり合うセグメントを用いて密なフレームを自己回帰的に生成するInterpolation Generatorを用いる。
補間（interpolation）段階では、グローバルな文脈のためにキーフレームを活用しつつ、局所的な時間的一貫性を保つために、クリーンな直前の単一フレームのみを使用する。
大規模なインターネットのロングトラジェクトリービデオデータセットで学習したDCARLは、視覚品質（FID/FVDの低下）とカメラ追従性（ATE/AREの低下）の両面において、先行する自己回帰および分割統治のベースラインより良い結果を報告している。
本手法は、最大32秒までのロングトラジェクトリービデオ合成で実証されており、安定かつ高忠実度な生成が可能であると主張している。

要旨: 長軌道（ロングトラジェクトリ）動画生成は、既存の動画拡散モデル（VDM）のスケーラビリティが限られていることが主な理由で、極めて重要でありながらも困難な課題です。オートレグレッシブ（自己回帰）モデルは、無限ロールアウトを可能にする一方で、視覚的ドリフトや制御性の低さに悩まされます。これらの問題に対処するために、DCARL（Divide-and-Conquer Autoregressive with Keyframes and Interpolation）を提案します。これは、新しい divide-and-conquer（分割統治）とオートレグレッシブの枠組みであり、分割統治スキームの構造的安定性と、VDMの高忠実度生成を効果的に組み合わせます。提案手法ではまず、時間圧縮を行わずに訓練された専用のキーフレーム生成器を用いて、長距離かつ大域的に整合した構造アンカーを確立します。その後、補間生成器が、重なり合う区間を用いてオートレグレッシブに密なフレームを合成します。ここでは、キーフレームによって大域的文脈を与え、さらに局所的な整合性のために、単一のクリーンな直前フレームを用います。大規模なインターネット長軌道動画データセットで学習した本手法は、最先端のオートレグレッシブおよび分割統治のベースラインと比較して、映像品質（FIDおよびFVDの低さ）とカメラ追従性（ATEおよびAREの低さ）の両方で優れた性能を達成し、最大32秒の長軌道動画に対して安定かつ高忠実度な生成を示します。

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

note

amiami_@Japan

note

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

note

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

note

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

note

DCARL：自己回帰型ロングトラジェクトリービデオ生成のための分割統治フレームワーク

要点

関連記事

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

amiami_@Japan

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

amiami_@Japan

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する​

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する