VideoFlexTok:可変長・粗から細へ段階的なビデオトークン化

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、固定された時空間3Dトークン・グリッドではなく、可変長の「粗から細へ」のトークン列を用いるビデオトークン化手法 VideoFlexTok を提案する。
  • 初期(粗い)トークンは、意味や動きといったより抽象的な情報を捉えることを目的とし、その後半(細かい)トークンが徐々に微細な詳細を追加していく。
  • 生成的フローデコーダを用いることで、任意のトークン数から現実的な動画を再構成でき、計算適応的な忠実度を実現する。
  • クラス生成およびテキストからのビデオ生成に関する実験では、学習効率の向上が示されており、(パラメータ数で)1.1B と 5.2B の小型モデルでも同等品質を達成している。
  • 計算資源が限られた状況での長尺動画生成を支援するため、10秒・81フレームのクリップに対して 672 トークンというはるかに少ないトークン数で学習し、比較対象の3Dグリッド型トークナイザが必要とするトークン予算要件を上回る。

要旨: 視覚トークナイザは、高次元の生ピクセルを、下流のモデリングのための圧縮表現へと写像します。圧縮を超えて、トークナイザは何の情報が保持され、どのように整理されるかを決定します。動画トークン化における事実上の標準的な手法は、動画を時空間の3次元グリッドのトークンとして表現し、それぞれが元の信号内で対応する局所情報を捉えることです。これには、たとえばテキストから動画へのモデルのように、トークンを消費する下流モデルが、動画の内在する複雑さにかかわらず、すべての低レベルの詳細を「ピクセルごとに」予測することを学習する必要があり、その結果、学習の複雑性が高くなります。
本稿ではVideoFlexTokを提案します。これは、粗いものから細かいものへという段階的な(coarse-to-fine)構造を持ち、可変長のトークン列として動画を表現します。ここで最初のトークンは(創発的に)意味や運動といった抽象的情報を捉え、後続のトークンがより細かな詳細を追加します。生成フローデコーダにより、任意のトークン数から現実的な動画再構成が可能になります。この表現構造により、トークン数を下流の要求に応じて適応させると同時に、同じ予算でベースラインより長い動画をエンコードできます。
クラス別およびテキストから動画への生成タスクにおいてVideoFlexTokを評価し、3Dグリッドトークンと比べてより効率的な学習につながることを示します。たとえば、比較可能な生成品質(gFVDおよびViCLIP Score)を、より小さなモデル(5.2Bに対して1.1B)で達成しています。最後に、対応する3Dグリッド・トークナイザに比べて8分の1の672トークンのみで、10秒・81フレームの動画に対してテキストから動画へのモデルを学習することで、計算コストが過大にならない形でVideoFlexTokが長尺動画生成を可能にする方法を示します。