AI Navigate

LibraGen: 主題駆動型映像生成におけるバランスゲーム

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LibraGen は、主題から映像への (S2V) タスクのために映像生成基盤モデルを拡張するバランスゲームのフレームワークを導入し、動きの一貫性と美学といった VGFM の内在的 priors と S2V 能力とのバランスを取ることを目指します。
  • データ品質を軸とし、データの質を量より重視するハイブリッドな自動・手動データフィルタリングパイプラインを導入します。
  • Tune-to-Balance ポストトレーニング・パラダイムは、クロス・ペアデータとイン・ペアデータをモデル統合と組み合わせることで、native VGFM の強みと S2V 拡張との間の効果的なトレードオフを実現します。
  • 推論時、LibraGen は時間依存の動的分類器なしガイダンススキームを追加し、生成映像に対する柔軟で細かな制御を可能にします。
  • 実験結果は、LibraGen が千規模のトレーニングデータのみを用いて、オープンソースおよび商用の S2V モデルの両方を上回ることを示しています。

概要:動画生成基盤モデル(VGFMs)の進展に伴い、特に対象から動画へ(S2V)を対象としたカスタマイズ生成が注目を集めています。しかし、重要な課題は、運動の一貫性、視覚的美学、プロンプトの整合性といったVGFMの内在的事前知識と、新たに得られたS2V能力とのバランスを取ることにあります。既存の方法はしばしばそのバランスを無視し、一方の側面を強化することで他の側面を犠牲にします。これに対処するため、私たちは LibraGen という新しいフレームワークを提案します。これは、S2V生成のために基盤モデルを拡張することを、VGFMの内在的強さとS2V能力とのバランスゲームと見なすものです。具体的には、「支点を高く掲げ、均衡に合わせる」という中核思想に導かれ、データ品質を支点とし、量より質を重視するアプローチを提唱します。私たちは、全体のデータ品質を向上させるために、自動データフィルタリングと手動データフィルタリングを組み合わせたハイブリッド・パイプラインを構築します。VGFMのネイティブな能力とS2V拡張をさらに調和させるため、Tune-to-Balanceのポストトレーニング・パラダイムを導入します。監視付きファインチューニングの間、クロス・ペアとイン・ペアの両方のデータを組み込み、モデルのマージを用いて効果的なトレードオフを実現します。続いて、Consis-DPO および Real-Fake DPO という二つの特別に設計された直接的嗜好最適化(DPO)パイプラインを設計し、これらを統合してこのバランスを強化します。推論中には、時間依存的な動的分類器なしガイダンス方式を導入し、柔軟で細かな制御を可能にします。実験結果は、LibraGen がオープンソースおよび商用のS2Vモデルの両方を、わずか千規模のトレーニングデータだけで上回ることを示しています。