LibraGen: 主題駆動型映像生成におけるバランスゲーム

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

LibraGen は、主題から映像への (S2V) タスクのために映像生成基盤モデルを拡張するバランスゲームのフレームワークを導入し、動きの一貫性と美学といった VGFM の内在的 priors と S2V 能力とのバランスを取ることを目指します。
データ品質を軸とし、データの質を量より重視するハイブリッドな自動・手動データフィルタリングパイプラインを導入します。
Tune-to-Balance ポストトレーニング・パラダイムは、クロス・ペアデータとイン・ペアデータをモデル統合と組み合わせることで、native VGFM の強みと S2V 拡張との間の効果的なトレードオフを実現します。
推論時、LibraGen は時間依存の動的分類器なしガイダンススキームを追加し、生成映像に対する柔軟で細かな制御を可能にします。
実験結果は、LibraGen が千規模のトレーニングデータのみを用いて、オープンソースおよび商用の S2V モデルの両方を上回ることを示しています。

概要：動画生成基盤モデル（VGFMs）の進展に伴い、特に対象から動画へ（S2V）を対象としたカスタマイズ生成が注目を集めています。しかし、重要な課題は、運動の一貫性、視覚的美学、プロンプトの整合性といったVGFMの内在的事前知識と、新たに得られたS2V能力とのバランスを取ることにあります。既存の方法はしばしばそのバランスを無視し、一方の側面を強化することで他の側面を犠牲にします。これに対処するため、私たちは LibraGen という新しいフレームワークを提案します。これは、S2V生成のために基盤モデルを拡張することを、VGFMの内在的強さとS2V能力とのバランスゲームと見なすものです。具体的には、「支点を高く掲げ、均衡に合わせる」という中核思想に導かれ、データ品質を支点とし、量より質を重視するアプローチを提唱します。私たちは、全体のデータ品質を向上させるために、自動データフィルタリングと手動データフィルタリングを組み合わせたハイブリッド・パイプラインを構築します。VGFMのネイティブな能力とS2V拡張をさらに調和させるため、Tune-to-Balanceのポストトレーニング・パラダイムを導入します。監視付きファインチューニングの間、クロス・ペアとイン・ペアの両方のデータを組み込み、モデルのマージを用いて効果的なトレードオフを実現します。続いて、Consis-DPO および Real-Fake DPO という二つの特別に設計された直接的嗜好最適化（DPO）パイプラインを設計し、これらを統合してこのバランスを強化します。推論中には、時間依存的な動的分類器なしガイダンス方式を導入し、柔軟で細かな制御を可能にします。実験結果は、LibraGen がオープンソースおよび商用のS2Vモデルの両方を、わずか千規模のトレーニングデータだけで上回ることを示しています。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

LibraGen: 主題駆動型映像生成におけるバランスゲーム

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer