SCMAPR:複雑シナリオ向けテキストから動画生成のための自己修正型マルチエージェント・プロンプト洗練

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、プロンプトが曖昧さや要件の不足を伴う複雑なシナリオを記述している場合に、テキストから動画(T2V)生成を改善するための、シナリオを考慮した自己修正型マルチエージェント・フレームワークSCMAPRを提案する。
  • SCMAPRは各プロンプトをタクソノミに基づくシナリオ種別へルーティングし、シナリオ固有の書き換え/洗練ポリシーを適用し、構造化された意味検証によって違反を検出して条件付きの改訂を引き起こす。
  • 難しいケースの評価を標準化するため、著者らは複雑シナリオのプロンプトのみを含む{T2V-Complexity}ベンチマークを導入する。
  • 既存の3つのベンチマークに加えて{T2V-Complexity}での実験により、テキストと動画の整合性および生成品質が一貫して向上し、報告された改善幅はVBenchで最大2.67%、EvalCrafterで3.28ポイント、T2V-CompBenchで最大0.028(3つの最先端ベースラインに対して)である。

要旨: テキストから動画への生成(Text-to-Video; T2V)は拡散モデルの最近の進歩によって恩恵を受けてきましたが、現行のシステムは依然として複雑な状況のもとで苦戦しています。これは一般に、テキストプロンプトの曖昧さと過小な仕様化(underspecification)によって悪化します。本研究では、複雑シナリオのプロンプト洗練を段階的なマルチエージェントによる洗練プロセスとして定式化し、SCMAPR、すなわちT2Vプロンプト生成のための、シナリオ認識かつ自己修正型マルチエージェント・プロンプト洗練フレームワークを提案します。SCMAPRは、専門エージェントを協調させて (i) 戦略選択のために、各プロンプトをタクソノミに基づくシナリオへルーティングし、(ii) シナリオ認識型の書き換え方針(rewriting policies)を合成し、その方針に条件付けられた洗練を実行し、(iii) 構造化された意味論的検証を行い、違反が検出された場合に条件付きの修正を引き起こします。T2Vプロンプトにおける「複雑シナリオ」とは何かを明確にするため、代表的な例を提示し、そのような困難な条件下での厳密な評価を可能にするために、さらに {T2V-Complexity} を導入します。これは複雑シナリオのプロンプトのみから成る、複雑シナリオ型のT2Vベンチマークです。3つの既存ベンチマークおよび当社のT2V-Complexityベンチマークに対する大規模な実験により、SCMAPRは複雑シナリオのもとで一貫してテキスト-動画の整合性と生成全体の品質を改善することが示されました。VBenchおよびEvalCrafterにおいて平均スコアで最大2.67pcentおよび3.28の改善を達成し、さらに3つの最先端(State-Of-The-Art)ベースラインに対してT2V-CompBenchで最大0.028の改善を達成します。