CutClaw:音楽同期によるエージェント型・長時間動画編集
arXiv cs.CV / 2026/4/1
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- CutClawは、自律的なマルチエージェント・フレームワークとして提示されており、数時間分の生映像を音楽に同期した編集によって短い意味のある動画へと変換する。
- 本システムは、微細な視覚的ディテールとグローバルな構造の両方を捉えるための階層的なマルチモーダル分解を用いるとともに、整合(アラインメント)のために音声も処理する。
- 「Playwriter Agent(プレイライト・エージェント)」は、長期のホライゾンにわたって音楽の変化に視覚シーンを結び付けることで、ナラティブの一貫性を調整する。
- 「Editor(エディタ)」と「Reviewer(レビュアー)」のエージェントが協調し、美的および意味論的な基準にもとづいて最終カットを最適化し、微細なクリップの選択性を向上させる。
- 数時間の映像から短い動画を生成するための実験では、最先端のベースラインに対して大きな改善が報告されており、著者らはGitHubでコードを提供している。




