LumiVideo:動画の色補正のためのインテリジェントなエージェンティック・システム

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LumiVideoは、知覚 → 推論 → 実行 → 反省という4段階のプロセスで、プロのカラリストのワークフローを再現することを目指す、動画の色補正のためのエージェンティック・システムである。
  • 編集したピクセルを直接出力するのではなく、生のログ映像を解析し、解釈可能で業界標準のASC-CDLパラメータに加えて、時間的に一貫した3D LUTを生成する。
  • 推論コンポーネントでは、LLMの映画的な知識とRAGのセットアップ、さらにTree-of-Thoughts探索を組み合わせることで、非線形な色パラメータ空間を探索・最適化する。
  • オプションの自然言語による反省ループにより、クリエイターのフィードバックに基づく反復的な改良が可能になり、従来のブラックボックス型自動化と比べて制御性が向上する。
  • また、ログエンコードされた動画に対する自動色補正を評価するためのベンチマークとしてLumiGradeを提案しており、結果は完全自動モードで人間に近い品質を示している。

Abstract

ビデオのカラグレーディングは、フラットなログエンコード生映像を感情に訴えかけるシネマティックな映像へと変換する重要なポストプロダクション工程です。既存の自動化手法は、解釈可能性とプロフェッショナルに必要な反復的な制御の両方を欠いたまま、編集済みピクセルを直接出力する静的なブラックボックス実行器として振る舞います。私たちは、プロのカラリストの認知的なワークフローを 4 つの段階—知覚(Perception)、推論(Reasoning)、実行(Execution)、そして振り返り(Reflection)—で模倣するエージェント型システム LumiVideo を提案します。LumiVideo は生のログ映像のみを入力として、シーンの物理的な照明と意味内容を解析することで、シネマティックなベースグレードを自律的に生成します。その推論エンジンは、Tree of Thoughts(ToT)探索を介して、LLM が内在化したシネマに関する知識と、Retrieval-Augmented Generation(RAG)フレームワークを相乗的に組み合わせ、非線形なカラーパラメータ空間をナビゲートします。本システムはピクセルを生成するのではなく、導出されたパラメータを業界標準の ASC-CDL 設定と、時間的整合性を解析的に保証するグローバルに一貫した 3D LUT にとりまとめます。さらにオプションの Reflection ループにより、自然言語によるフィードバックを通じてクリエイターが結果を洗練できます。加えて、オートメーションによるグレーディングを評価するための、最初のログエンコード動画ベンチマークである LumiGrade も導入します。実験の結果、LumiVideo は完全自動モードにおいて人間の専門家に近い品質に到達し、また指示を与えた場合には正確な反復的制御を可能にすることが示されました。

LumiVideo:動画の色補正のためのインテリジェントなエージェンティック・システム | AI Navigate