Cutscene Agent:自動3Dカットシーン生成のためのLLMエージェントフレームワーク

arXiv cs.CL / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • Cutscene Agentは、3Dゲームのカットシーンをエンドツーエンドで生成し、通常は複数分野の大きな作業量を要する工程を軽減するためのLLMエージェントフレームワークです。
  • 本システムはModel Context Protocol(MCP)を用いたCutscene Toolkitにより、エージェントがゲームエンジンを操作するだけでなくリアルタイムのシーン状態を継続観測できる双方向のクローズドループ統合を実現します。
  • マルチエージェント構成として、ディレクターエージェントがアニメーション、シネマトグラフィー、サウンドデザインの専門サブエージェントを統括し、視覚推論のフィードバックループで出力を反復的に改善します。
  • CutsceneBenchは、ツール呼び出しの厳密な順序制約を伴う長期的で多段階なカットシーン生成を評価する階層型ベンチマークであり、従来の典型的なツール利用ベンチマークではカバーされにくい能力を測ります。
  • 著者らは複数のLLMをCutsceneBenchで評価し、このオーケストレーション負荷の高い創作タスクに対する性能を分析しています。

Abstract

カットシーンは、ビデオゲームやインタラクティブメディアに埋め込まれた、注意深く振り付けられた映画的シーンの連なりであり、物語の提示、キャラクター開発、そして感情的な関与のための主要な手段として機能します。カットシーンの制作は本質的に複雑です。すなわち、脚本、シネマトグラフィ、キャラクターアニメーション、ボイスアクティング、技術ディレクションにまたがるシームレスな連携を要し、しばしば、学際的なチームによる共同作業を数日から数週間、費やして数分間の洗練されたコンテンツを生成する必要があります。本研究では、カットシーン生成のための自動的なエンドツーエンド手法として、LLMエージェントのフレームワークであるCutscene Agentを提案します。このフレームワークは3つの貢献を行います:(1)~Model Context Protocol(MCP)に基づいて構築されたCutscene Toolkitにより、LLMエージェントとゲームエンジンとの間で t{双方向}の統合を確立します――エージェントはエンジンの操作を呼び出すだけでなく、リアルタイムのシーン状態を継続的に観測し、編集可能なエンジンネイティブなシネマティック・アセットのクローズドループ生成を可能にします;(2)~アニメーション、シネマトグラフィ、サウンドデザインのための専門サブエージェントをディレクターエージェントが統括するマルチエージェントシステムであり、知覚に基づく洗練のための視覚的推論フィードバックループによって拡張されています;そして(3)~カットシーン生成の階層的評価ベンチマークであるCutsceneBenchです。短く孤立した関数呼び出しを評価する典型的なツール利用ベンチマークとは異なり、カットシーン生成では、数十個の相互に依存するツール呼び出しを、厳密な順序制約のもとで、長い時間的地平にわたって多段にオーケストレーションする必要があります。この能力次元は、既存のベンチマークではカバーされていません。私たちはCutsceneBenchに対してさまざまなLLMを評価し、この難しいタスクにおけるそれらの性能を分析します。

Cutscene Agent:自動3Dカットシーン生成のためのLLMエージェントフレームワーク | AI Navigate