SceneOrchestra:ツール呼び出しの全軌跡生成による効率的なエージェント型3Dシーン合成

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、ステップごとの実行–レビュー–リフレクト(execute–review–reflect)ループに基づくLLMオーケストレーション型のツールワークフローを改善する、学習可能な3Dシーン合成フレームワーク「SceneOrchestra」を提案しています。
  • 従来手法の主な課題として、次のツール選択やパラメータ設定がヒューリスティックに依存することで無駄な呼び出しや実行の劣化、出力品質の低下、さらに処理時間の増加につながる点、そして各ステップで中間結果をレンダリングしてレビューすることによるレイテンシ増大が挙げられています。
  • SceneOrchestraは、ツール呼び出しの全体的な実行フローを最適化し、ツール呼び出しの「全軌跡(complete tool-call trajectories)」を一度に生成することで、軌跡全体の品質評価を行い最良候補を選択できるようにします。
  • 学習は2段階で行われ、前半で文脈に応じたツール選択と全軌跡生成を学習しつつ判別器に軌跡品質を学習させ、後半では判別器がオーケストレータの軌跡分布の変化に適応して能力を蒸留するインタリーブ学習を実施します。
  • 実験では、従来手法よりランタイムを削減しつつ3Dシーン品質が最先端(state-of-the-art)であることが報告されており、効率と出力の双方で改善が示されています。

要旨: 3Dシーン合成のための近年のエージェント型フレームワークは、異種の生成・編集ツールを統合することで、現実感と多様性を大きく向上させてきました。これらのツールは、市販のLLMによって統括されるワークフローとして整理されています。現在の手法では一般に、実行-レビュー-反省(execute-review-reflect)のループを採用します。すなわち各ステップで統括(オーケストレータ)がツールを実行し、中間結果をレンダリングしてレビューできるようにしたうえで、次のステップに用いるツールとそのパラメータを決定します。しかし、この設計には2つの主要な制限があります。第一に、次のステップのツール選択とパラメータ設定がヒューリスティック(経験則)に駆動されるため、最適でない実行フロー、不要なツール呼び出し、出力品質の低下、ならびに実行時間の増加につながり得ます。第二に、各ステップの後に中間結果をレンダリングしてレビューすることが、追加のレイテンシを導入します。これらの問題に対処するため、我々はSceneOrchestraという、学習可能なオーケストレーション(統括)フレームワークを提案します。これはツール呼び出しの実行フローを最適化し、ステップごとのレビュー ループを排除することで、効率と出力品質の両方を改善します。SceneOrchestraは、オーケストレータと識別器(ディスクリミネータ)から構成されます。これらを2段階の学習戦略で微調整します。第一段階では、オーケストレータが文脈に応じたツール選択と、完全なツール呼び出しトラジェクトリ(軌跡)の生成を学習し、識別器は完全なトラジェクトリの品質を評価するように訓練されます。これにより、複数の候補から最良のトラジェクトリを選択できるようになります。第二段階では、識別器がオーケストレータの進化するトラジェクトリ分布に適応し、その識別能力を再びオーケストレータへ蒸留(distill)する、インタリーブ(交互)学習を行います。推論(inference)時には識別器を用いず、指示から完全なツール呼び出しトラジェクトリを生成して実行するためにオーケストレータのみを使用します。大規模な実験の結果、提案手法は、従来研究と比べて実行時間を削減しつつ、最先端のシーン品質を達成することが示されました。

SceneOrchestra:ツール呼び出しの全軌跡生成による効率的なエージェント型3Dシーン合成 | AI Navigate