要旨: 写真撮影のような創造的タスクのための身体性を備えたエージェントは、高水準の言語指示と幾何学的な制御の間に存在する意味ギャップを埋める必要がある。そこで我々は、PhotoAgentというエージェントを提案する。PhotoAgentは、大規模マルチモーダルモデル(LMM)の推論と、新しい制御パラダイムを統合することで、この課題を達成する。PhotoAgentはまず、LMMに駆動された連鎖的思考(CoT)推論により、主観的な美的目標を解ける幾何学的制約へと翻訳する。これにより解析的ソルバが高品質な初期視点を計算できる。次に、この初期姿勢を、3Dガウス・スプラッティング(3DGS)で構築した写実的な内部ワールドモデル内での視覚的なリフレクション(熟考)を通じて反復的に洗練する。この「メンタル・シミュレーション」は、コストが高く遅い物理的な試行錯誤を置き換え、美的により優れた結果へと迅速に収束させる。評価により、PhotoAgentが空間推論において優れており、最終的な画像品質がより高いことが確認された。
PhotoAgent:空間的および美的理解を備えたロボット写真家
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PhotoAgentは、言語レベルの美的な指示と幾何学的なカメラ制御の間にあるギャップをつなぐ、ロボット/身体性を備えた写真撮影エージェントとして紹介される。