PhyEdit:物理に基づく画像編集による、現実世界での物体操作に向けて
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、3Dジオメトリ機構の欠如に起因するスケーリングや位置決めの失敗に対処し、より正確な現実世界での物体操作を目指す、物理に基づく画像編集フレームワーク「PhyEdit」を提案する。
- PhyEditは、3D-awareなガイダンスとして幾何学シミュレーションを用いた、プラグアンドプレイ可能な明示的3D事前情報と、2D–3Dの共同監督を組み合わせることで、操作の精度を向上させる。
- 著者らは、3D-awareな物体操作の研究と評価を支えるための、対応する画像と深度アノテーションを含む実世界データセット「RealManip-10K」を公開する。
- さらに、3D空間制御と幾何学的整合性を評価するための、多次元の指標からなるベンチマーク「ManipEval」も提案する。
- 実験結果は、PhyEditが、3D幾何学的精度および操作の一貫性の両面で、強力なクローズドソースモデルを含む従来手法よりも優れていることを示している。
