AGILE：エージェント的生成による動画からの手-物体相互作用再構成

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

AGILEは、単眼動画から手-物体の動的相互作用を再構成するために、従来の「再構成中心」から「エージェント的生成中心」へパラダイムを転換するフレームワークを提案しています。
VLMが生成モデルをガイドして、重度オクルージョンでも断片化しにくく、シミュレーションに使える「完全でwatertightな物体メッシュ（高品質テクスチャ付き）」を合成します。
SfMの脆さを避けるため、単一の相互作用開始フレームで基盤モデルにより初期化した物体ポーズを、生成アセットと観測の視覚類似性を手がかりに時間方向へ追跡・伝播する「anchor-and-track」戦略を採用しています。
contact-awareな最適化でセマンティクス・幾何・接触・相互作用の安定性制約を統合し、物理的もっともらしさを高めた結果、HO3D/DexYCBおよびin-the-wildで既存手法より全体的幾何精度と頑健性が向上したと報告しています。

要旨: 単眼ビデオから動的な手-物体相互作用を再構成することは、巧緻な操作のデータ収集や、ロボティクスおよびVRのための現実的なデジタルツインの作成にとって極めて重要です。しかし、現在の手法には2つの容認しがたい障壁があります: (1) ニューラルレンダリングへの依存により、重度の遮蔽下では断片的で、シミュレーションに適した形状が得られないことが多い、そして (2) 脆弱なStructure-from-Motion（SfM）の初期化に依存するため、実環境（in-the-wild）の映像で頻繁に失敗することです。これらの制限を克服するために、相互作用学習のための再構成からエージェント的生成へとパラダイムを転換する、頑健なフレームワークAGILEを提案します。まず、エージェント的パイプラインを用い、Vision-Language Model（VLM）が生成モデルを導くことで、ビデオの遮蔽に依存しない、完全で漏れのない（watertight）物体メッシュを高忠実度のテクスチャ付きで合成します。次に、SfMをまったく使わずに、頑健なアンカー・アンド・トラック戦略を提案します。土台となるモデルを用いて、単一の相互作用開始フレームで物体の姿勢を初期化し、生成したアセットとビデオ観測との間にある強い視覚的類似性を活用することで、それを時間方向に伝播させます。最後に、接触を考慮した最適化により、意味的・幾何学的・相互作用の安定性に関する制約を統合し、物理的妥当性を強制します。HO3D、DexYCB、および実環境のビデオに対する大規模な実験により、AGILEはグローバルな幾何学的精度でベースラインを上回り、先行研究がしばしば崩壊する難しいシーケンスに対して卓越した頑健性を示すことが明らかになりました。物理的妥当性を最優先することで、本手法はロボット応用のためのreal-to-simリタゲティングによって検証された、シミュレーションに適したアセットを生成します。