AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation
arXiv cs.RO / 4/1/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- AGILEは、単眼動画から手-物体の動的相互作用を再構成するために、従来の「再構成中心」から「エージェント的生成中心」へパラダイムを転換するフレームワークを提案しています。
- VLMが生成モデルをガイドして、重度オクルージョンでも断片化しにくく、シミュレーションに使える「完全でwatertightな物体メッシュ(高品質テクスチャ付き)」を合成します。
- SfMの脆さを避けるため、単一の相互作用開始フレームで基盤モデルにより初期化した物体ポーズを、生成アセットと観測の視覚類似性を手がかりに時間方向へ追跡・伝播する「anchor-and-track」戦略を採用しています。
- contact-awareな最適化でセマンティクス・幾何・接触・相互作用の安定性制約を統合し、物理的もっともらしさを高めた結果、HO3D/DexYCBおよびin-the-wildで既存手法より全体的幾何精度と頑健性が向上したと報告しています。
Related Articles

Black Hat Asia
AI Business

Knowledge Governance For The Agentic Economy.
Dev.to

AI server farms heat up the neighborhood for miles around, paper finds
The Register

Paperclip: Công Cụ Miễn Phí Biến AI Thành Đội Phát Triển Phần Mềm
Dev.to
Does the Claude “leak” actually change anything in practice?
Reddit r/LocalLLaMA