Int3DNet: 混合現実における3D意図予測のためのシーン-モーション・クロスアテンションネットワーク

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • Int3DNetは、混合現実におけるシーンジオメトリと頭部および手の動きの手掛かりから直接3D意図領域を予測する、シーン認識型のネットワークを提案します。
  • 本モデルは、疎な動きの手掛かりとシーン点群をクロスアテンションを用いた融合により統合し、明示的なオブジェクトレベルの認識に依存せずにユーザーの空間的意図を解釈します。
  • MoGazeおよびCIRCLEデータセットで評価され、最大1500 msの時間範囲にわたり一貫した3D意図予測性能を示し、多様で未知のシーンにおいてベースラインを上回ります。
  • 著者らは、意図領域に基づく効率的な視覚質問応答デモンストレーションを通じて実用性を示し、能動的なMRインタラクションを披露しています。

要旨:Int3DNetを提案します。シーンジオメトリと頭部・手のモーション手掛かりから直接3D意図領域を予測する、シーン文脈を考慮したネットワークであり、明示的なオブジェクトレベルの知覚なしに堅牢な人間の意図予測を可能にします。混合現実(MR)において、意図予測は重要であり、システムがユーザーの行動を予測して積極的に応答できるようにし、相互作用の遅延を低減し、シームレスなユーザー体験を保証します。私たちの手法は、疎なモーションキューとシーン点群のクロスアテンション融合を用い、シーン内でユーザーの空間的意図を直接解釈する新しいアプローチを提供します。Int3DNetをMoGazeおよびCIRCLEデータセットで評価しました。これらは全身の人間-シーン相互作用の公開データセットであり、最大1500 msの時間レンジで一貫した性能を示し、ベースラインを上回りました。さらに、意図領域に基づく効率的な視覚的質問応答(VQA)のデモンストレーションを通じて、提案手法の有用性を示します。Int3DNetは頭部・手のモーションとシーンジオメトリに由来する信頼性の高い3D意図領域を提供し、意図領域を前向きに処理することで人間とMRシステムのシームレスな相互作用を実現します。

Int3DNet: 混合現実における3D意図予測のためのシーン-モーション・クロスアテンションネットワーク | AI Navigate