Int3DNet: 混合現実における3D意図予測のためのシーン-モーション・クロスアテンションネットワーク

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

共有:

要点

Int3DNetは、混合現実におけるシーンジオメトリと頭部および手の動きの手掛かりから直接3D意図領域を予測する、シーン認識型のネットワークを提案します。
本モデルは、疎な動きの手掛かりとシーン点群をクロスアテンションを用いた融合により統合し、明示的なオブジェクトレベルの認識に依存せずにユーザーの空間的意図を解釈します。
MoGazeおよびCIRCLEデータセットで評価され、最大1500 msの時間範囲にわたり一貫した3D意図予測性能を示し、多様で未知のシーンにおいてベースラインを上回ります。
著者らは、意図領域に基づく効率的な視覚質問応答デモンストレーションを通じて実用性を示し、能動的なMRインタラクションを披露しています。

要旨：Int3DNetを提案します。シーンジオメトリと頭部・手のモーション手掛かりから直接3D意図領域を予測する、シーン文脈を考慮したネットワークであり、明示的なオブジェクトレベルの知覚なしに堅牢な人間の意図予測を可能にします。混合現実（MR）において、意図予測は重要であり、システムがユーザーの行動を予測して積極的に応答できるようにし、相互作用の遅延を低減し、シームレスなユーザー体験を保証します。私たちの手法は、疎なモーションキューとシーン点群のクロスアテンション融合を用い、シーン内でユーザーの空間的意図を直接解釈する新しいアプローチを提供します。Int3DNetをMoGazeおよびCIRCLEデータセットで評価しました。これらは全身の人間-シーン相互作用の公開データセットであり、最大1500 msの時間レンジで一貫した性能を示し、ベースラインを上回りました。さらに、意図領域に基づく効率的な視覚的質問応答（VQA）のデモンストレーションを通じて、提案手法の有用性を示します。Int3DNetは頭部・手のモーションとシーンジオメトリに由来する信頼性の高い3D意図領域を提供し、意図領域を前向きに処理することで人間とMRシステムのシームレスな相互作用を実現します。

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

SNNはGPUを殺せるか？ 3本の論文が見せた現実

Qiita

研究効率を爆上げするAIツールまとめ（論文調査〜執筆まで）

Qiita

【量子×DRL物流最適化 #13】ROS 2・倉庫ロボット協調制御

Qiita

Int3DNet: 混合現実における3D意図予測のためのシーン-モーション・クロスアテンションネットワーク

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

SNNはGPUを殺せるか？ 3本の論文が見せた現実

研究効率を爆上げするAIツールまとめ（論文調査〜執筆まで）

【量子×DRL物流最適化 #13】ROS 2・倉庫ロボット協調制御

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer