ステレオタイプな推定器ではない:視覚と言語を組み合わせた体積知覚
arXiv cs.CV / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚入力から物体の体積を推定するという課題に取り組む。これは、単眼画像における曖昧さや、完全な3D再構成パイプラインの複雑さにより難しい。
- 物体クラスと概算の体積を説明する自然言語プロンプトから得られる明示的な事前知識と、ステレオ画像ペアに含まれる暗黙的な3D手がかりを組み合わせたマルチモーダル手法を提案する。
- この手法は両モダリティから深い特徴を学習し、射影レイヤを通じてそれらを統一表現へと融合し、その表現を用いて体積を直接回帰する。
- 公開データセットでの実験により、テキスト誘導型の手法が視覚のみのベースラインを大幅に上回ることが示される。これは、単純なテキスト上の事前知識でさえ、タスクを有意に導けることを示唆している。
- 本研究はコードとともに公開されており、再現性を支えるとともに、ロボティクス、物流、スマートヘルス向けの文脈対応型の視覚計測システムへの統合の可能性がある。




