Point-VLMにおける3D理解の強化:幾何学的リワードのクレジット割当による手法
arXiv cs.CV / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、Point-Vision-Language Modelsにおける幾何学的な幻覚は表現のボトルネックというより、強化学習における構造的な不整合により起きると指摘している。
- 「Geometric Reward Credit Assignment」は、全体的な教師信号を分野(フィールド)ごとの信号に分解し、責任を持つトークン範囲にのみ報酬を割り当てることで、より精密な勾配更新を可能にする。
- さらに「Reprojection-Consistency」項を導入し、クロスモーダルな物理整合の検証として働かせ、物理的に不可能な3D形状を罰する。
- ShapeNetCore由来のキャリブレーション済みベンチマークで、3D KPAが0.64から0.93へ改善し、3DバウンディングボックスのIoUが0.686、再投影整合スコアが0.852に向上した一方で、2Dローカライゼーション性能は維持されている。
- 全体として、単にもっともらしいテキスト出力から、物理的に検証可能な空間予測へ信頼性を高めることを狙っている。



