3D-VCD:視覚コントラスト付きデコーディングによる3D-LLMエンボディドエージェントにおける幻覚の抑制
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 3D-VCDは、3D環境で動作する3D-LLMベースのエンボディドエージェントにおける幻覚(ハルシネーション)を、推論時に抑制するための「視覚コントラスト(contrastive decoding)」手法として提案されています。
- 既存の2Dの視覚言語向け対策では不十分な点を踏まえ、3Dではオブジェクトの有無・空間レイアウト・幾何学的な根拠付けが失敗要因になるとし、オブジェクト中心の3Dシーングラフ表現に意味的/幾何学的な摂動を加えます。
- 元の3D文脈と摂動した3D文脈の予測を対比し、根拠となる3D証拠に鈍感で言語先行(priors)由来である可能性が高いトークンを抑えることで、接地された推論を改善します。
- 3D-POPEとHEALのベンチマークで、再学習なし(inference-timeのみ)で一貫して接地推論が向上し、3D表現に基づく推論時コントラストが実用的な信頼性向上策になり得ることを示しています。



