3D-VCD:視覚コントラスト付きデコーディングによる3D-LLMエンボディドエージェントにおける幻覚の抑制

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 3D-VCDは、3D環境で動作する3D-LLMベースのエンボディドエージェントにおける幻覚(ハルシネーション)を、推論時に抑制するための「視覚コントラスト(contrastive decoding)」手法として提案されています。
  • 既存の2Dの視覚言語向け対策では不十分な点を踏まえ、3Dではオブジェクトの有無・空間レイアウト・幾何学的な根拠付けが失敗要因になるとし、オブジェクト中心の3Dシーングラフ表現に意味的/幾何学的な摂動を加えます。
  • 元の3D文脈と摂動した3D文脈の予測を対比し、根拠となる3D証拠に鈍感で言語先行(priors)由来である可能性が高いトークンを抑えることで、接地された推論を改善します。
  • 3D-POPEとHEALのベンチマークで、再学習なし(inference-timeのみ)で一貫して接地推論が向上し、3D表現に基づく推論時コントラストが実用的な信頼性向上策になり得ることを示しています。

Abstract

大規模マルチモーダルモデルは、3D環境で動作する身体性のあるエージェントの推論中核としてますます利用されている一方で、安全で根拠のない意思決定を引き起こし得る幻覚(ハルシネーション)に依然として脆弱です。既存の推論時(inference-time)における幻覚対策手法の多くは、主に2Dの視覚と言語の設定を対象としており、失敗の原因がピクセルレベルの不整合ではなく、物体の存在、空間レイアウト、そして幾何学的な根拠付けにある身体性のある3D推論には十分に転移しません。本研究では、3D身体性エージェントにおける幻覚対策のための、最初の推論時ビジュアル対比付きデコーディング枠組みである3D-VCDを提案します。3D-VCDは、カテゴリの置換や座標・範囲の破損といった、物体中心表現に対して意味的および幾何学的な摂動を適用することで、歪んだ3Dシーングラフを構築します。元の3D文脈と歪んだ3D文脈の下での予測を対比させることで、根拠のあるシーン証拠に鈍感であり、そのため言語の事前知識(プライア)に駆動されている可能性が高いトークンを抑制します。3D-VCDを3D-POPEおよびHEALベンチマークで評価し、再学習なしで一貫して根拠のある推論を改善できることを示します。さらに、構造化された3D表現上での推論時対比付きデコーディングが、より信頼できる身体性インテリジェンスへの有効かつ実用的な経路であることを確立します。