GeoSense: 幾何学的必然性の知覚を内在化したマルチモーダル推論

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文GeoSenseは、2D手掛かりが不十分な場合に幾何特徴を効果的に活用できるよう、独立した幾何入力チャネルとアラインメント訓練を導入します。
  • 幾何情報の必要性に関する潜在的手掛かりを活性化する空間認識を備えた監督付きファインチューニングデータセットを作成することで、モデルに知覚意識を付与します。
  • 複数の空間推論ベンチマークに対する実験は、2D視覚推論能力を損なうことなく顕著な空間的向上を示しています。
  • 本研究は、マルチモーダル言語モデルにおけるより堅牢で効率的かつ自覚的なマルチモーダル知能を実現することを目指します。
人工超知能へ向けた進展には、豊かで知的な知覚能力が必要である。重要な最前線は、幾何情報が不可欠であるにもかかわらず、マルチモーダル大規模言語モデル(MLLMs)の限られた空間理解を克服することだ。既存の手法は多くの場合、幾何信号をすべての入力に硬直的に注入することで対処するが、それらの必要性を無視し、計算オーバーヘッドを増大させる。これとは対照的に、我々のフレームワークは知覚的不十分さを自覚させ、2Dの手掛かりが不十分と判断される場合には幾何特徴を推論に自律的に活用できるようにする。これを実現するために、まずモデルアーキテクチャに独立した幾何入力チャネルを導入し、アラインメント訓練を実施して、幾何特徴を効果的に活用できるようにする。続いて、モデルに知覚意識を付与するため、専用の空間認識を備えた監督付きファインチューニングデータを作成する。これにより、モデルの潜在的な内部手掛かりを活性化し、幾何情報の必要性を自律的に判断できるようにする。複数の空間推論ベンチマークにおける実験はこのアプローチを検証し、2D視覚推論能力を損なうことなく顕著な空間的向上を示し、より堅牢で効率的かつ自覚的なマルチモーダル知能へと道を切り開く。