GeoSense: 幾何学的必然性の知覚を内在化したマルチモーダル推論

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文GeoSenseは、2D手掛かりが不十分な場合に幾何特徴を効果的に活用できるよう、独立した幾何入力チャネルとアラインメント訓練を導入します。
幾何情報の必要性に関する潜在的手掛かりを活性化する空間認識を備えた監督付きファインチューニングデータセットを作成することで、モデルに知覚意識を付与します。
複数の空間推論ベンチマークに対する実験は、2D視覚推論能力を損なうことなく顕著な空間的向上を示しています。
本研究は、マルチモーダル言語モデルにおけるより堅牢で効率的かつ自覚的なマルチモーダル知能を実現することを目指します。

人工超知能へ向けた進展には、豊かで知的な知覚能力が必要である。重要な最前線は、幾何情報が不可欠であるにもかかわらず、マルチモーダル大規模言語モデル（MLLMs）の限られた空間理解を克服することだ。既存の手法は多くの場合、幾何信号をすべての入力に硬直的に注入することで対処するが、それらの必要性を無視し、計算オーバーヘッドを増大させる。これとは対照的に、我々のフレームワークは知覚的不十分さを自覚させ、2Dの手掛かりが不十分と判断される場合には幾何特徴を推論に自律的に活用できるようにする。これを実現するために、まずモデルアーキテクチャに独立した幾何入力チャネルを導入し、アラインメント訓練を実施して、幾何特徴を効果的に活用できるようにする。続いて、モデルに知覚意識を付与するため、専用の空間認識を備えた監督付きファインチューニングデータを作成する。これにより、モデルの潜在的な内部手掛かりを活性化し、幾何情報の必要性を自律的に判断できるようにする。複数の空間推論ベンチマークにおける実験はこのアプローチを検証し、2D視覚推論能力を損なうことなく顕著な空間的向上を示し、より堅牢で効率的かつ自覚的なマルチモーダル知能へと道を切り開く。

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

Qiita

なんと397BのAIモデルをiPhoneで動かすことに成功

GIGAZINE

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

GeoSense: 幾何学的必然性の知覚を内在化したマルチモーダル推論

要点

関連記事

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

なんと397BのAIモデルをiPhoneで動かすことに成功

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer