要約: 多モーダル大規模言語モデル(MLLMs)は、従来の画像を理解し推論する能力で顕著な成果を示してきました。しかし、360度画像に対する彼らの認識はまだ十分に探究されていません。従来の画像とは異なる360度画像は、周囲の環境全体を捉え、全体的な空間推論を可能にしますが、幾何歪みや複雑な空間関係といった課題を生み出します。360度画像を認識するMLLMの能力を包括的に評価するため、360Benchを導入します。これは7K解像度の360度画像、7つの代表的な(サブ)タスク、および人間のアノテータによって慎重に作成・選定された注釈を特徴とする視覚質問応答(VQA)ベンチマークです。360Benchを用いて、7つのMLLMと6つの改善手法を系統的に評価し、360度画像認識におけるそれらの欠点を明らかにします。これらの課題に対処するため、Free360を提案します。高解像度の360度VQAのためのトレーニング不要なシーングラフベースのフレームワークです。Free360は推論プロセスをモジュール化されたステップに分解し、各ステップに合わせて360度画像に適応的な球面画像変換を適用し、得られた情報を回答生成のための統一されたグラフ表現へシームレスに統合します。実験結果は、Free360がベースのMLLMを一貫して向上させ、360度VQAタスクに対して強力なトレーニング不要の解決策を提供することを示しています。受理され次第、ソースコードとデータセットを公開します。
MLLMを用いた360°画像知覚: 総合ベンチマークと訓練不要の手法
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 360Bench は、7K解像度の360°画像のVQAベンチマークとして導入され、7つのタスクと人間によるアノテーションデータを備え、7つのMLLMと6つの改善手法を評価する。
- ベンチマークは、現在のMLLMが幾何学的歪みと複雑な空間関係のために360°知覚に苦戦していることを示しています。
- 著者らは、訓練不要の、シーン・グラフベースのフレームワークであるFree360を提案します。Free360は推論をモジュール化されたステップに分解し、360°画像の適応的な球面変換を用いて統一グラフを形成し、回答生成を行います。
- 実験の結果、Free360はベースとなるMLLMを一貫して改善し、360度VQAに対する強力な訓練不要ソリューションを提供することが示され、ソースコードとデータセットは受理され次第公開予定です。
- 本研究は、MLLMにおける360°視覚推論の新たな研究方向を強調し、将来の改善を促す公開ベンチマークを確立します。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る
Qiita
エッジコンピューティングとローカル処理への大規模な移行
Dev.to
仕様駆動開発における自己改良エージェント
Dev.to