EgoMind:MLLMにおける言語推論により空間認知を活性化する
arXiv cs.CV / 2026/4/7
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 研究では、既存の空間推論改善が3Dプリアや幾何学的教師データに依存しがちでコストが高いことを指摘し、幾何学的な事前知識なしでの空間推論を狙う「EgoMind」を提案しています。
- EgoMindはChain-of-Thoughtベースで、Role-Play Captionによりフレーム横断で整合した言語シーン・グラフを構築し、Progressive Spatial Analysisでタスク固有の問いへ段階的に推論を進めます。
- 2Dのみのアプローチが抱えるマルチフレームの空間関係把握の難しさに対し、言語的推論によってクロスフレーム関係を扱えるようにする設計です。
- 5Kの自動生成SFTサンプルと20KのRLサンプルという比較的小規模な学習で、VSI-Bench、SPAR-Bench、SITE-Bench、SPBenchで競争的な結果を示したと報告しています。
- コードとデータが公開されており、MLLMの空間認知能力強化における「言語推論の有効性」を示す早期の研究シグナルになっています。




