VisionFoundry:合成画像でVLMに視覚認識を教える

arXiv cs.CL / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • VisionFoundryは、視覚認識におけるVLMの弱点(例:空間理解や視点認識)は、自然データセットが低レベルの視覚スキルに対する十分な監督情報を提供しないことに、部分的に起因していると提案している。

要旨: 画像言語モデル(VLMs)は、空間理解や視点認識といった視覚認識タスクにおいて、いまだに苦戦しています。もっともらしい要因の1つは、自然画像データセットが、低レベルの視覚スキルに対して限定的な監督(スーパービジョン)しか提供しないことです。そこで、実用的な問いとして、Depth Order(奥行き順序)のようなタスクキーワードだけから生成される、的を絞った合成監督によって、これらの弱点を改善できるのでしょうか。この問いを検討するために、VisionFoundry を提案します。VisionFoundry は、タスクを認識した合成データ生成パイプラインで、入力はタスク名のみとし、大規模言語モデル(LLMs)を用いて質問、回答、テキストから画像(T2I)のプロンプトを生成し、続いて T2I モデルで画像を合成し、専有(プロプライエタリ)の VLM によって整合性を検証します。これにより、参照画像や人手による注釈は不要です。VisionFoundry を用いて、10 個のタスクにまたがる 10k の画像—質問—回答(image-question-answer)トリプルからなる合成 VQA データセット VisionFoundry-10K を構築します。VisionFoundry-10K で学習したモデルは、視覚認識ベンチマークで大きな改善を達成します。すなわち、MMVP で +7%、CV-Bench-3D で +10% です。一方で、より広範な能力は維持され、データサイズが増えるにつれて好ましいスケーリング挙動も示されます。これらの結果は、限られたタスクに特化した監督が、このボトルネックの重要な要因であること、そして合成監督が VLM をより体系的に訓練するための有望な道筋であることを示唆しています。