画像生成モデルは汎用的な視覚学習者である

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、画像・動画生成器が、生成的プリトレーニングで学習したLLMに見られる創発的な推論能力と同様に、ゼロショットで視覚理解を示すと主張しています。
  • Vision Bananaは、Nano Banana Proに対して元の学習データの混合に加え、少量の視覚タスクデータを用いてインストラクション・チューニングして作られた汎用的な視覚モデルです。
  • 視覚タスクの出力空間をRGB画像としてパラメータ化することで、知覚を画像生成として捉え直し、タスク横断で統一的なインターフェースを実現するとしています。
  • Vision Bananaは、2D/3Dの理解を含む複数のタスクで最先端または競争力のある性能を達成し、セグメンテーションではSAM 3、距離推定ではDepth Anythingなどの専門モデルに対して優位または拮抗します。
  • その結果は、軽量なインストラクション・チューニングでも生成能力を損なわずに汎用的な視覚表現を得られることを示唆し、生成的プリトレーニングを中核とする基盤ビジョンモデルへのパラダイム転換の可能性を示しています。

Abstract

Recent works show that image and video generators exhibit zero-shot visual understanding behaviors, in a way reminiscent of how LLMs develop emergent capabilities of language understanding and reasoning from generative pretraining. While it has long been conjectured that the ability to create visual content implies an ability to understand it, there has been limited evidence that generative vision models have developed strong understanding capabilities. In this work, we demonstrate that image generation training serves a role similar to LLM pretraining, and lets models learn powerful and general visual representations that enable SOTA performance on various vision tasks. We introduce Vision Banana, a generalist model built by instruction-tuning Nano Banana Pro (NBP) on a mixture of its original training data alongside a small amount of vision task data. By parameterizing the output space of vision tasks as RGB images, we seamlessly reframe perception as image generation. Our generalist model, Vision Banana, achieves SOTA results on a variety of vision tasks involving both 2D and 3D understanding, beating or rivaling zero-shot domain-specialists, including Segment Anything Model 3 on segmentation tasks, and the Depth Anything series on metric depth estimation. We show that these results can be achieved with lightweight instruction-tuning without sacrificing the base model's image generation capabilities. The superior results suggest that image generation pretraining is a generalist vision learner. It also shows that image generation serves as a unified and universal interface for vision tasks, similar to text generation's role in language understanding and reasoning. We could be witnessing a major paradigm shift for computer vision, where generative vision pretraining takes a central role in building Foundational Vision Models for both generation and understanding.