Google DeepMind、Vision Bananaを発表——指示チューニング型の画像生成モデルがセグメンテーションでSAM 3を、精密深度推定でDepth Anything V3を上回る

MarkTechPost / 2026/4/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Google DeepMindは、画像生成の事前学習がNLPにおけるGPT型事前学習と同様の役割をコンピュータビジョンでも担う、という見方を示しています。
  • 提案では「Vision Banana」と呼ばれる指示チューニング型の画像生成モデルが導入され、下流の視覚機能の向上を狙っています。
  • ベンチマーク結果として、Vision BananaはセグメンテーションでSAM 3を、精密な深度推定ではDepth Anything V3を上回るとされています。
  • この論文の位置付けは、生成の品質だけでなく、標準的なコンピュータビジョン指標を押し上げる目的で生成的事前学習を活用する流れが広がることを示唆しています。

新しいGoogleの論文は、画像生成の事前学習がコンピュータビジョンにとってGPTスタイルの事前学習がNLPに対してそうであるのと同じ関係にある、と主張しており、ベンチマークの数値がそれを裏づけています。

記事のGoogle DeepMind Introduces Vision Banana: An Instruction-Tuned Image Generator That Beats SAM 3 on Segmentation and Depth Anything V3 on Metric Depth Estimationは最初にMarkTechPostに掲載されました。