新しいGoogleの論文は、画像生成の事前学習がコンピュータビジョンにとってGPTスタイルの事前学習がNLPに対してそうであるのと同じ関係にある、と主張しており、ベンチマークの数値がそれを裏づけています。
記事のGoogle DeepMind Introduces Vision Banana: An Instruction-Tuned Image Generator That Beats SAM 3 on Segmentation and Depth Anything V3 on Metric Depth Estimationは最初にMarkTechPostに掲載されました。



