AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

Google DeepMind、Vision Bananaを発表——指示チューニング型の画像生成モデルがセグメンテーションでSAM 3を、精密深度推定でDepth Anything V3を上回る

MarkTechPost / 2026/4/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

Google DeepMindは、画像生成の事前学習がNLPにおけるGPT型事前学習と同様の役割をコンピュータビジョンでも担う、という見方を示しています。
提案では「Vision Banana」と呼ばれる指示チューニング型の画像生成モデルが導入され、下流の視覚機能の向上を狙っています。
ベンチマーク結果として、Vision BananaはセグメンテーションでSAM 3を、精密な深度推定ではDepth Anything V3を上回るとされています。
この論文の位置付けは、生成の品質だけでなく、標準的なコンピュータビジョン指標を押し上げる目的で生成的事前学習を活用する流れが広がることを示唆しています。

新しいGoogleの論文は、画像生成の事前学習がコンピュータビジョンにとってGPTスタイルの事前学習がNLPに対してそうであるのと同じ関係にある、と主張しており、ベンチマークの数値がそれを裏づけています。

記事のGoogle DeepMind Introduces Vision Banana: An Instruction-Tuned Image Generator That Beats SAM 3 on Segmentation and Depth Anything V3 on Metric Depth Estimationは最初にMarkTechPostに掲載されました。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/25Dailyインサイトを見る →

関連記事

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

NVIDIAがロボットで覚醒 DreamZero、本気モードの動画行動モデル、軽量化でリアルタイム実行可能に

NVIDIAがロボットで覚醒 DreamZero、本気モードの動画行動モデル、軽量化でリアルタイム実行可能に

日経XTECH

アクセンチュアとSAPがERP導入で協業、中堅以下の未開拓顧客へAI訴求

アクセンチュアとSAPがERP導入で協業、中堅以下の未開拓顧客へAI訴求

日経XTECH

WooCommerceのAI連携を乗りこなす：Bluehostの競合から学ぶ代理店と開発者の教訓

WooCommerceのAI連携を乗りこなす：Bluehostの競合から学ぶ代理店と開発者の教訓

Dev.to

AIの目で見たシンセンでの1日

AIの目で見たシンセンでの1日

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告