Nano Banana 2は従来の画像復元モデルに取って代われるのか?画像復元タスクにおける性能評価

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本論文は、多様なシーンや劣化タイプにわたる複数の画像復元タスクにおいて、汎用の生成的画像編集モデルとしてのNano Banana 2を体系的に評価することを報告している。
  • 調査の結果、プロンプト設計が極めて重要であり、明示的な忠実度(fidelity)制約を含む簡潔なプロンプトが、再構成精度と知覚品質の最良のバランスをもたらすことが分かった。
  • 最先端の復元モデルと比較して、Nano Banana 2はフルリファレンス指標でより強い性能を達成しつつ、知覚品質でも競争力を維持している。これは実験とユーザースタディの両方によって裏付けられている。
  • 小さな顔、密集した群衆、そして深刻な劣化といった困難なケースにおいて強い汎化性能を示しており、「統一的ソルバ(unified solver)」としてより広範に活用できる可能性を示唆している。
  • 有望である一方で、Nano Banana 2はプロンプトの作り方に敏感であり、最適な結果を得るためにプロンプトを段階的に改良する必要があるかもしれない。著者らはGitHubでテスト結果を公開している。

要旨: 生成的AIの最近の進展により、汎用の画像編集モデルが画像復元のための統一的な解決策として機能し得るのかという問題が提起されている。本研究では、さまざまなシーンや劣化タイプにわたって、画像復元におけるNano Banana 2の体系的な評価を行う。我々の結果は、プロンプト設計が決定的な役割を果たすことを示しており、明示的な忠実度制約を伴う簡潔なプロンプトが、再構成精度と知覚品質の最良のトレードオフを達成する。最先端の復元モデルと比較して、Nano Banana 2はフルリファレンス指標において優れた性能を示しつつ、知覚品質でも競争力を維持しており、これはユーザースタディによっても裏付けられている。また、小さな顔、密集した群衆、深刻な劣化といった困難な状況において強い汎化能力が見られる。とはいえ、本モデルはプロンプトの表現に対して依然として敏感であり、最適な結果を得るためには反復的な改良が必要となる場合がある。総じて、我々の発見は、汎用の生成モデルが統一的な画像復元ソルバとして強い可能性を持つことを示唆している一方で、制御可能性と頑健性の重要性を浮き彫りにしている。すべてのテスト結果は https://github.com/yxyuanxiao/NanoBanana2TestOnIR で利用可能である。