画像編集モデルにおける視覚的プランニングの検証

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、機械学習では視覚的プランニングがしばしば言語中心の問題として扱われがちであり、完全な視覚アプローチでも「計画生成」の逐次手順が計算効率を損なうと指摘している。
EAR（editing-as-reasoning）として、視覚的プランニングを単一ステップの画像変換として再定式化し、視覚認識から本質的な推論を切り分けることを提案している。
推論力を検証するために、認識と混同しない抽象パズル課題を用い、Maze問題とQueen問題を扱う手続き生成データセットAMAZEを導入している。
AMAZEにより、自 autoregressive型と拡散型の両編集モデルを、ピクセル忠実度と論理的妥当性の両面で自動評価できるようになっており、複数の商用・オープンソースモデルを検証している。
その結果、モデルはゼロショットでは苦戦する一方で、小さなインドメイン規模での微調整により、大きな領域や外部領域の幾何形状にも強く一般化するが、人間のゼロショット効率には及ばず、ニューラルな視覚推論のギャップが残っている。

Abstract

視覚的プランニングは、人間の知能を構成する重要な側面であり、特に複雑な空間的推論とナビゲーションを要する課題において顕著です。しかし機械学習の分野では、この本質的に視覚的な問題はしばしば、言語中心の観点から扱われます。近年の研究では、完全に視覚的なアプローチの有望性が示されていますが、それらは生成と計画を逐次的に行う（planning-by-generation）パラダイムに起因して、重大な計算効率の低さに悩まされています。本研究では、EARという「編集を推論として扱う（editing-as-reasoning）」パラダイムを提案します。これは、視覚的プランニングを単一ステップの画像変換として言い換えるものです。視覚認識から本質的な推論を切り分けるために、探索用の抽象パズルをプロービング課題として用い、古典的なMaze問題とQueen問題を含み、視覚的プランニングの異なる補完的な形態を扱う、手続き的に生成されるデータセットAMAZEを導入します。AMAZEの抽象的な性質は、ピクセル単位の忠実性と論理的妥当性の両方の観点から、自回帰型モデルおよび拡散ベースのモデルを自動評価することも容易にします。主要な商用およびオープンソースの編集モデルを評価します。結果は、それらがすべてゼロショット設定では苦戦することを示しています。一方で、基本スケールでのファインチューニングは、より大きな同一領域内のスケールや領域外のスケール、ならびに幾何形状への驚くべき汎化を可能にします。しかし、高性能な計算環境で動作する私たちの最良モデルであっても、人間のソルバによるゼロショット時の効率には到達できず、神経的な視覚推論には持続的なギャップがあることが浮き彫りになります。