画像編集モデルにおける視覚的プランニングの検証
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、機械学習では視覚的プランニングがしばしば言語中心の問題として扱われがちであり、完全な視覚アプローチでも「計画生成」の逐次手順が計算効率を損なうと指摘している。
- EAR(editing-as-reasoning)として、視覚的プランニングを単一ステップの画像変換として再定式化し、視覚認識から本質的な推論を切り分けることを提案している。
- 推論力を検証するために、認識と混同しない抽象パズル課題を用い、Maze問題とQueen問題を扱う手続き生成データセットAMAZEを導入している。
- AMAZEにより、自 autoregressive型と拡散型の両編集モデルを、ピクセル忠実度と論理的妥当性の両面で自動評価できるようになっており、複数の商用・オープンソースモデルを検証している。
- その結果、モデルはゼロショットでは苦戦する一方で、小さなインドメイン規模での微調整により、大きな領域や外部領域の幾何形状にも強く一般化するが、人間のゼロショット効率には及ばず、ニューラルな視覚推論のギャップが残っている。




