エージェント型実行による適応的なタスク再構成で画像編集を容易にする

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、指示に基づく画像編集で起きる失敗の多くが、モデルの能力不足ではなく（小さな対象、暗黙の空間関係、曖昧な指示などの）タスクの作り方の不備に起因すると主張しています。
入力の画像と指示を、実行時に動的に決定される一連の操作へと書き換える「適応的タスク再構成」フレームワークを提案しています。
マルチモーダルLLM（MLLM）エージェントが、分析・ルーティング・再構成・フィードバックに基づく改良を行い、その操作列を実行します。
ImgEdit、PICA、RePlanといった複数のベンチマークと、Qwen Image EditやNano Bananaなどの異なる編集バックボーンに対する実験で、特に難しいケースで大きな改善が一貫して観測されています。
下層のモデルを変更せずに品質を高められることから、タスク再構成が重要だが十分に検討されてこなかった要因であることが示唆されます。

Dev.to

Dev.to

Dev.to

Reddit r/artificial

Qiita