要旨: 近年の画像編集モデルは、優れた視覚的忠実性を達成している一方で、複雑な推論を要するタスクではしばしば苦戦します。画像編集における推論に根ざした計画のための推論力を調査し、さらに強化するために、本研究では固定された生成モデル(Editor)の上で計画モジュール(Thinker)を独立に最適化することを目的とした、Thinker中心の枠組みDDA-Thinkerを提案します。この分離されたThinker中心パラダイムにより、計画モジュールを制御された形で分析できるようになり、固定されたEditorのもとでその貢献を評価しやすくなります。さらに、このThinkerを効果的に導くために、デュアル原子(dual-atomic)の強化学習フレームワークを導入します。この枠組みでは、検証可能なチェックリストを通じて、フィードバックを2つの異なる原子報酬に分解します。すなわち、Thinkerの推論の実行可能な計画としての最終的な行動結果である、その実行計画の質を直接評価するための認知原子報酬と、最終画像の品質を評価するための視覚原子報酬です。チェックリストの質を改善するために、提案手法のチェックリスト合成は、元画像とユーザ指示だけでなく、理想的な編集後シーンの合理的な参照記述(rational reference description)にも基づいています。この学習を支えるため、2段階のデータキュレーション・パイプラインもさらに開発します。まず多様で推論に焦点を当てたデータセットを合成し、次に難易度に応じた洗練を適用して、強化学習のための効果的な学習カリキュラムをキュレーションします。RISE-BenchおよびKRIS-Benchを含む、推論駆動型の画像編集ベンチマークに対する大規模な実験により、提案手法が全体的な性能を大幅に向上させることが示されました。本手法は、コミュニティモデルが強力な専有モデルと競争力のある結果を達成できることを可能にし、固定されたEditor設定のもとでのThinker中心最適化の実用的可能性を浮き彫りにしています。
DDA-Thinker:デカップルされたデュアル・原子強化学習による推論駆動の画像編集
arXiv cs.CV / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論駆動の画像編集において「Thinker」計画モジュールと「Editor」生成モデルを固定のまま分離し、推論の最適化と評価をしやすくするDDA-Thinkerを提案する。
- デュアル・原子強化学習により、検証可能なチェックリストを用いた報酬を2つに分解することで、実行可能な計画の質を測る認知原子報酬と、最終画像品質を測る視覚原子報酬を与える。
- チェックリスト生成は、元画像とユーザー指示に加えて、理想的な編集後シーンの合理的な参照記述を取り入れることで質を高める。
- 2段階のデータキュレーション手法として、多様で推論に焦点を当てたデータセットを合成した後、難易度に応じた改良で強化学習カリキュラムを効果的に整える。
- RISE-BenchおよびKRIS-Benchでの実験では大きな性能向上が示され、固定-エディタ設定の下でコミュニティモデルがプロプライエタリな強力モデルと競争力のある結果に到達できることを示している。


