RefineAnything:完璧な局所的ディテールのための、マルチモーダルな領域特化リファインメント

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • RefineAnythingは、ユーザーが指定した領域(マスクやバウンディングボックス)のみを高精細に復元・改良し、非編集領域は厳密に変更しない「領域特化の画像リファインメント」を新しい問題設定として提案しています。
  • 従来の編集モデルが、局所的なディテールの崩壊(文字・ロゴ・細い構造の歪みなど)を十分に抑えきれない点に対し、マルチモーダル拡散ベースで、参照あり/なしの両方に対応するリファインメントを扱います。
  • Focus-and-Refineでは、VAEの固定解像度制約下でのcrop-and-resizeが局所再構成を改善し得るという観察に基づき、解像度予算をターゲット領域へ再配分して効率と効果を高めます。
  • ブレンドマスクによる貼り戻しとBoundary Consistency Lossにより、背景の厳密な保存と、縫い目(シーム)アーティファクトの抑制を同時に狙います。
  • 訓練データRefine-30Kと評価ベンチRefineEvalを構築し、編集領域の忠実度と背景一貫性の両面で既存ベースラインを上回る、実用的な高精度ローカル改良手法を示しています。

概要: 入力画像と、ユーザーが指定した領域(例:手描きのマスクやバウンディングボックス)を与えると、編集されていないすべての画素を厳密に不変のまま保ちながら、細かなディテールを復元することを目的とする、領域固有の画像リファインメントを専用の問題設定として導入します。画像生成における急速な進展にもかかわらず、現代のモデルは依然として局所的なディテール崩壊(例:歪んだ文字、ロゴ、細い構造)をしばしば引き起こします。既存の命令駆動型編集モデルは粗い粒度の意味論的な編集を強調する一方で、微細な局所欠陥を見落とすことがあったり、関心領域が固定解像度の入力のごく一部しか占めない場合に背景を意図せず変更してしまうことがあります。本論文では、参照ベースおよび参照なしの両方のリファインメントをサポートする、マルチモーダル拡散ベースのリファインメントモデル RefineAnything を提案します。VAEの入力解像度が固定された条件下で、クロップしてリサイズすることが局所的な復元を大幅に改善し得るという直感に反する観察に基づき、ターゲット領域へ解像度予算を再配分することで、リファインメントの有効性と効率を向上させる、Focus-and-Refine という領域に焦点を当てたリファインメント&貼り戻し戦略を提案します。さらに、ブレンドマスクによる貼り戻しにより、厳密な背景の保持が保証されます。加えて、継ぎ目のアーティファクトを減らし、貼り戻しの自然さを改善するための、境界認識型 Boundary Consistency Loss も導入します。この新しい設定を支えるために、Refine-30K(20Kの参照ベースおよび10Kの参照なしサンプル)を構築し、編集領域の忠実さと背景の一貫性の両方を評価するベンチマーク RefineEval を導入します。RefineEval において、RefineAnything は競合するベースラインに対して強力な改善を達成し、ほぼ完璧な背景保持を示し、高精度な局所リファインメントに対する実用的な解決策を確立します。プロジェクトページ: https://limuloo.github.io/RefineAnything/。