MSRAMIE: 複数指示の画像編集のためのマルチモーダル構造化推論エージェント

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダル大規模言語モデル（MLLM）を基盤とし、複数の指示を伴う画像編集タスクに対応するトレーニング不要のエージェントフレームワーク、MSRAMIEを紹介する。
MSRAMIEは、既存の編集モデルをプラグインコンポーネントとして利用し、MLLMベースのインストラクターと画像編集アクターの間を、新規の Tree-of-States および Graph-of-References 推論トポロジーを介して調整する。
推論時には、複雑な指示を複数の編集ステップに分解し、状態遷移、ステップ間情報統合、および元の入力の再呼出を通じて、段階的な出力の精緻化を支援する。
このフレームワークは、編集中に解釈可能で制御可能な意思決定経路を生み出す、可視化可能な推論トポロジーを提供する。
実験結果は、指示追従性が15％を超える改善を示し、単一の実行で全ての修正を完了する割合が100％となり、知覚品質を維持している。

note

note

note

note

note