MSRAMIE: 複数指示の画像編集のためのマルチモーダル構造化推論エージェント
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダル大規模言語モデル(MLLM)を基盤とし、複数の指示を伴う画像編集タスクに対応するトレーニング不要のエージェントフレームワーク、MSRAMIEを紹介する。
- MSRAMIEは、既存の編集モデルをプラグインコンポーネントとして利用し、MLLMベースのインストラクターと画像編集アクターの間を、新規の Tree-of-States および Graph-of-References 推論トポロジーを介して調整する。
- 推論時には、複雑な指示を複数の編集ステップに分解し、状態遷移、ステップ間情報統合、および元の入力の再呼出を通じて、段階的な出力の精緻化を支援する。
- このフレームワークは、編集中に解釈可能で制御可能な意思決定経路を生み出す、可視化可能な推論トポロジーを提供する。
- 実験結果は、指示追従性が15%を超える改善を示し、単一の実行で全ての修正を完了する割合が100%となり、知覚品質を維持している。




