微細なマルチモーダル推論によるテキストから画像生成の強化

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、粗い全体的整合性の確認に頼るのではなく、きめ細かなテスト時自己推論を行うことでテキストから画像生成を改善するためのFine-grained Multimodal Reasoning（FiMR）を提案する。
FiMRはプロンプトを最小の意味単位（例：対象物や属性）に分解し、分解したVQAで各単位を検証し、プロンプトの各構成要素に対する明示的な微細なフィードバックを生成する。
このフィードバックを用いて、生成画像が入力テキスト内の詳細な属性とよりよく一致するように、狙いを定めた局所的なプロンプト改良をフレームワークが適用する。
構成的なテキストから画像ベンチマークでの実験により、FiMRが他の推論ベース手法を含む複数のベースラインを一貫して上回ることが示される。
本研究は、画像を共同で理解し生成する統一マルチモーダルLLMに対して制御と整合性の精度を高めることに焦点を当てており、この領域は著者らが「未開拓」と指摘する。