ReflectCAP：反射的メモリによる詳細画像キャプション生成

arXiv cs.AI / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ReflectCAP（Reflective Note-Guided Captioning）は、詳細な画像キャプションにおける「事実性」と「きめ細かなカバレッジ」の両立を狙い、LVLMの幻覚（誤り）と見落としを反復分析して指針化します。
複数エージェントのパイプラインで、標的LVLMが一貫して誤る点／抜ける点を抽出し、それを「Structured Reflection Notes」として再利用可能なガイドラインに蒸留します。
推論時にはこのノートが、避けるべき内容と注意すべき内容の両面からキャプション生成を誘導し、GPT-4.1ファミリー、Qwen、InternVLなど8種類のLVLMで事実性とカバレッジのトレードオフを改善します。
CapArena-Autoでの対戦評価では強い参照モデルに対して優位性が示され、既存のマルチエージェント手法に比べて計算オーバーヘッド（21–36%増）を抑えつつ、モデルスケーリングより良い品質/計算コストのバランスを実現します。

要旨: 詳細な画像キャプション生成には、事実に基づいた根拠ときめ細かな網羅性の両方が求められますが、既存手法はそれらを同時に達成することに苦戦してきました。本研究では、この緊張関係を、反映（リフレクティブ）ノート誘導型キャプション生成（Reflective Note-Guided Captioning; ReflectCAP）によって解消します。具体的には、マルチエージェントのパイプラインが、対象となる大規模視覚言語モデル（LVLM）が一貫して幻覚（ハルシネーション）してしまう内容と、体系的に見落とす内容を分析し、それらのパターンを再利用可能な指針である Structured Reflection Notes（構造化リフレクションノート）として蒸留します。推論時には、このノートがキャプション生成モデルを両方の軸――避けるべき点と注意を向けるべき点――に沿って導きます。その結果、事実性と網羅性を共同で改善する詳細なキャプションが得られます。さらに、この手法をGPT-4.1ファミリー、Qwenシリーズ、InternVLバリアントにまたがる8つのLVLMに適用したところ、ReflectCAPは事実性と網羅性のトレードオフにおけるパレートフロンティアに到達し、生成キャプションが強力な参照モデルと対戦形式で評価されるCapArena-Autoにおいて大きな改善をもたらしました。加えてReflectCAPは、モデルのスケーリングや既存のマルチエージェントパイプラインよりも、キャプション品質と計算コストの間のトレードオフがより好ましく、これらは21--36\%の追加オーバーヘッドを伴います。これにより、現実のコストとレイテンシの制約下でも、高品質で詳細なキャプション生成が実現可能になります。