CycleCap: 自己教師付きサイクル整合性微調整によるVLMのキャプショニング性能向上

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CycleCap は、視覚言語モデルとテキストから画像を生成するモデル間のサイクル整合性を利用した自己教師付き微調整スキームを導入し、画像キャプショニングを改善し、幻覚を低減します。
このアプローチは、学習中にオンラインで計算される元画像と再構成画像の類似度に基づく報酬を用いたグループ相対ポリシー最適化を採用します。
厳選された画像とテキストのデータセットを必要とせず、生の画像を学習信号として活用することで、キャプションを視覚的内容により根ざしたものに導きます。
1B〜7Bパラメータの4つのVLMにおいて、CycleCap はキャプショニングと幻覚ベンチマークの一貫した改善を達成し、教師ありのサイクル整合性学習に依存する最先端手法を上回ります。

要旨: Visual-Language Models (VLMs) は、画像キャプショニング、視覚質問応答、視覚的推論において顕著な進歩を遂げている。しかし、視覚と言語の整合性のずれに陥りやすく、しばしば過度に一般的な説明や幻覚的な説明を生成する。既存のアプローチは、指示チューニングを通じて高価で大規模な注釈データセットを必要とするか、キャプションの改良のための複雑なテスト時フレームワークを用いる。本研究では、サイクル整合性の観点から image-text の整合性を見直す: 画像と image-to-text モデルによって生成されたキャプションが与えられた場合、テキストから画像へのモデルを通じた逆写像は、元の画像に密接に一致する画像を再構成すべきである。我々の設定では、VLM が画像-to-text コンポーネントとして機能し、事前学習済みの text-to-image モデルが生成されたキャプションから画像を再構成してループを閉じる。これを踏まえ、CycleCap を導入する。CycleCap は、元の画像と再構成画像の類似性に基づく報酬をその場で計算しつつ、Group Relative Policy Optimization（GRPO）を用いて画像キャプショニングを改善するファインチューニング手法です。従来の、サイクル整合性ロスを選好データセットの構築に用いる研究とは異なり、我々の手法はサイクル整合性を直接自己監視型の学習信号として活用します。これにより、生の画像のみを使用することが可能となり、厳選された画像-テキストデータセットの必要を排除しつつ、VLM をより正確で現実的な根拠を持つテキスト記述を生成する方向へ導きます。1B から 7B パラメータの4つの VLM に適用した場合、CycleCap はキャプショニングと幻視（ハルシネーション）ベンチマークの両方で一貫した改善をもたらし、教師ありのサイクル整合性トレーニングに依存する最先端手法を凌駕します。