要旨: 視覚と言語の統合モデル(VLMs)は、広範なマルチモーダル推論タスクにおいて卓越した性能を達成してきましたが、細かな視覚属性を分離して根底にある因果関係を推論することにはしばしば苦戦します。文脈内学習(ICL)はVLMが新しいタスクに適応する有望な道を提供しますが、その有効性はデモンストレーション例の選択に大きく依存します。既存の取得強化アプローチは通常、受動的な類似性ベースの取得に依存しており、相関はあるが因果関係のない例を選択しがちで、偽の関連を増幅し、モデルの頑健性を制限します。我々はCIRCLES(Composed Image Retrieval for Causal Learning Example Selection)、因果学習のデモンストレーション選択のための構成画像検索という新しいフレームワークを導入します。CIRCLESは、標的化された属性誘導の構成画像検索を通じて反事実スタイルの例を検索することで、デモンストレーションセットを能動的に構築します。反事実スタイルの例を取り入れることで、CIRCLESはVLMが属性と結果の因果関係を暗黙的に推論できるようにし、表面的な相関を超え、より堅牢で地に足のついた推論を促進します。4つの多様なデータセットを対象とした包括的な実験は、CIRCLESが複数のアーキテクチャに跨って既存手法を一貫して上回ることを示しており、特に小規模モデルで顕著な利得を示し、情報不足の下で顕著な成果を挙げています。さらに、CIRCLESはより多様で因果的に有用な例を取得し、インコンテキストデモンストレーションを活用して推論を改善する方法に関する定性的な洞察を提供します。私たちのコードはhttps://github.com/gzxiong/CIRCLESで入手可能です。
反事実の取得は視覚的インコンテキスト学習を改善する
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚と言語モデルにおける視覚的インコンテキスト学習を改善するため、反事実スタイルのデモンストレーション例を能動的に取得するフレームワーク CIRCLES を提案する。
- これは、属性指向の合成画像検索を実行して、視覚属性と結果との間の因果推論を促進するデモンストレーションセットを構築することにより実現される。
- 4つの多様なデータセットにおいて、CIRCLES は従来の検索ベース手法を一貫して上回り、情報が乏しい状況下の小規模モデルで特に大きな利得をもたらす。
- 著者は再現性とさらなる研究を促進するために、https://github.com/gzxiong/CIRCLES にコードを公開している。