画像と言語モデルにおける幻覚を抑えるためのオンライン自己キャリブレーション

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、大規模なビジョン・ランゲージモデル（LVLM）における幻覚（入力画像にない視覚的な詳細を創作して説明する問題）に取り組んでいます。
既存のオフラインでの嗜好整合（preference alignment）手法は「監督（supervision）と知覚（perception）の不一致」を起こし得るため、知覚能力の限界を超えた細部を“当て推量”するように学習してしまうと指摘しています。
著者らは、LVLMにおける「生成（generative）–識別（discriminative）のギャップ」を見出し、モデルが自由生成よりも識別による検証でより高い精度を示すことを根拠に、自己教師あり学習を信頼性高く実現する方針を示します。
OSCARは、モンテカルロ木探索（Monte Carlo Tree Search）と二段階の報酬設計（dual-granularity reward）を組み合わせて嗜好データを構築し、その後Direct Preference Optimizationでモデルを反復的に改良するオンライン自己キャリブレーション枠組みです。
実験の結果、OSCARは幻覚ベンチマークで最先端の性能を達成しつつ、一般的なマルチモーダル能力の向上も確認されています。

Anthropic News

日経XTECH

The Verge

Dev.to

Dev.to