動画に語らせない:音声・対比型嗜好最適化による音声視覚言語モデル
arXiv cs.CV / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、特にモデルが動画の「ショートカット」を頼りに実際には音声に存在しない音を生成してしまう場合に生じる、音声・視覚言語モデルのクロスモーダル幻覚による信頼性ボトルネックに取り組む。
- 提案手法は、出力の対比学習を用いて「正しい音声として提示される」視覚描写を罰する、二軸の嗜好学習手法である Audio-Contrastive Preference Optimization(ACPO)である。
- さらにACPOは、音声トラックを入れ替える入力の対比学習も適用し、実際の聴覚信号に対して不変なまま生成されてしまうものを罰する。
- 論文中の実験結果は、ACPOが忠実な音声のグラウンディングを改善し、動画に駆動される音声幻覚を低減しつつ、より広いマルチモーダル性能を維持することを示している。




