CAF-Score: 参照なしの音声キャプション評価のための CLAP の LALMs による較正
arXiv cs.CL / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- CAF-Score は、音声キャプション評価の参照なし評価指標であり、CLAP の粗い意味的整合性を Large Audio-Language Models (LALMs) の細かな理解と較正する。
- 対照的な音声-テキスト埋め込みと LALM風の推論を組み合わせて、キャプションの統語的不整合や微妙な幻覚を検出する。
- BRACE ベンチマークの実験では、CAF-Score は人間の判断との相関が最も高く、難易度の高い状況では従来の参照ベース指標を上回ることがある。
- 著者らは GitHub 上にコードと結果を提供しており、再現性とこの指標のより広い普及を可能にしている。

