抽象: 視覚言語モデル(VLM)はマルチモーダル課題に優れていますが、事実として誤っていたり入力画像に根拠を持たない幻覚に対して脆弱です。近年の研究では、内部表現を用いた幻覚検出は、モデル出力のみに依存するアプローチよりも効率的で正確であることが示唆されています。しかし、既存の内部表現ベースの手法は、通常単一の表現または検出器に依存しており、多様な幻覚のシグナルを捉える能力が制限されています。本論文では、EnsemHalDetを提案します。これは、注意出力や隠れ状態を含む複数のVLMの内部表現を活用する、アンサンブルベースの幻覚検出フレームワークです。EnsemHalDetは、各表現ごとに独立した検出器を学習し、それらをアンサンブル学習によって組み合わせます。複数のVQAデータセットおよびVLMにまたがる実験結果から、EnsemHalDetはAUCの観点で、先行手法および単一検出器モデルに対して一貫して優れていることが示されます。これらの結果は、多様な内部シグナルをアンサンブルすることで、マルチモーダル幻覚検出における頑健性が大幅に向上することを示しています。
EnsemHalDet: 内部状態検出器のアンサンブルによる堅牢なVLM幻覚検出
arXiv cs.CL / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- EnsemHalDetは、最終的なモデルの応答だけに頼らず、内部表現を検査することで誤った、または根拠のない出力を特定する、視覚言語モデル(VLM)のための幻覚検出フレームワークである。
- 本手法は、注意出力や隠れ状態などの多様な信号に基づいてそれぞれ別々に検出器を学習し、より幅広い幻覚パターンを捉えるために複数の内部状態検出器をアンサンブルとして用いる。
- 複数のVQAデータセットおよび複数のVLMに対する実験により、EnsemHalDetは先行手法および単一検出器のベースラインよりも一貫して高いAUCを達成することが示されている。
- 本論文では、異種の内部信号をアンサンブルすることで、マルチモーダル幻覚検出の堅牢性と信頼性が向上すると主張している。