マルチモーダルAI幻覚の検証可能性を制御する

arXiv cs.AI / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルLLMの幻覚が、人間にとってどれだけ検出しやすいかという点で異なることを主張し、検証可能性によって「明白な」タイプと「とらえにくい」タイプに分類している。
  • 4,470件の人間の回答を用いて、AIが生成した幻覚に関するデータセットを構築し、ユーザがそれらを確実に検証できるかどうかに基づいて幻覚にラベル付けしている。
  • 著者らは、明白な幻覚ととらえにくい幻覚にそれぞれ注目する別個のプローブを訓練する、アクティベーション空間への介入手法を提案している。
  • 実験結果は、介入を微細な粒度で検証可能性を調整できること、さらに介入の混合によりシナリオ依存の制御が可能であることを示している。

Abstract

マルチモーダル大規模言語モデル(MLLM)によって駆動されるAIアプリケーションは、ハルシネーションを起こしやすく、人間の利用者に対して重大なリスクをもたらします。重要なのは、そのようなハルシネーションが常に同じ程度に問題になるわけではない点です。あるハルシネーションの内容は、人間の利用者によって検出できる可能性があります(すなわち、明白なハルシネーション)。一方で、別のものは見落とされがち、あるいはより多くの検証の労力を要します(すなわち、捉えにくいハルシネーション)。これは、マルチモーダルAIのハルシネーションには、その検証可能性に大きなばらつきがあることを示しています。しかし、セキュリティや使いやすさといった多様な要求を持つAIアプリケーションに対して、この特性をどのように制御するかについては、ほとんど研究が行われていません。このギャップに対処するため、我々はAIが生成したハルシネーションに対する4,470件の人間の応答からデータセットを構築し、人間の利用者による検証可能性に基づいてそれらのハルシネーションを明白型と捉えにくい型に分類します。さらに、明白型と捉えにくい型それぞれに対する別個のプローブを学習する活性化空間介入(activation-space intervention)手法を提案します。その結果、明白なハルシネーションと捉えにくいハルシネーションでは異なる介入プローブが生じ、これによりモデルの検証可能性をきめ細かく制御できることを明らかにします。実験結果は、このアプローチの有効性を示し、対応する検証可能性を調整するうえで、狙いを定めた介入がより優れた性能をもたらすことを示しています。加えて、これらの介入を単純に混ぜ合わせるだけで、異なるシナリオに必要とされる検証可能性を柔軟に制御できることも示します。