広告

マルチモーダルデータに対する生成的スコア推論

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、画像やテキストなどのマルチモーダル入力を用いた教師あり学習において、統計的に妥当な不確実性定量化を行うための柔軟な枠組み「Generative Score Inference(GSI)」を提案する。
  • GSIは、深い生成モデルから生成した合成サンプルを用いることで条件付きスコア分布を近似し、既存の不確実性手法で一般的な制約の強い仮定を回避することを目指す。
  • 著者らは、GSIを2つの設定で検証する。大規模言語モデルにおけるハルシネーション検出、ならびに画像キャプション生成に対する不確実性推定である。
  • 結果は、ハルシネーション検出における最先端の性能と、画像キャプションにおける頑健な予測不確実性を示し、基盤となる生成モデルの品質が高いほど改善が大きくなることを明らかにする。
  • 本研究は、GSIをマルチモーダル学習システムにおける意思決定の信頼性と信頼性(トラストワージネス)を向上させ得る、幅広く適用可能な推論アプローチとして位置付ける。

Abstract

正確な不確実性の定量化は、さまざまな教師あり学習の状況において信頼できる意思決定を行うために不可欠であり、特に画像やテキストのような複雑で多様な(マルチモーダル)データを扱う場合に重要です。現在のアプローチは、しばしば硬直的な仮定や限定的な汎化可能性といった顕著な制約に直面しており、これらが多様な教師あり学習タスク全体にわたって有効性を損なっています。これらの制約を克服するために、我々は生成スコア推論(Generative Score Inference: GSI)を提案します。GSIは、幅広いマルチモーダル学習問題に対して、統計的に妥当で有益な予測集合と信頼度(コンフィデンス)集合を構成できる柔軟な推論フレームワークです。GSIは、深い生成モデルによって生成された合成サンプルを用いて条件付きスコア分布を近似し、データやタスクに関して制約の強い仮定を課すことなく、精密な不確実性の定量化を可能にします。我々は、2つの代表的なシナリオを通じてGSIの能力を実験的に検証します。具体的には、大規模言語モデルにおけるハルシネーション検出と、画像キャプションにおける不確実性推定です。本手法は、ハルシネーション検出において最先端の性能を達成し、画像キャプションにおいて頑健な予測不確実性を示します。また、その性能は基盤となる生成モデルの品質によって正の影響を受けることが分かりました。これらの結果は、GSIが多用途な推論フレームワークとして不確実性の定量化を大幅に強化し、マルチモーダル学習における信頼性(trustworthiness)を高め得る可能性を示しています。

広告