マルチモーダルデータに対する生成的スコア推論
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、画像やテキストなどのマルチモーダル入力を用いた教師あり学習において、統計的に妥当な不確実性定量化を行うための柔軟な枠組み「Generative Score Inference(GSI)」を提案する。
- GSIは、深い生成モデルから生成した合成サンプルを用いることで条件付きスコア分布を近似し、既存の不確実性手法で一般的な制約の強い仮定を回避することを目指す。
- 著者らは、GSIを2つの設定で検証する。大規模言語モデルにおけるハルシネーション検出、ならびに画像キャプション生成に対する不確実性推定である。
- 結果は、ハルシネーション検出における最先端の性能と、画像キャプションにおける頑健な予測不確実性を示し、基盤となる生成モデルの品質が高いほど改善が大きくなることを明らかにする。
- 本研究は、GSIをマルチモーダル学習システムにおける意思決定の信頼性と信頼性(トラストワージネス)を向上させ得る、幅広く適用可能な推論アプローチとして位置付ける。