古典的なOOD検出は、モデルが見えていることを前提にしています。特徴量に対するマハラノビス距離と、ロジットに対するエネルギーは典型的で、どちらもモデルを開けて解析する必要があります。
クローズドなLLM APIでは、テキストが入力され、テキストが出力され、運が良ければトークンごとの上位K個のlogprobsも得られます。この制約を生き残る方法は、SelfCheckGPTのようなサンプリングの一貫性、APIが公開しているlogprobsの範囲で計算するトークンレベルのエントロピー、自前のエンコーダから作るプロキシ埋め込み、あるいは出力に対する別の検証用モデルです。気になっているのは、その状況では古典的なOOD検出とハルシネーション検出が同じ問題に崩れ落ちることです。どちらも、モデルが信頼できない文章を生成することで現れるからです。
いま本番環境でクローズドLLMを運用しているなら、あなたの実際のOODシグナルは何で、出力をいつ信頼するかはどうやって判断していますか?
[link] [comments]




