Conformal Sampling による一般化証明書付きの、条件付き事実性を制御する LLM

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、事後的な conformal 手法である Conditional Factuality Control（CFC）を提案し、限界的（marginal）な保証のみではなく、プロンプトの難易度を考慮した条件付き（conditional）ハルシネーション被覆保証を満たす集合値（set-valued）LLM 出力を生成する。
CFC は、潜在的な「成功」スコアに対する拡張（augmented）された量子回帰（quantile regression）で学習した、連続的で特徴（feature）に条件付いた受理（acceptance）閾値を用い、その後推論時に固定点（fixed-point）の閾値ルールとして適用する。
著者らは、交換可能性（exchangeability）という仮定の下で CFC の条件付き被覆（conditional coverage）を証明し、同一の目標被覆に対して、マージナル conformal 予測よりもサンプル効率が高いことを（緩やかな分布条件のもとで）示す。
PAC 型の変種である CFC-PAC は、条件付き取りこぼし（miscoverage）が目標からどれだけ逸脱し得るかを有限サンプルで評価する証明書を提供し、N と信頼パラメータ δ への明示的な依存を与える。
合成データ、推論／QA ベンチマーク、ならびに Flickr8k の VLM 設定に関する実験により、CFC および CFC-PAC は、難易度グループ間で目標に近い条件付き被覆を達成しつつ、conformal 基準や非 conformal 手法よりも小さい予測集合を用いることが示される。

周辺（marginal）な保証しか与えず、単一のグローバルしきい値に依存するため、難しいプロンプトではアンダーカバーし、簡単なものではオーバーカバーし、予測集合が過度に大きくなり得る。そこで我々は、
条件付き事実性制御（Conditional Factuality Control; CFC）を提案する。CFCは事後（post-hoc）の適合フレームワークであり、
集合値（set-valued）出力を、
条件付きの被覆（coverage）保証とともに返す。CFCは、潜在的な「成功（success）」スコアに対する拡張（augmented）分位点回帰（quantile regression）によって連続的な、特徴量に条件付けされた受理（acceptance）しきい値を定義し、推論時には固定点（fixed-point）のしきい値規則によりそれを運用する。理論的には、交換可能性（exchangeability）の下で、CFCが条件付き被覆保証を満たすことを示し、その
効率性（efficiency）を解析する。さらに、スコア分布に対する穏当な仮定のもとでは、同じ目標被覆率に対して、条件付き規則が周辺的適合予測（marginal conformal prediction）よりも厳密に標本効率が高いことを証明する。加えて、PACスタイルの変種であるCFC-PACを導出する。これは安定性（stability）境界に基づいて名目上のリスク水準を縮小し、条件付きミスクバレッジ（miscoverage）が目標から最大で $O(\sqrt{\log(1/\delta)/N})$ だけずれることを保証する有限標本証明を与える。実験的には、合成データ、実世界の推論およびQAベンチマーク、ならびにFlickr8k VLMの設定において、CFCとCFC-PACはいずれも難易度グループ全体で目標付近の被覆を一貫して達成しつつ、CPおよび非CPのベースラインより小さい予測集合を用いる。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

Conformal Sampling による一般化証明書付きの、条件付き事実性を制御する LLM

要点

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer