Textual Bayes：LLMベース・システムにおけるプロンプト不確実性の定量化

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高リスク領域での誤ったキャリブレーションが問題になる状況も踏まえ、LLMベース・システムにおける不確実性を正確に定量化するという未解決課題に取り組みます。
プロンプト文を統計モデル上の「テキスト上のパラメータ」として扱うことで、ベイズ的な枠組みを提示し、プロンプトのパラメータと下流の予測の両方に対する不確実性を定量化できるようにします。
Metropolis-Hastings through LLM Proposals（MHLP）というMCMC手法を提案し、プロンプト最適化の発想と標準的なマルコフ連鎖モンテカルロを組み合わせて、プロンプトに対するベイズ推論を実行可能にします。
MHLPは「ターンキー」で既存のLLMパイプライン（クローズドソースのブラックボックスLLMに依存する場合も含む）に組み込めるとされ、複数のベンチマークで予測精度と不確実性定量化（UQ）の両方が向上すると示します。
より広く、本研究は、確立されたベイズ手法をLLM時代に取り込んで、より信頼できキャリブレーションの良いLLMベース・システムを実現する道筋を示すものだと主張しています。

Abstract

大規模言語モデル（LLM）は、困難な実世界のタスクを解く能力をますます高めている一方で、その不確実性を正確に定量化することは、依然として重要な未解決問題です--これは、高リスクな領域における適用可能性を制限しています。この課題は、最先端の多くのLLMがクローズドソースでブラックボックスであるという性質によって、さらに複雑になります。加えて、LLMベースのシステムは、それらを結びつけるプロンプトに対して非常に敏感であることが多く、しばしば大きな手作業による調整（すなわちプロンプトエンジニアリング）を必要とします。本研究では、LLMベースのシステムをベイズ的な観点から捉えることで、これらの課題に取り組みます。プロンプトを統計モデルにおけるテキスト上のパラメータとして解釈することで、少量の学習データを用いて、これらのプロンプトに関するベイズ推論を実行できるようにします。この新しい視点により、モデルのテキスト上のパラメータと、その下流の予測の両方に対して、原理に基づく不確実性定量化を可能にし、さらに、自由形式のテキストで表現されたこれらのパラメータに関する事前の信念も組み込むことができます。ベイズ推論--よく研究されたデータ形式でさえ難しい問題--を実行するために、本研究では、LLM Proposals（MHLP）によるメトロポリス・ヘイスティングスを導入します。これは、プロンプト最適化の技法と標準的なMCMC手法を組み合わせた、新規のマルコフ連鎖モンテカルロ（MCMC）アルゴリズムです。MHLPは、既存のLLMパイプラインへの「そのまま適用できる」改造であり、クローズドソースモデルのみに依存するものも含まれます。実験的に、提案手法が、さまざまなLLMベンチマークおよびUQタスクにおいて、予測精度と不確実性定量化（UQ）の両方で改善をもたらすことを示します。より広く言えば、本研究は、ベイズの豊かな文献に由来する手法をLLMの時代へ取り込むための実行可能な道筋を示し、より信頼性が高く、較正されたLLMベースのシステムの実現につながるものです。