概要:LLMs(大規模言語モデル)が自然言語処理に広く適用される中、プロンプト設計と検索強化生成(RAG)は、複雑なタスクに対するLLMsの性能を向上させる主流となっている。しかし、LLMsは自己回帰的に出力を生成するため、避けられない出力の不確実性が生じる。モデルの性能はプロンプト設計に非常に敏感であるため、信頼性の高いプロンプト最適化には正確な不確実性の測定が不可欠である。多クラスの多肢選択(理解)タスクにおいて、出力確率に基づく従来の不確実性指標(例:エントロピー)は、すべてのクラスを同等に扱い、事前学習コーパスにおけるクラスの事前差異を無視している。この、priorsから生じる偽の自信と文脈理解から生じる真の確信を区別できないことは、信頼性の低い自信の較正につながる。これを解決するため、フォーカル損失に着想を得た最初のトークンベースの指標である Log-Scale Focal Uncertainty(LSFU)を提案する。LSFUは、ラベルの事前確率をリスク調整因子として組み込み、高頻度クラスのノイズを抑制し、低頻度のロングテールクラスに対するリスクを強調する。測定スケールを統一する動的な重み付け機構を備える。LSFUを基に、不確実性をキャリブレーションしたプロンプト最適化フレームワーク(UCPOF)をさらに提案する。UCPOFは、モデル出力の最初のトークンを利用して高品質なサンプルを選択し、プロンプトを動的に最適化する。総合的な評価は、UCPOFが少数ショットのベースラインより平均正解率を6.03%向上させ、常時稼働の全RAGを上回る全体平均正解率で5.75%向上し、平均取得トリガー率を50.66%低減することを示している。高い不確実性を示すサンプルに対してのみRAGを適応的にトリガーすることで、計算コストを大幅に削減しつつ、最先端の性能を維持する。
最初のトークンにはどれくらい自信があるのか? 大規模言語モデルの分類と理解のための、不確実性を校正したプロンプト最適化フレームワーク
arXiv cs.AI / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- LSFUは、最初のトークンに基づく不確実性指標で、ラベルの事前分布を用いて高頻度クラスのノイズを抑制し、多クラス理解タスクにおける低頻度クラスのリスクを強調します。
- LSFUを基盤として、UCPOFはモデルの最初のトークンを活用して高品質な見本を選択し、性能向上のためにプロンプトを動的に最適化します。
- このフレームワークは、few-shotベースラインに対して平均精度を6.03%向上させ、常時稼働する全RAGを5.75%上回る総平均精度を達成すると同時に、取得トリガー率を50.66%低減します。
- 高い不確実性を示すサンプルに対してのみRAGを適応的に発動することで、UCPOFは計算コストを抑えつつ最先端の精度を維持します。




