検証可能な観測に基づく、大規模言語モデルサービスのための信念ガイド推論制御

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ブラックボックスLLMサービスにおいて意思決定時点では応答の真の信頼性が部分的にしか観測できないという問題を扱い、リクエストごとに「デフォルトの低コスト応答で十分か」または「追加計算で品質向上するか」を選ぶ、連続的で予算制約のある意思決定問題を定式化します。
  • Veroic(Verifiable Observations for Risk-aware Inference Control)を提案し、推論制御を「部分観測」や「計算予算の結びつき」を考慮した部分観測マルコフ決定過程としてモデル化します。
  • Veroicは、入力と出力の組から軽量な検証可能な観測チャネルを構築し、多様な品質シグナルを集約して、潜在する応答信頼性に関する信念状態(belief state)を作ります。
  • その信念状態を用いて、予算に配慮したポリシーが「低コストのデフォルト出力を返すか」それとも「より高コストの推論経路を起動して品質を上げるか」を判断します。
  • 複数タスクでの実験により、競合手法よりも品質とコストのトレードオフが改善され、リスク推定とキャリブレーションが強化され、長期的な推論制御もより頑健であることが示されます。

Abstract

ブラックボックスの大規模言語モデル(LLM)サービスでは、応答の信頼性はしばしば意思決定時点で部分的にしか観測できず、一方で推論経路を強化すると多大な計算コストがかかるため、予算制約付きの逐次意思決定問題が生じます。すなわち、各リクエストに対して、システムは、低コストの既定応答が十分に信頼できるかどうかを判断し、もしくは応答品質を改善するために追加計算を割り当てるべきかを決める必要があります。本論文では、ブラックボックスLLM設定における適応的な推論制御のための枠組みである extbf{Ver}ifiable extbf{O}bservations for Risk-aware extbf{I}nference extbf{C}ontrol ( extsc{Veroic}) を提案します。これは、部分的な観測可能性と逐次的な予算の結合を捉えるために、リクエスト時の制御を extit{部分観測可能なマルコフ決定過程}として定式化します。さらに、入力—出力の組から、異質な品質シグナルを集約して潜在する応答信頼性に関するベイズ状態(belief state)を構築することで、軽量で検証可能な観測チャネルを作り、それを予算を意識したポリシーで用いて、既定出力を返すべきか、より高コストな推論経路を起動すべきかを判断します。多様なタスクに対する実験により、 extsc{Veroic} が競合ベースラインよりも優れた品質—コストのトレードオフ、より強力なリスク推定とキャリブレーション、そしてより頑健な長期的推論制御を達成することを示します。

返却形式: {"translated": "翻訳されたHTML"}