Abstract
ブラックボックスの大規模言語モデル(LLM)サービスでは、応答の信頼性はしばしば意思決定時点で部分的にしか観測できず、一方で推論経路を強化すると多大な計算コストがかかるため、予算制約付きの逐次意思決定問題が生じます。すなわち、各リクエストに対して、システムは、低コストの既定応答が十分に信頼できるかどうかを判断し、もしくは応答品質を改善するために追加計算を割り当てるべきかを決める必要があります。本論文では、ブラックボックスLLM設定における適応的な推論制御のための枠組みである extbf{Ver}ifiable extbf{O}bservations for Risk-aware extbf{I}nference extbf{C}ontrol ( extsc{Veroic}) を提案します。これは、部分的な観測可能性と逐次的な予算の結合を捉えるために、リクエスト時の制御を extit{部分観測可能なマルコフ決定過程}として定式化します。さらに、入力—出力の組から、異質な品質シグナルを集約して潜在する応答信頼性に関するベイズ状態(belief state)を構築することで、軽量で検証可能な観測チャネルを作り、それを予算を意識したポリシーで用いて、既定出力を返すべきか、より高コストな推論経路を起動すべきかを判断します。多様なタスクに対する実験により、 extsc{Veroic} が競合ベースラインよりも優れた品質—コストのトレードオフ、より強力なリスク推定とキャリブレーション、そしてより頑健な長期的推論制御を達成することを示します。返却形式: {"translated": "翻訳されたHTML"}




