要旨:サービスシステムを設計するには、代替構成の中から選択する必要がある。最適なチャットボットのバリアント、最適なルーティング方針、あるいは最も効果的な品質管理手順を選ぶことだ。多くのサービスシステムでは、性能品質の主要な証拠はテキストであり、顧客サポートの対話記録、苦情の記述、コンプライアンス審査報告などであり、古典的な最適化手法が仮定するスカラー測定値とは異なる。大規模言語モデル(LLMs)はこのようなテキスト証拠を読み取り、標準化された品質スコアを生成できるが、これらの自動評価者は代替案や評価事例ごとに変化する体系的な偏りを示す。人間の専門家による審査は依然として正確だが費用がかかる。自動評価は安価だが偏っているとする前提の下で、費用の高い人間による監査を最小限に抑えつつ、高い信頼度で最適なサービス構成を同定する方法を研究する。これを、評価ごとに偏った代理スコアが観測され、追加コストをかけて検証済みの結果を選択的に取得できる逐次意思決定問題として形式化する。LLMのみの選択はアーム依存のバイアスの下では機能しないこと、そして素朴な選択監査推定量は漸近的に偏る可能性があることを証明する。代理スコアと逆傾向重み付き残差を組み合わせた推定量を開発し、いつでも有効な信頼区間列を構築する。私たちのアルゴリズム PP-LUCB は、評価すべき代替案と人間による監査の依頼の有無を同時に決定し、LLM 判定が最も信頼できない箇所に審査を集中させる。正確性を証明し、インスタンス依存のコスト境界を確立してほぼ最適な効率を示す。顧客サポートチケット分類タスクでは、私たちのアルゴリズムは40回中40回の試行で最適モデルを正しく同定し、監査コストを約90%削減する。
テキスト証拠に基づくサービスシステムの設計
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキスト証拠(例:対話記録やレポート)を用いて最適なサービス構成を設計する方法を研究し、LLMベースの評価に存在する偏りを指摘している。
- 逆傾向重み付き残差といつでも有効な信頼区間列を用いて、評価すべき代替案と人間による監査の要請を同時に決定する PP-LUCB というアルゴリズムを導入する。
- 著者らは、アーム依存のバイアスの下では LLM のみの選択が機能しないこと、そして素朴な選択監査推定量が漸近的に偏る可能性があることを示し、ほぼ最適な効率性のための理論的コスト境界を提示している。
- 実証的には、本手法は顧客サポートチケット分類タスクにおいて最適モデルを40件中40件正しく識別し、監査コストを約90%削減している。




