要旨: 効果的な自動化は、「いつ行動し、いつエスカレーションするか」を決めることにかかっています。私たちはこれを不確実性下での意思決定としてモデル化します。すなわち、LLMが予測を形成し、その予測が正しい確率を見積もり、行動とエスカレーションの期待コストを比較します。この枠組みを、記録された人間の意思決定に基づく需要予測、コンテンツ推奨、コンテンツモデレーション、ローン承認、自律走行の5つの領域、および複数のモデルファミリーにわたって適用すると、これらのコストのトレードオフにおいてモデルが用いる暗黙の閾値には顕著な違いがあることがわかります。この閾値は大きく変動し、アーキテクチャやスケールからは予測できません。一方で自己評価は、モデル固有のやり方で不適切に較正されています。次に、この意思決定プロセスを対象に介入をテストします。コスト比を変えること、精度に関する信号を与えること、そして所望のエスカレーション規則に従うようにモデルを学習させることです。プロンプトによる効果は主に推論モデルで見られます。チェーン・オブ・ソート目標に対するSFTは、最も堅牢な方策をもたらし、データセット、コスト比、プロンプトの言い回し、保持したままの領域(held-out domains)にまたがって汎化します。これらの結果は、エスカレーション行動がモデル固有の性質であり、導入(デプロイ)前に特徴づけるべきであること、また堅牢なアラインメントは、不確実性と意思決定コストについてモデルに明示的に推論させる学習によって恩恵を受けることを示唆しています。
ActかEscalateか?言語モデルによる自動化におけるエスカレーション行動の評価
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自動化における「act(実行)かescaleate(エスカレーション)か」を、不確実性下での意思決定として位置づけ、LLMが正しさの確率を予測し、期待コストに基づいて「実行」または「エスカレーション」を選択する枠組みを提示している。
- 予測、レコメンデーション、モデレーション、ローン審査、自動運転の5つの領域にまたがる実験では、エスカレーションの閾値がモデル間で大きく異なり、アーキテクチャやスケールでは説明できないことが示される一方で、自身の見積もりは体系的に校正されていない。
- コスト比の調整、精度に関するシグナルの提示、エスカレーション規則に従うようにモデルを学習させるといった介入を検証し、その結果、プロンプトは主に推論志向のモデルで有効であることがわかる。
- 望ましいエスカレーション方策に関するchain-of-thought(思考過程)のターゲットで教師あり微調整を行うと、最も頑健な行動が得られ、データセット、コスト比、プロンプト形式、さらにホールドアウト領域にわたって汎化する。
- 全体として、著者らは、エスカレーション行動はモデル固有の特性であり、導入前に評価すべきだと主張している。また、不確実性と意思決定コストを理由づけて扱うようにモデルを整合させることで、信頼性が向上すると述べている。




