要旨: 学習によるディファー(Learning-to-Defer)は、各入力を期待コストが最小となる専門家(expert)へ振り分けますが、意思決定時点で各専門家が利用可能な情報は固定であると仮定しています。多くの現代的なシステムはこの仮定を破っています。すなわち、専門家を選択した後に、その専門家へ追加でどのような情報を与えるか(取得した文書、ツールの出力、エスカレーションの文脈など)も選べることがあります。本研究ではこの問題を扱い、「助言付きの学習によるディファー(Learning-to-Defer with advice)」と呼びます。ルーティングと助言を、それぞれ異なるヘッドで学習する、広範な自然な分離型サロゲートの族が、最小の自明でない設定においてさえも一貫性を欠く(inconsistent)ことを示します。次に、専門家--助言の複合アクション空間上で動作する拡張サロゲートを導入し、mathcal{H}-一貫性の保証と過剰リスクの転移(excess-risk transfer)境界を併せて証明します。これにより、極限においてベイズ最適方策を回復できることを示します。表形式、言語、およびマルチモーダルの課題に関する実験では、その結果得られる手法が標準の Learning-to-Defer を改善し、コストの体制に応じて助言の取得行動を適応させることが示されます。合成ベンチマークでは、分離型サロゲートで予測される故障モードの失敗が確認されます。
マルチエキスパート・ラーニング・トゥ・ディファーにおける拡張アグメンテッド・アクション・サロゲートの先へ
arXiv stat.ML / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はLearning-to-Deferを分析し、エキスパートへのルーティング後に追加の「助言」(例:取得した文書やツールの出力)をシステムが選択できる場合、標準的な定式化が破綻することを示します。
- ルーティングと助言を別々のヘッドで学習する分離型サロゲート手法の広いクラスは、最小の自明でない設定においてさえ一貫性を欠きうることを証明します。
- 著者らは、ルーティングと助言を複合的な行動空間として扱う拡張サロゲートを提案し、H-一貫性の保証と、過剰リスクの転移(excess-risk transfer)に関する上界を証明します。これにより、極限においてベイズ最適方策へ収束することが示唆されます。
- 表形式、言語、マルチモーダルの各タスクにわたる実験では、拡張手法が、コスト体制(cost regime)に応じて助言の獲得方法を変えることで、標準のLearning-to-Deferよりも改善することが示されます。
- 合成ベンチマークは、分離型サロゲートが理論解析で予測された破綻モードを再現することを支持します。

