UCS:改善されたイン・コンテキスト学習のための未観測カバレッジ推定

arXiv cs.LG / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、UCS(Unseen Coverage Selection)という学習不要(training-free)の手法を提案し、現在選択している部分集合に含まれていない潜在クラスターをどれだけカバーできているかに基づいてデモンストレーション集合を選択することで、イン・コンテキスト学習を改善する。
  • UCSは、モデル整合的な埋め込みから離散的な潜在クラスターを誘導し、その後、候補集合における未開示のクラスターを、経験的な頻度スペクトルから導出したスムーズド・グッド–チューリング推定量で推定することで機能する。
  • 著者らは、UCSを既存のクエリ依存型またはクエリ非依存型の選択ベースラインと、再学習なしで単純な正則化目的関数により組み合わせられることを示す。
  • 最先端のLLMを用いた意図分類および推論ベンチマークでの実験では、同一の選択予算の下で強力なベースラインにUCSを加えることで、ICL精度が約2〜6%向上することが分かる。
  • この手法は、タスクおよびモデルのレベルにおける潜在クラスター分布に関する洞察を得られることで解釈可能性も提供し、著者らは付随するコードをGitHubで公開している。

要旨: インコンテキスト学習(ICL)の性能は、プロンプト内にどのデモンストレーションを配置するかに厳密に依存します。しかし、既存のほとんどのセレクタは、関連性または多様性に関するヒューリスティックな考え方を優先することが多く、デモンストレーション集合のカバレッジ(網羅性)についての洞察は限定的です。そこで本研究では、選択されたサブセットによって現在は明らかになっていない潜在的なクラスタをモデルに知覚させるべきという原理に動機づけられた、学習不要のサブセットレベル事前(prior)である Unseen Coverage Selection(UKS)を提案します。UCS はこの考えを(1)モデル整合的埋め込みから離散的な潜在クラスタを誘導し、(2)その候補サブセットの経験的な頻度スペクトルから、Smoothed Good--Turing 推定器によって未だ明らかになっていないクラスタ数を推定する、という形で実現します。従来の選択手法とは異なり、UCS はカバレッジに基づく学習不要の手法であり、単純な正則化付き目的関数によって、クエリ依存型およびクエリ非依存型の両方の選択ベースラインとシームレスに組み合わせることができます。最先端の大規模言語モデルを用いた、複数の意図分類および推論ベンチマークでの実験では、同一の選択予算のもとで強力なベースラインに UCS を追加すると、ICL の精度が一貫して最大 2-6% 向上し、さらにタスクおよびモデルのレベルにおける潜在クラスタ分布に関する洞察も得られることが示されました。コードは https://github.com/Raina-Xin/UCS で公開されています。