要旨: 大規模言語モデル(LLM)ベースのシステムを学習または微調整する際には、多くの場合コストの高い人的フィードバックが必要ですが、そのような介入を最小化しつつ強い誤り保証を維持するには、十分な理解がありません。本研究では、能動学習の枠組みにおけるLLMベースの分類システムに対して、この問題を扱います。ここで、エージェントは、未知の分布から独立同分布(i.i.d.)で引かれたd次元のクエリ埋め込みを順次ラベル付けします。方法は、コストの高い専門家を呼び出すか、フィードバックなしで推測するかのいずれかです。目的は、専門家アクセスが無料のオラクルに対する後悔(regret)を最小化することです。ホライズン T が埋め込み次元 d に関して少なくとも指数的であるとき、クラス領域の幾何(geometry)が学習できます。この状況では、専門家ラベル付きクエリの凸包を維持し、既知のすべての凸包の外にクエリが着地したときにのみ専門家を呼び出す、保守的凸包ベース分類器(Conservative Hull-based Classifier; CHC)を提案します。CHCは T において mathcal{O}(log^d T) の後悔を達成し、d=1 に対してミニマックス最適です。そうでない場合、一般に幾何を信頼できる形で学習することはできません。さらに、クエリがサブガウス混合分布から生成され、T le e^d であるとき、中心(Center)ベースの分類器(Center-based Classifier; CC)が、ラベル数 N に比例する Nlog{N} のオーダーの後悔を達成することを示します。これらの領域を橋渡しするために、調整可能なパラメータにより、より攻めた推測を可能にするCHCの実用的拡張である、一般化凸包ベース分類器(Generalized Hull-based Classifier; GHC)を導入します。本手法は、最先端のテキスト埋め込みモデルを用いた実世界の質問応答データセットで検証されます。
人手介入を最小化するオンライン分類
arXiv stat.ML / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、アクティブ・ラーニングの枠組みで、専門家(人手)にラベル付けを依頼する代わりに推測で済ませるエージェントが、オラクル(専門家が無料で使える理想)に対する後悔(regret)を最小化する方法を、LLMベースのオンライン分類で検討しています。
- 時間ホライズン T が埋め込み次元 d に対して十分大きい(少なくとも d の指数オーダー)場合、クラス領域の幾何(geometry)を学習でき、凸包を用いた Conservative Hull-based Classifier(CHC)が、既知の凸包の外に来たときだけ専門家を呼び出す方針を提案します。
- CHC は O(log^d T) の regret を達成し、1次元(d=1)では最小最大(minimax)で最適である一方、一般には他の設定で幾何を確実に学習することは難しいと述べています。
- より制約のある領域では(クエリがサブガウス混合から生成され、T ≤ e^d のとき)、Center-based Classifier(CC)を提案し、後悔がラベル数 N に比例する形でスケールすることを示します。
- レジームをまたいで適用するために、より大胆に推測することを可能にするチューニング可能なパラメータを導入した Generalized Hull-based Classifier(GHC)を提示し、強力なテキスト埋め込みモデルを用いた実世界のQAデータセットで検証しています。



