要旨: ソース分布からの代表的な例を選択してターゲットのデータ分布を表現することは、機械学習における基本的な問題である。既存の部分集合選択(subset selection)手法はしばしば暗黙的な重要度スコアに依存しており、これが多数クラスに偏ることで、少数クラスに対する質の低いプロトタイプにつながり得る。我々は、一様に重み付けされたプロトタイプ分布とターゲット分布の間の最適輸送(OT)距離を最小化する、新しい部分集合選択の枠組みを提示する。直観的ではあるものの、この定式化は、
methodprop
cardinality(要素数)制約付きの、
\emph{超加法的(super-additive)}な目的関数の最大化問題へと帰着するが、一般に効率よく近似することは困難である。これに対処するために、OTの周辺(marginal)制約を筋の通った形で再定式化し、その結果として部分的な最適輸送に基づくサブモジュラ(submodular)目的関数を得ることを提案する。この再定式化により、元の超加法的最大化問題に対して(1-1/e)の近似保証を備えた貪欲アルゴリズムが可能になることを証明する。実験的に、UniPROTにおいてプロトタイプ重みを一様に強制することで、クラス不均衡の分類ベンチマークにおける少数クラスの表現が一貫して改善される一方、多数クラスの精度を損なわないことを示す。大規模言語モデルにおけるドメイン不均衡下のファインチューニングと事前学習の両方の設定において、UniPROTはソースからの貢献を一様に強制し、頑健な性能向上をもたらす。我々の結果は、UniPROTが、一様重み付けプロトタイプ選択のための、スケーラブルで理論的に裏付けられた解であることを示している。我々のコードはGitHubで公開されている\footnote{Code: https://github.com/efficiency-learning/UniPROT}
UniPROT:部分最適輸送による一様プロトタイプ選択とサブモジュラ保証
arXiv cs.LG / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- UniPROT(Uniform Prototype Selection via Partial Optimal Transport)を提案し、ソース分布からプロトタイプ集合を選ぶ際に、均一重み付きプロトタイプ分布とターゲット分布の最適輸送(OT)距離を最小化する枠組みを提示しています。
- 直感的な定式化は、近似困難な超加法的(super-additive)目的のカルディナリティ制約付き最大化になりがちですが、OTの周辺制約を再定式化して部分OTベースのサブモジュラ目的に落とし込みます。
- この再定式化により、元の問題に対して貪欲法で(1-1/e)の近似保証を与えられることを理論的に示しています。
- 実験では、偏りのあるデータで少数クラスの表現を改善しつつ多数クラス精度を損なわないことを示し、さらにドメイン不均衡下のLLMの事前学習/微調整でも一様なソース寄与を通じてロバストな性能向上が得られたと報告しています。
- 提案手法はGitHubでコード公開されており、理論保証付きでスケーラブルに使えるプロトタイプ選択手法として位置付けられています。




