CRAFT:教師データを適応的にフィルタリングするためのクラスタ化回帰

arXiv cs.AI / 2026/4/27

💬 オピニオンModels & Research

要点

  • 本論文では、非常に大規模なコーパス上での微調整を効率化するために、高品質な小規模サブセットを選択するベクトル化非依存の手法「CRAFT」を提案する。
  • CRAFTは2段階で実行し、まずk-meansクラスタごとに比例予算を割り当てて検証(validation)側のソース分布を近づけ、次に各クラスタ内で、検証側のターゲット分布に基づく条件付き期待距離を最小化するターゲット埋め込みを持つ学習ペアを選ぶ。
  • 著者らは理論的な保証を示し、比例クラスタ割当てによって、選択された分布と検証分布の連続KLダイバージェンスをクラスタ直径により制御された残差つきで上界できることを述べる。
  • 実験では英語–ヒンディー翻訳に対し、33MのNLLBペアからデータを選択してmBARTをLoRAで微調整し、CRAFTは43.34 BLEUを達成してTSDSより2.13 BLEU上回る一方、選択処理が40倍超高速であることを示した。TF-IDFを用いる場合、CPU上でパイプライン全体が1分未満で完了するとも報告している。

Abstract

大規模コーパスから、微調整(fine-tuning)用に小さく高品質なサブセットを選択することは、コーパスが数千万のデータポイント規模に成長するにつれて、ますます重要になっています。そのような状況では、全面的な微調整は高コストであり、しばしば不要です。我々は、逐次(sequence-to-sequence)モデルの学習データを選択するためのベクトル化非依存(vectorization-agnostic)な手法である CRAFT(Clustered Regression for Adaptive Filtering of training data)を提案します。CRAFT は、情報源(source)と目的(target)の同時分布を分解し、二段階の選択を行います: (i) k-means クラスタに対して比例予算配分することで検証(validation)の情報源分布を一致させ、(ii) 各情報源クラスタ内では、検証の目的分布から導出される条件付き期待距離を最小化するターゲット埋め込み(target embeddings)を持つ学習ペアを選択します。我々は、比例的なクラスタ配分が、選択された分布と検証分布間の連続 KL ダイバージェンスをクラスタの直径(cluster diameters)によって制御された残差で抑えることを証明します。CRAFT を英語-ヒンディ語翻訳に評価し、33百万の NLLB 文ペアから学習データを選択し、LoRA により mBART を微調整します。CRAFT は 43.34 BLEU を達成し、同一の候補プールとエンコーダにおいて TSDS(41.21)を 2.13 ポイント上回るとともに、選択を 40 倍以上高速に完了します。TF-IDF によるベクトル化では、CPU 上で全パイプラインが 1 分未満で完了します。TAROT は 45.61 BLEU を達成しますが、CRAFT は選択を 26.86 秒で完了し、TAROT の 75.6 秒に対して 2.8 倍の速度向上を示します。