CRAFT:教師データを適応的にフィルタリングするためのクラスタ化回帰
arXiv cs.AI / 2026/4/27
💬 オピニオンModels & Research
要点
- 本論文では、非常に大規模なコーパス上での微調整を効率化するために、高品質な小規模サブセットを選択するベクトル化非依存の手法「CRAFT」を提案する。
- CRAFTは2段階で実行し、まずk-meansクラスタごとに比例予算を割り当てて検証(validation)側のソース分布を近づけ、次に各クラスタ内で、検証側のターゲット分布に基づく条件付き期待距離を最小化するターゲット埋め込みを持つ学習ペアを選ぶ。
- 著者らは理論的な保証を示し、比例クラスタ割当てによって、選択された分布と検証分布の連続KLダイバージェンスをクラスタ直径により制御された残差つきで上界できることを述べる。
- 実験では英語–ヒンディー翻訳に対し、33MのNLLBペアからデータを選択してmBARTをLoRAで微調整し、CRAFTは43.34 BLEUを達成してTSDSより2.13 BLEU上回る一方、選択処理が40倍超高速であることを示した。TF-IDFを用いる場合、CPU上でパイプライン全体が1分未満で完了するとも報告している。




