EvoSelect:ターゲット課題適応のためのデータ効率の高いLLM進化

arXiv cs.CL / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高品質な人手ラベル付きデータが高コストでスケールしにくい状況下で、大規模言語モデルを特定のターゲット課題へ効率的かつ効果的に適応させる方法を扱います。
  • 反復的な生成→学習のループにおける生成候補は、ノイズが多い・冗長である・ターゲット課題の分布とずれているなどの問題があり、そのまま学習すると有用な学習シグナルが薄まり性能が悪化し得る点を指摘しています。
  • EvoSelectは、モデル更新の前に選択ステップを入れる「生成→選択→学習」の反復フレームワークを提案し、学習データをより良いものへ絞り込みます。
  • 候補の選択では、タスク整合性(プロキシ・グラディエント表現を用いた最適輸送で推定)と多様性(冗長性を抑え相補的なサンプルを広くカバーする多様化メカニズム)を同時に考慮します。
  • 複数のベンチマークでの実験により、弱い生成器・強い生成器のいずれの場合でも、EvoSelectは既存のデータ選択手法より適応効果を一貫して改善することが示されています。

Abstract

大規模言語モデル(LLM)を特定のタスクに対して効率的かつ効果的に適応させることは、依然として根本的な課題である。そのような適応には、多くの場合、モデルを特定タスクへ向けて反復的に改善していくことが必要となるが、この過程を支える高品質な人手ラベル付きデータを収集するにはコストがかかり、またスケールしにくい。結果として、合成データ生成は柔軟でスケーラブルな代替手段として注目を集めている。ひとつの単純なアプローチは、反復的な生成—学習ループであり、外部の生成器によって候補データを合成し、それらのデータでモデルを更新したのち、そのプロセスを反復する。だが、生成サンプルはノイズを含んだり、高度に冗長であったり、あるいは特定タスクの分布と整合していなかったりすることがある。このようなデータに無差別に学習すると、有用な学習シグナルが薄まるだけでなく、モデル性能が低下することさえある。そこで本研究では、更新の前に選択ステップを組み込む洗練されたパラダイム、すなわち反復的な生成—選択—学習ループを提案する。このパラダイムに基づき、LLMをデータ効率よく効果的に進化させるための枠組みEvoSelectを提案する。データ生成器によって生成された候補サンプルを用いて、EvoSelectは、特定タスクへの整合性と多様性を共同でモデル化することにより、学習データを選択する。タスクへの関連度は、代理勾配表現による最適輸送を用いて推定し、候補サンプルが特定タスクの分布とどれほどよく整合しているかを定量化する。冗長性を緩和するために、補完的な学習サンプルのカバレッジを促進する分散化(diversification)メカニズムを組み込む。整合性と分散化を交互に行うことで、EvoSelectは特定タスクへ向けてLLMを段階的に進化させることを可能にする。さまざまなベンチマークに対する大規模な実験により、弱いデータ生成器でも強いデータ生成器でも、EvoSelectは既存のデータ選択手法に比べて適応の有効性を一貫して改善することが示される。