微調整データにおける能力ギャップの診断

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この論文では、GoalCoverという枠組みを提案し、目標を原子的なサブゴールに分解してカバレッジを評価することで、費用のかかるLLMの微調整前にデータセットの能力ギャップを診断できるようにします。
  • GoalCoverは各サブゴールごとに学習サンプルへLLMベースのアラインメントスコアを割り当て、スコアが低いサンプルの説明から不足している能力を特定します。
  • 医療QA、法的要約、コード生成の3領域での制御された改変実験により、GoalCoverが「標的となる能力」の劣化と「非標的」の影響を信頼性高く区別できることが示されました(平均劣化25.6%対2.1%、Cohen’s d=1.24)。
  • Qwen-3-14Bを用いた金融要約の強化微調整タスクでは、GoalCoverでフィルタしたデータによりLLMジャッジの報酬が3.77から4.12に改善し、最良結果はフィルタ済みデータとゴール条件付き合成サンプルの組み合わせで達成されました(4.20)。

Abstract

大規模言語モデル(LLM)を領域固有のタスク向けに微調整するには、実務者が必要とする対象能力を包括的にカバーする学習データセットが必要です。しかし、データセットがどの能力をサポートしていないのかを特定し、しかも高価な微調整実行の前にそれを行うことは、いまだ大部分が未解決の問題です。本研究では、対話的なゴール分解と自動のカバレッジ評価によって、微調整データセットにおける能力の欠落(capability gaps)を体系的に検出するための枠組みであるGoalCoverを提案します。GoalCoverは、実務者が高レベルのゴールを原子的で独立に評価可能なサブゴールへと構造化して分解することを導きます。その上で、各学習サンプルに対して、各サブゴールに関するLLMベースのアラインメントスコアを割り当て、低スコアのサンプル説明の自動分析によって欠落している能力を可視化します。私たちは、2つの補完的な軸に沿ってこの枠組みを検証します。第一に、3つの領域(医療QA、法律要約、コード生成)にまたがる制御された破損(corruption)実験により、GoalCoverが対象能力と非対象能力の影響を確実に区別できることを示します。具体的には、対象サブゴールは平均で25.6%低下するのに対し、非対象サブゴールでは2.1%低下にとどまります(Cohen's d=1.24)。第二に、Qwen-3-14Bを用いた金融要約の強化微調整(Reinforcement Fine-Tuning: RFT)タスクにおいて、下流での有用性を実証します。GoalCoverでフィルタしたデータで学習すると、LLMジャッジの報酬は、フィルタなしのベースラインに対して3.77から4.12(5点満点中)へ改善します。さらに、フィルタしたデータにゴール条件付きの合成サンプルを組み合わせると、最も良い結果(4.20)になります。これら2つの結果は、GoalCoverが実用的な微調整前の診断として機能することを示しています。すなわち、能力の欠落を検出し、それらを埋めるための具体的なシグナルを生成できるのです。