大規模言語モデルのための、最適化器に配慮した二段階オンラインデータ選択

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの微調整における勾配ベースのデータ選択はオフラインでは有効である一方、データが逐次的に到着し、効用が現在の最適化ステップや幾何に依存するオンライン微調整には適していないと主張する。
現在の最適化器の状態のもとで、選択を次のターゲット志向のパラメータ更新を形作るものとして扱う、最適化器を意識したオンラインデータ選択の枠組みを提案する。
本手法では、オンライン選択を、2次のターゲット効用に結び付いた更新整合（update-matching）問題として定式化し、選ばれるサブセットがサンプル間の相互作用や冗長性を考慮する必要があることを強調する。
長い文脈を扱う実運用向けLLMにこれを適用するために、「まずフィルタし次に重み付けする」二段階のFilter-then-Weightアルゴリズムと、因数分解された外積勾配表現、最適化された行列計算を導入する。
実験結果では、同一のデータ予算のもとで、既存のオンラインデータ選択のベースラインと比べて収束および下流タスク性能が一貫して改善することが示される。

Abstract

勾配ベースのデータ選択は、大規模言語モデル（LLM）微調整におけるサンプル有用性を推定するための、原理に基づいた枠組みを提供しますが、既存の手法は主にオフライン設定向けに設計されています。したがって、データが逐次的に到着するオンライン微調整には適しにくく、サンプル有用性はステップ依存であり、更新の有効な幾何は適応的オプティマイザによって形作られます。そこで我々は、LLM微調整における勾配ベースのオンラインデータ選択と再重み付けのための、オプティマイザを考慮した枠組みを提案します。鍵となる考え方は、オンライン選択を静的なサンプル順位付けとして捉えるのではなく、オプティマイザ状態のもとで次の、ターゲット指向の更新を形作るものとして捉えることです。これを、オプティマイザを考慮した更新マッチング問題として定式化し、これを二次のターゲット有用性と関連づけ、選択されたサンプル間の相互作用や冗長性を、サブセット構築がなぜ考慮する必要があるのかを示します。この見方に基づき、まず幾何学的に有用な候補をフィルタし、次にその係数を最適化する、二段階の Filter-then-Weight（フィルタしてから重み付け）アルゴリズムを開発します。枠組みをLLMで実用化するために、因数分解された外積勾配表現と、長文脈データ向けの最適化された行列計算を導入します。実験の結果、提案手法は、同じデータ予算のもとで、既存のオンラインデータ選択ベースラインに比べて、収束と下流性能の両方を一貫して改善することが示されました。