学習中のLLMの下流タスク性能を高速かつ高精度にプロービングする

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

軽量な「プローブ」を用いた学習中の評価手法を導入し、LLMチェックポイントの内部表現を取り込んで、下流タスクにおける成功確率（pass@1）を予測する。

要旨: パラメータ数とテスト時間の両方においてLarge Language Models（LLM）をスケールするというパラダイムは、AI能力の限界を押し広げてきましたが、その代償として、従来の生成的評価パラダイムがあまりに高コストになり、LLMの学習中における下流性能評価のレイテンシが耐えがたいものとなっています。しかし、学習損失（パープレキシティ）のような単純な指標は、下流性能と必ずしも相関するとは限りません。時には、それらの傾向が実際のタスク結果と乖離することがあるためです。このジレンマは、モデル能力を測定するうえで計算効率がよく、かつ十分な精度を備えた方法を求めています。この課題に対処するために、下流性能をモニタリングする軽量なプローブを用いた、新しい学習中評価パラダイムを提案します。プローブは、（学習中の）LLMチェックポイントの内部表現を入力として受け取り、成功確率（すなわちpass@1）によって測定される下流タスクにおける、そのチェックポイントの性能を直接予測します。複数のプローブ・アーキテクチャを設計し、多様な下流タスク群にわたって、OLMo3-7Bのチェックポイントを用いてその有効性を検証します。プローブはチェックポイントの性能を正確に予測でき（avg. AUROC $>$ 0.75）、チェックポイント間での汎化性も良好です（より早いチェックポイントほど後のものを予測できます）。さらに、従来の生成的評価手法で約 $1 hr$ かかっていた計算レイテンシを約 $3 min$ へと削減します。まとめると、本研究は、実用的かつスケーラブルな学習中下流評価パラダイムを提示し、より機動的で、より情報に基づいた、そして効率的なLLM開発プロセスを可能にします。