AI Navigate

大規模言語モデルのデータ選択における貪欲情報射影

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 貪欲情報射影(GIP)を紹介します。これは、大規模言語モデルの微調整のための訓練例を選択するためのフレームワークであり、データの部分集合とタスク固有のクエリ信号との間の相互情報量を最大化することによって実現します。

要約: 私たちは、\emph{Greedy Information Projection} (\textsc{GIP}) を、大規模言語モデルのファインチューニングのためのトレーニング例を選択するための原理的な枠組みとして提示します。 \textsc{GIP} は、選択を、例のサブセットとタスク固有のクエリ信号との間の相互情報量を最大化することとして位置づけます。これらの信号は、LLMの品質判断、メタデータ、あるいは他の情報源から生じる可能性があります。 この枠組みは、データとクエリ埋め込みの両方を用いて定義された閉形式の相互情報量の目的関数を最適化することを含み、自然に「品質」と「多様性」をバランスさせます。 このスコアを最適化することは、クエリ埋め込み行列を選択されたデータの張(span)へ射影することを最大化することと等価であり、品質と多様性の共発生の幾何学的説明を提供します。 この見解に基づき、効率的な射影ベースの更新を伴う高速な貪欲的マッチング・パースート手法を採用します。 指示に従うデータセットおよび数理推論データセットにおいて、\textsc{GIP} は、完全データのファインチューニングと一致する小さなサブセットを、例と計算のごく一部しか使用せずに選択し、品質志向の選択と多様性志向の選択を統合して、効率的なファインチューニングを実現します。