GIFT:指示チューニング済み言語モデルを強化するためのガイド付きファインチューニング&トランスファー

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • GIFT(Guided Fine-Tuning and Transfer)は、指示モデルを学習の途中で能動的にガイドとして活用し、最後のマージ段階だけに留めない適応手法として提案されました。
  • この手法では、事前学習済みベースモデルに対して低ランクのアダプタをファインチューニングし、指示チューニング済みモデルから得た信頼度(confidence)信号でタスク適応を誘導します。
  • 学習後、獲得したアダプタを指示チューニング済みモデルにマージして、タスク特化しつつ指示追従能力を保ったモデルを作ります。
  • 数学系および知識集約型のベンチマークで、複数のモデル系統とスケールにわたる評価の結果、GIFTは直接ファインチューニングや代表的なトランスファーベースラインを一貫して上回りました。
  • また、GIFTは頑健な汎化性能を維持しつつ、推論時のスケーリング挙動も良好であることが示されています。

概要: 指示チューニング済み言語モデルを適応させるための有望なパラダイムとして、事前学習済みの基盤モデルに対するタスク固有の更新を学習し、その後それらを指示チューニング済みモデルにマージする方法がある。しかし、既存のアプローチでは概して、指示チューニング済みモデルを、最終的なマージ段階にだけ関与する受動的なターゲットとして扱い、訓練プロセスを導くことがない。私たちは、指示モデルからのガイダンスをタスク適応に取り込む、シンプルで効率的な枠組みであるGIFT(Guided Fine-Tuning and Transfer)を提案する。GIFTでは、指示チューニング済みモデルから得られる信頼度シグナルを用いて、事前学習済み基盤モデル上で低ランク・アダプタを微調整する。学習されたアダプタはその後、指示チューニング済みモデルにマージされ、一般的な指示追従挙動を保持しつつ、タスクに特化したモデルが得られる。複数のモデルファミリおよび規模にわたって、数学的および知識集約的ベンチマークでGIFTを評価する。結果は、GIFTが直接の微調整や代表的な転移ベースのベースラインに対して一貫して優れていること、また頑健な汎化と好ましいテスト時のスケーリング挙動を維持していることを示す。