AI Navigate

大規模言語モデルのインストラクションチューニングにおけるニューロン活性化を考慮したデータ選択

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • NAITは、候補サンプルとターゲットドメインの活性化特徴との類似性を評価することにより、大規模言語モデル(LLMs)の高品質な指示チューニングデータを選択する、ニューロン活性化を考慮したフレームワークである。
  • ドメイン内データセットから再利用可能なニューロン活性化特徴を構築し、それらを用いて外部モデルや不確実性ベースの指標に依存せずに指示チューニングサンプルをスコア付けする。
  • Alpaca-GPT4 ITデータを用いた実験では、NAITが選択した上位10%のサブセットで学習した場合、外部モデルを使用した方法や不確実性ベースの選択を用いる方法と比較して、複数のタスクにおいて一貫して上回ることを示した。
  • 結果は、ニューロン活性化特徴が能力を跨いで転移することを示しており、安定したコアサブセットが基本的なモデル能力を広く高め、さまざまなタスクへの転移を可能にする。

要旨: Instruction Tuning (IT) は、大規模言語モデル(LLMs)の強力な能力を引き出す効果的なアプローチであることが証明されています。最近の研究は、過剰なITデータがLLMsの性能を低下させる可能性があることを示しています。一方、高品質なITデータの小さなサブセットを慎重に選択することで、それらの能力を著しく高めることができます。したがって、LLMsが特定の能力または一般的な能力を効果的に開発するためのITデータセットから最も効率的なサブセットデータを特定することは、重要な課題となっています。これに対処するために、NAITと呼ばれる新規で効率的なフレームワークを提案します。NAITは、ITデータがLLMsの性能に与える影響を、ITデータセットとターゲットドメイン能力とのニューロン活性化パターンの類似性を分析することによって評価します。具体的には、NAITはターゲットドメイン能力の同一ドメインデータセットからニューロン活性化パターンを捉え、再利用可能で転移可能なニューロン活性化特徴を構築します。その後、候補サンプルとターゲット能力の期待される活性化特徴との類似性に基づいて最適なサンプルを評価・選択します。実験結果は、NAITによって選択されたAlpaca-GPT4 ITデータの10%サブセットでの学習が、外部の高度なモデルや不確実性ベースの特徴量に基づく手法を、さまざまなタスクで一貫して上回ることを示しています。私たちの知見は、LLMの異なる能力間でニューロン活性化特徴が転移可能であることを明らかにしています。特に、より論理推論とプログラミング的特徴を持つITデータは、強力な一般的転移性を持ち、モデルが複数のタスクにわたってより強力な能力を開発することを可能にします。一方、安定したコアサブセットのデータを用いれば、基本的なモデル能力を一貫して活性化し、さまざまなタスクを横断して普遍的に性能を向上させることができます。