ターゲット志向の事前学習データ選択を神経(ニューロン)活性化グラフで行う手法

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、オフ・ザ・シェルフのLLMにおけるニューロン活性のパターンを用いて、ターゲット志向の言語モデル事前学習データを選択するための、学習不要かつ解釈可能な手法「Neuron-Activated Graph(NAG)Ranking」を提案する。
  • 重要度の高いニューロンを層をまたいで選び、コンパクトなNAGとして構築したうえで、NAG類似度にもとづいて候補データをターゲット例にどれだけ近いかで順位付けする。
  • 6つのベンチマークで検証した結果、ターゲット志向の事前学習でランダムサンプリングに対して平均4.9%の改善を示し、HellaSwagではSOTA基準より5.3%高い精度を達成する。
  • より実用的なマルチターゲット設定でも有効であり、最良構成は2つのベースラインをそれぞれ1.1%と4.1%上回る。
  • 解釈可能性の分析として、NAG選択されたニューロン(全体の0.12%のみ)を無効化すると23.5%の性能崩壊が起き、NAGを最終層に限定すると平均4.1%の低下が生じることを示し、ターゲット特徴学習のための疎な「機能的バックボーン」を捉えていることを示唆する。

Abstract

日常的なタスクには目標があり、その目標に基づいて事前学習モデルを行うことが、それらを専門家へと変えるものです。本論文では、Neuron-Activated Graph Ranking(NAGベースのランキング)を導入することで、目標指向型言語モデル(LM)の事前学習を研究します。これは、学習不要(training-free)かつ解釈可能な、目標事前学習データ選択のための枠組みです。ブラックボックス表現を用いるのではなく、私たちの手法は、汎用の既製LLMの中で、各目標入力を「高インパクトなニューロン」の疎な集合として直接特徴づけます。具体的には、ニューロンの影響度を定量化し、層をまたいで最も影響力のあるニューロンをコンパクトなNeuron-Activated Graph(NAG)へまとめ、候補データを目標例とのNAG類似度にもとづいてランキングします。6つのベンチマークにおける実験を行った結果、NAGベースのランキングは、ランダムサンプリングに比べて目標指向型の事前学習を平均4.9%改善し、またHellaSwagでは精度で最先端のベースラインを5.3%上回ります。さらに、より適用しやすいマルチターゲット設定のもとでも有効であり、私たちの最良の構成はそれぞれ2つのベースラインを1.1%および4.1%上回ります。加えて、NAGがなぜ、そしてどのように機能するのかについて包括的な分析も提供します。たとえば、NAGによって選択されたニューロン(全体の0.12%のみ)を非活性化すると23.5%の性能崩壊が起こり、NAGを最終層のみに制限すると平均で4.1%の低下が生じます。これは、NAGが学習のための目標特徴を捉える疎な「機能的バックボーン」を表していることを示唆します。コードは https://github.com/asillycat/NAG で公開します。