要旨: スパース自己符号化器(SAEs)のような機械論的解釈可能性ツールは、大規模言語モデル(LLM)の中に有意義な特徴を見出せる一方で、その知見をモデル最適化のための実用的なアクションへと変換するうえでの重要なギャップが残っています。本研究では、モデル内部のタスク特徴に導かれたデータ選択が、効果的な学習戦略であるという仮説によってこのギャップを埋めます。この着想に基づき、解釈可能性に導かれるデータ選択(Interpretability-Guided Data Selection: IGDS)を提案します。IGDSは、まず周波数想起と介入によるフィルタリングによって因果的なタスク特徴を同定し、次に微調整のためにタスク特徴を最大限に活性化させる「特徴に共鳴するデータ(Feature-Resonant Data)」を選択します。Gemma-2、LLaMA-3.1、Qwen3 の各モデルにおいて、数学的推論、要約、翻訳のタスクでIGDSを検証します。実験の結果、データ効率が非常に優れていることが示されます。数学タスクでは、データの50%のみを使用して、IGDSが Gemma-2-2B において全データによる微調整を驚異的な17.4%上回ります。また、データの品質や多様性に焦点を当てた既存のベースラインを上回ることも示されています。分析により、特徴の増幅とタスク性能向上の間に強い正の相関があることが確認されます。したがってIGDSは、LLMの内部メカニズムを活用することでLLMを強化するための直接的で効果的な枠組みを提供し、私たちの主要な仮説を裏付けます。
インサイトから実行へ:大規模言語モデルにおける解釈可能性ガイド付きデータ選択の新たな枠組み
arXiv cs.AI / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、メカニスティック解釈可能性で得た知見を、LLMの微調整に使う実行可能な学習データへとつなぐInterpretability-Guided Data Selection(IGDS)を提案しています。
- IGDSは、周波数リコールや介入的フィルタリングなどの手法で因果的なタスク特徴を特定し、その特徴を最も強く活性化する「Feature-Resonant Data」を選びます。
- 数学的推論、要約、翻訳のタスクで、Gemma-2、LLaMA-3.1、Qwen3の各モデルにおいてIGDSが性能向上を示したと報告されています。
- 数学タスクでは、IGDSがGemma-2-2Bでフルデータによる微調整を17.4%上回りつつ、使用データ量を50%に抑えられたとされています。
- 分析では、特徴の増幅とタスク性能の改善に強い正の相関があることが示され、著者らの中核仮説を支持しています。




