命令チューニングされているが、より検証可能な命令追従ではない:LoRAアダプタのためのタスク横断診断

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LoRAアダプタの「名目上の」学習ラベル(例:instruction-tuned)が、同一アダプタを複数タスクで評価した際に得られる実際のタスク横断能力向上を、信頼できる形で予測できるかを検証する。
  • 著者らは、命令追従の厳密で自動的に検証可能な目標としてIFEvalを用い、その結果、名目ラベルはしばしば改善を予測できず、構成への感度が高いことや、ほぼゼロ、あるいは負のケースが存在することを示す。
  • 制御された「命令」対「数値」の例では、instruction-tunedアダプタが、対象外の数値ベンチマーク性能を劇的に改善する一方で、IFEval上の検証可能な命令追従は改善しない。これにより、「能力ドリフト」の不一致が浮き彫りになる。
  • この不一致は、タスク横断の生の性能行列で観測可能であり、著者らは新たな形式的指標を導入せず、ドリフトスコアはコンパクトな要約としてのみ用いる。
  • より広範な命令追従ベンチマークでの結果は混在し、ベンチマーク依存の傾向がある。これを踏まえ、実運用前に日常的なタスク横断評価を実施し、名目ラベルを能力の信頼できる代理指標として扱わないことを実務的な推奨として示す。

要旨: アダプタは、(例:指示チューニングのような)名目上のラベルに基づいて選択・展開されることが多く、暗黙的に「適応後にどの能力が向上するのか」を示唆します。本研究では、同一のLoRAアダプタを複数タスクにわたって評価し、名目上の学習目的が、実現されるタスク間能力の向上と確実に整合するかどうかを検証します。最も強い証拠は、IFEvalによって測定される、厳密で自動的に検証可能な指示追従に結びつきます。複数のシード、基盤モデル、LoRA設定にわたって、名目ラベルはこの検証可能な目標に対する改善を(普遍的ではないものの)反復的に予測できず、ほぼゼロ、あるいは負のケースを含む明確な設定依存性が見られます。統制された「指示対数値」設定における、最も強い事例として、指示チューニングされたアダプタは、目標外のNMベース数値ベンチマーク性能を0.133から0.632へ大幅に改善させる一方で、IFEval上の検証可能な指示追従は改善しません(ILA: 0.313から0.271; PLA: 0.250から0.143; 値は小数第3位に丸め)。この「名目(nominal)と実現(realized)の不一致」というパターンを、記述的ラベルとして能力ドリフト(capability drift)と呼びます。不一致は生のタスク間性能行列でも確認できます。ここでは、新たな正式な計測指標としてではなく、基盤となる指標と同じ単位での、簡潔な要約としてのみdrift scoreを用います。より広範な指示追従ベンチマークから得られた証拠は、ベンチマーク依存で混在しており、指示追従がどのように実装・運用されるかの不均質性を反映しています。そのため、ベンチマーク間の一致を前提とはしません。全体としての実務的な教訓は、展開前に日常的にタスク間評価を行い、名目ラベルを信頼できる能力の代理指標として扱わないことです。