LLMはどのように指示に従うのか:普遍的なメカニズムではなく、巧みな協調

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • arXivの新規研究は、一般に「instruction tuningが指示追従の汎用メカニズムを与える」と考えられている点を検証し、9種のタスクと3つのinstruction-tunedモデルで診断プロービングを実施しました。
  • 訓練横断の汎用プローブはタスク専用のモデルより性能が低く、表現の共有が限定的であることを示しています。
  • タスク間の転移は弱く、スキル類似性の塊としてクラスタリングされ、因果的アブレーションでも共通表現ではなく疎で非対称な依存関係が観測されました。
  • 複雑性の違いによりレイヤーでタスクが層化し、構造的制約は早期に、意味的タスクは後期に現れ、さらに動的モニタリングによる生成中の整合であって事前計画型の「単一の制約チェック」ではないと結論づけています。

概要: 指示チューニングは、言語モデルに領域を超えた能力として指示に従う力を付与すると一般に考えられているが、その根底にあるメカニズムは十分に理解されていない。指示追従は普遍的なメカニズムに依存しているのだろうか、それとも構成的なスキルの展開に依存しているのだろうか。我々は、3つの指示チューニング済みモデルに対して、9つの多様なタスクにまたがる診断用プロービングを行うことで、この点を調査する。
本分析は、普遍的メカニズムに反する方向での収束的な証拠を提示する。第一に、全タスクにわたって学習された汎化プローブは、タスク固有の専門家に一貫して劣っており、表現の共有が限定的であることが示される。第二に、タスク間転移は弱く、スキルの類似性によってクラスタ化される。第三に、因果的アブレーションにより、「共有表現」ではなく「疎で非対称な依存関係」が明らかになる。さらに、タスクは複雑度によって層をまたいで階層化されており、構造的制約は早期に現れ、意味的タスクは後期に現れる。最後に、時間的分析によって、制約充足は生成の事前に計画するというよりは、生成中の動的なモニタリングとして機能していることが示される。
これらの知見は、指示追従が、単一の抽象的な制約チェック処理の展開として特徴づけられるよりも、さまざまな言語能力を技能的に協調(コーディネート)することとして捉える方が適切であることを示している。

LLMはどのように指示に従うのか:普遍的なメカニズムではなく、巧みな協調 | AI Navigate