AI Navigate

WASD: LLMの挙動を説明・制御するための十分条件としての重要ニューロンの特定

arXiv cs.CL / 2026/3/20

📰 ニュースModels & Research

要点

  • WASD(unWeaving Actionable Sufficient Directives)は、十分なニューロン活性化述語を特定することでLLMの挙動を説明し、出力に対する自然言語での制御を可能にする新しいフレームワークです。
  • 候補条件をニューロン活性化述語として表現し、入力の摂動下で現在の出力を保証する最小サブセットを反復的に探索します。
  • このアプローチは、Gemma-2-2Bモデルを用いたSST-2およびCounterFact実験において、安定性・正確性・簡潔さの点で従来のアトリビューション・グラフを上回ります。
  • クロスリンガル出力生成のケーススタディは、多言語タスクに対するモデル挙動の制御におけるWASDの実践的有効性を示しています。

要旨:大規模言語モデル(LLMs)の厳密な挙動制御は、複雑なアプリケーションにとって極めて重要です。しかし、既存の手法はしばしば高いトレーニングコストを伴い、自然言語による制御性に欠けるか、意味的一貫性を損なうことがあります。このギャップを埋めるべく、我々は WASD(unWeaving Actionable Sufficient Directives)と呼ぶ新たなフレームワークを提案します。これは、トークン生成の十分な神経条件を特定することによってモデルの挙動を説明するものです。我々の手法は、候補条件をニューロン活性化述語として表現し、入力撹乱下で現在の出力を保証する最小セットを反復的に探索します。Gemma-2-2B モデルを用いた SST-2 および CounterFact の実験は、我々のアプローチが従来のアトリビューショングラフよりも安定性が高く、正確で、簡潔な説明を生み出すことを示しています。さらに、クロスリンガル出力生成の制御に関するケーススタディを通じて、モデル挙動の制御における WASD の実用的な有効性を検証しました。