WASD: LLMの挙動を説明・制御するための十分条件としての重要ニューロンの特定

arXiv cs.CL / 2026/3/20

📰 ニュースModels & Research

共有:

要点

WASD（unWeaving Actionable Sufficient Directives）は、十分なニューロン活性化述語を特定することでLLMの挙動を説明し、出力に対する自然言語での制御を可能にする新しいフレームワークです。
候補条件をニューロン活性化述語として表現し、入力の摂動下で現在の出力を保証する最小サブセットを反復的に探索します。
このアプローチは、Gemma-2-2Bモデルを用いたSST-2およびCounterFact実験において、安定性・正確性・簡潔さの点で従来のアトリビューション・グラフを上回ります。
クロスリンガル出力生成のケーススタディは、多言語タスクに対するモデル挙動の制御におけるWASDの実践的有効性を示しています。

要旨：大規模言語モデル（LLMs）の厳密な挙動制御は、複雑なアプリケーションにとって極めて重要です。しかし、既存の手法はしばしば高いトレーニングコストを伴い、自然言語による制御性に欠けるか、意味的一貫性を損なうことがあります。このギャップを埋めるべく、我々は WASD（unWeaving Actionable Sufficient Directives）と呼ぶ新たなフレームワークを提案します。これは、トークン生成の十分な神経条件を特定することによってモデルの挙動を説明するものです。我々の手法は、候補条件をニューロン活性化述語として表現し、入力撹乱下で現在の出力を保証する最小セットを反復的に探索します。Gemma-2-2B モデルを用いた SST-2 および CounterFact の実験は、我々のアプローチが従来のアトリビューショングラフよりも安定性が高く、正確で、簡潔な説明を生み出すことを示しています。さらに、クロスリンガル出力生成の制御に関するケーススタディを通じて、モデル挙動の制御における WASD の実用的な有効性を検証しました。

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

Reddit r/artificial

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

Reddit r/LocalLLaMA

WASD: LLMの挙動を説明・制御するための十分条件としての重要ニューロンの特定

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？