LLMの中に感情と修辞（レトリック）のニューロンは存在するのか？ニューロン認識と適応的マスキングによる感情・修辞予測のステアリング

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMにおける感情と修辞の精密なニューロン単位の制御には、外部最適化に頼る従来研究よりも内部表現の仕組みの理解が不可欠だと主張している。
著者らは、6種類の感情カテゴリと4つの主要な修辞デバイスについて、ニューロン表現とそれらの関連性を体系的に調べ、従来は見落とされがちだった「修辞ニューロン」も扱っている。
関連ニューロンをより確実に特定するために多次元スクリーニングを統合したニューロン識別フレームワークを提案し、さらに因果的な機能検証を支える適応的マスキング（動的フィルタリング、減衰マスキング、フィードバック最適化）を設計している。
特定したニューロンを制御することで、ターゲット以外の文への誘導や、修辞ニューロンを活用した感情タスクの性能向上が可能になる。
5つの代表的データセットでの実験により有効性が示され、感情・修辞表現のきめ細かなステアリングに関する新しいパラダイムを提供するとしている。

要旨: 感情と修辞の正確な理解、そして制御可能な生成は、大規模言語モデル（LLM）の推論能力を高めるうえで極めて重要である。既存研究の多くは外部の最適化に依存しており、内部表現メカニズムを深く掘り下げた探索が欠けている。そのため、ニューロン単位でのきめ細かな制御（スティアリング）を実現できていない。ニューロンに関する少数の研究は感情に限られており、修辞ニューロンとそれら固有の結びつきがないがしろにされている。従来のニューロン・マスキングでも直感に反する現象が見られ、その結果、ニューロン機能の信頼できる検証が困難になっている。これらの問題に対処するために、本研究では6つの感情カテゴリと4つの中核的な修辞デバイスについて、ニューロン表現メカニズムと内在的な関連性を体系的に調査する。多次元のスクリーニングを統合するニューロン同定フレームワークを提案し、動的フィルタリング、減衰マスキング、フィードバック最適化を組み込んだ適応的マスキング手法を設計することで、ニューロン機能の因果的な検証を信頼性高く可能にする。ニューロンの制御により、非対象文への指向的な誘導を達成し、修辞ニューロンを通じて感情タスクの向上を実現する。広く用いられている5つのデータセットでの実験により、本手法の有効性が検証され、LLMにおける感情・修辞表現のためのきめ細かなスティアリングに関する新しいパラダイムを提供する。