小規模言語モデルにおける感情表現の抽出と制御：方法論の比較

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、小規模言語モデル（1億〜100億パラメータ）の内部にある感情表現を抽出して解析する方法についての、最初の比較研究を提示する。5つの主要なアーキテクチャ系統にまたがる9つのモデルを対象に検証を行う。
感情ベクトルの抽出に関して2つのアプローチ（生成ベース vs. 理解ベース）を比較し、生成ベース手法の方が感情の分離において有意に優れていることを見出す。効果は指示チューニングとモデルのアーキテクチャによって影響を受ける。
感情表現は主に中間のトランスフォーマ層（深さの約50%）に局在することが示され、124M〜3Bのパラメータ規模にわたって不変のように見えるU字型の深さパターンに従う。
因果的なステアリング（制御）の実験により、異なる振る舞いのレジーム（外科的に精密／反復的な崩壊／爆発的な劣化）が明らかになる。それらはスケールよりもアーキテクチャによってより強く駆動されており、感情クラシファイアによって外部的に検証される（成功92%、40シナリオ中37）。
著者らはQwenにおいて、クロスリンガルな感情の絡み合いを報告している。すなわち、ステアリングによりRLHFによる抑制にもかかわらず意味的に整合した中国語トークンが活性化され、多言語展開における潜在的な安全性懸念を示唆している。

要旨: 100M～10Bパラメータの範囲にある小型言語モデル（SLM）が、生産システムをますます支えるようになっている一方で、最近フロンティアモデルで見つかった内部の感情表現をそれらが備えているのかどうかは不明である。本研究では、SLMに対する感情ベクトル抽出手法の初の比較分析を提示する。GPT-2、Gemma、Qwen、Llama、Mistralの5つのアーキテクチャ系統に属する9モデルを対象に、20の感情と2つの抽出手法（生成ベースおよび理解ベース）を用いて評価する。生成ベース抽出は、感情の分離において統計的に優れており（Mann-Whitney p = 0.007；Cohen's d = -107.5）、その優位性は命令チューニングとアーキテクチャによって調整される。感情表現は中間のトランスフォーマ層（深さの約50%）に局在し、124Mから3Bのパラメータ範囲で、アーキテクチャに不変なU字型の曲線に従う。これらの知見を4モデルに対する表現異方性（representational anisotropy）のベースラインで検証し、ステアリング実験によって因果的な行動効果を確認する。さらに、この結果は外部の感情分類器によって独立に検証されている（成功率92%、40シナリオ中37）。ステアリングは3つのレジーム（外科的：首尾一貫したテキスト変換、反復的崩壊、爆発的：テキスト劣化）を明らかにし、これらはパープレキシティ比によって定量化され、スケールではなくモデルのアーキテクチャによって区別される。Qwenでは、多言語にまたがる感情の絡み合い（entanglement）を記録する。そこでは、ステアリングがRLHFでは抑制されない、意味的に整合した中国語トークンを活性化し、多言語展開に関する安全性の懸念を高める。本研究は、オープンウェイトモデルに対する感情研究のための手法論的ガイドラインを提供し、外部の行動プロファイリングと内部表現分析を橋渡しすることでModel Medicineシリーズに貢献する。