小型言語モデル間における共通の感情ジオメトリ:表現・振る舞い・方法論的交絡を横断するアーキテクチャ横断研究

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、6つのアーキテクチャ(ベース vs インストラクト)にまたがり、12の小型言語モデルから抽出した21感情のベクトル表現を、統一された comprehension-mode パイプライン(fp16 精度)を用いて解析し、表現の「感情のジオメトリ」を表現類似性(cosine RDM、Spearman相関)により比較する。
  • 結果は顕著な普遍性を示す。5つの成熟したモデルファミリ(Qwen 2.5、SmolLM2、Llama 3.2、Mistral 7B、Llama 3.1)は、21感情のジオメトリがほぼ同一であり、ペアごとのRDM Spearman相関は概ね 0.74〜0.92 の範囲である。
  • この普遍性はモデルの振る舞いが強く異なる場合でも成り立つ(例:Qwen 2.5 と Llama 3.2 はMTIコンプライアンスの側面で差があるが、それでも感情表現は非常に類似しており、rho ≈ 0.81 である)。これは、行動の差は共通の感情表現層の「上側」で生じうることを示唆する。
  • 外れ値の Gemma-3 1B(ベース)は表現に極端な問題があり(残差ストリームの異方性 ~0.997)、幾何学的記述子に対して RLHF により再構成される。一方、成熟ファミリ内ではベースとインストラクトの RDM が非常に高く相関する(例:Mistral 7B v0.3 の rho ≈ 0.985)。これは RLHF が主に、まだ整理されていない表現を再形成している可能性を示す。
  • 方法論的には、著者らは先行研究の「方法効果」に関する結論は、実際には複数の要因をまとめて捉えたものだと主張している。具体的には、方法依存の解離、生成内のサブパラメータ感度、fp16 と INT8 の精度効果、さらに横断実験におけるバイアスである。そのため、単一の横断研究の類似度数(単一の rho)は、分解なしでは誤解を招く恐れがある。