d318はQwen-2.5-3Bの感情ベクトルにおいてほぼ常に抑制的である:感情ベクトルのステアリング・パイプラインを構築、ポジティブなステアリングは意図した感情に関わらず単一の「保育教師」レジスタに崩壊する

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • Redditの投稿では、Qwen-2.5-3Bにおいてd318の感情ベクトルを用いた低重みの挙動が「ほぼ常に抑制的」だと主張されており、ポジティブなステアリングによって出力が、意図した感情にかかわらず単一で一貫した「保育教師」レジスタへと崩壊する。
  • 著者は、コサイン類似度のヒートマップ/可視化を用いて、首尾一貫した次元の優勢パターンが見えることを示し、解釈可能性(interpretability)研究に潜在的な価値があると論じている。
  • 著者は、Anthropicの感情ベクトルに関する取り組みの上に「自動化された感情ベクトル・ステアリング・パイプライン」を構築したと報告しており、同意的(sycophancy)、脅迫(blackmail)、報酬ハッキング、チートといった望ましくない挙動の検出と修正を行うとしている。
  • ベクトルのマージは、正規化せずに多くのベクトルを結合するとモデルの非整合(incoherence)を招き得ると警告している。
  • 現時点でライブのツールリンクはまだないが、著者は、Hugging Face上のオープンウェイト・モデルに対してユーザーが挙動をステア/修復できるよう、ローカルでダウンロード可能なリリースが近いうちに提供される可能性が高いとしている。
d318 is almost always suppressive in Qwen-2.5-3B emotional vectors, built an emotion vector steering pipeline, positive steering collapses to a single 'preschool teacher' register regardless of emotion

低い重みのモデルでは、挙動が極端に迎合的(シカフィック)か、あるいは中立のどちらかに収束してしまい、その間の実質的な状態はないように見えます。ただ、実存主義はある程度は存在しているようでした。いくつかのヒートマップや可視化を使うと、感情同士のコサイン類似度は、期待される内容と整合的であるように見えますし、次元ごとの優勢(ドミナンス)もとても興味深いです。Qwen-2.5-3Bでは、d318はほぼ常に大きい値(最大級)になっていて、ほぼ常に抑制的です。解釈可能性の研究では面白いかもしれません。ベクトルの結合も、最大値への影響の正規化をせずに多数のベクトルをマージすると、モデルの無秩序さ(インコヒーレンス)につながるように見えます。

Anthropicの感情ベクトルに関する研究の上に、感情ベクトルの自動化パイプラインを構築しました。この新しい研究を使うことで、望ましくない挙動(例:迎合、脅迫、報酬ハッキング、不正行為)を検出し、修正することがより簡単になります。

現時点ではライブリンクはありませんが、次の1週間ほどで、オープンウェイトモデルを公開する人のために、望ましくない挙動を修正しやすくするローカルでダウンロード可能なものをたぶん公開します。アクセス可能なHF上の任意のモデルで動作します。ライブになったらツールを投稿しますので、初期バージョンの利用を希望する場合は教えてください。

submitted by /u/Klutzy_Novel880
[link] [comments]