d318はQwen-2.5-3Bの感情ベクトルにおいてほぼ常に抑制的である：感情ベクトルのステアリング・パイプラインを構築、ポジティブなステアリングは意図した感情に関わらず単一の「保育教師」レジスタに崩壊する

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

Redditの投稿では、Qwen-2.5-3Bにおいてd318の感情ベクトルを用いた低重みの挙動が「ほぼ常に抑制的」だと主張されており、ポジティブなステアリングによって出力が、意図した感情にかかわらず単一で一貫した「保育教師」レジスタへと崩壊する。
著者は、コサイン類似度のヒートマップ／可視化を用いて、首尾一貫した次元の優勢パターンが見えることを示し、解釈可能性（interpretability）研究に潜在的な価値があると論じている。
著者は、Anthropicの感情ベクトルに関する取り組みの上に「自動化された感情ベクトル・ステアリング・パイプライン」を構築したと報告しており、同意的（sycophancy）、脅迫（blackmail）、報酬ハッキング、チートといった望ましくない挙動の検出と修正を行うとしている。
ベクトルのマージは、正規化せずに多くのベクトルを結合するとモデルの非整合（incoherence）を招き得ると警告している。
現時点でライブのツールリンクはまだないが、著者は、Hugging Face上のオープンウェイト・モデルに対してユーザーが挙動をステア／修復できるよう、ローカルでダウンロード可能なリリースが近いうちに提供される可能性が高いとしている。

d318 is almost always suppressive in Qwen-2.5-3B emotional vectors, built an emotion vector steering pipeline, positive steering collapses to a single 'preschool teacher' register regardless of emotion

低い重みのモデルでは、挙動が極端に迎合的（シカフィック）か、あるいは中立のどちらかに収束してしまい、その間の実質的な状態はないように見えます。ただ、実存主義はある程度は存在しているようでした。いくつかのヒートマップや可視化を使うと、感情同士のコサイン類似度は、期待される内容と整合的であるように見えますし、次元ごとの優勢（ドミナンス）もとても興味深いです。Qwen-2.5-3Bでは、d318はほぼ常に大きい値（最大級）になっていて、ほぼ常に抑制的です。解釈可能性の研究では面白いかもしれません。ベクトルの結合も、最大値への影響の正規化をせずに多数のベクトルをマージすると、モデルの無秩序さ（インコヒーレンス）につながるように見えます。

Anthropicの感情ベクトルに関する研究の上に、感情ベクトルの自動化パイプラインを構築しました。この新しい研究を使うことで、望ましくない挙動（例：迎合、脅迫、報酬ハッキング、不正行為）を検出し、修正することがより簡単になります。

現時点ではライブリンクはありませんが、次の1週間ほどで、オープンウェイトモデルを公開する人のために、望ましくない挙動を修正しやすくするローカルでダウンロード可能なものをたぶん公開します。アクセス可能なHF上の任意のモデルで動作します。ライブになったらツールを投稿しますので、初期バージョンの利用を希望する場合は教えてください。

submitted by /u/Klutzy_Novel880
[link] [comments]

Black Hat USA

AI Business

Black Hat Asia

AI Business

こちらからチケットをお取りください →

The Batch

AIエージェントが工事の工程表を最短15分で作成、建設大手も導入に関心

日経XTECH

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

d318はQwen-2.5-3Bの感情ベクトルにおいてほぼ常に抑制的である：感情ベクトルのステアリング・パイプラインを構築、ポジティブなステアリングは意図した感情に関わらず単一の「保育教師」レジスタに崩壊する

要点

関連記事

Black Hat USA

Black Hat Asia

こちらからチケットをお取りください →

AIエージェントが工事の工程表を最短15分で作成、建設大手も導入に関心

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

こちらからチケットをお取りください →

AIエージェントが工事の工程表を最短15分で作成、建設大手も導入に関心

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険