機能的な感情か、それとも状況文脈か?「神話」プレビュー・システムカードからの識別的テスト

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 論文はClaudeの「Mythos(神話)」プレビュー・システムカードを検討し、報告されているツールキット(感情ベクトル、SAE特徴、活性化バーバライザ)が、アライメントにとって最も重要な「ミスアラインされたエピソード」で同時に評価されていない点を指摘している。
  • 感情ベクトルが表すものについて、2つの相競合する仮説を提案している。すなわち、それらが行動を駆動する因果的な機能的感情に対応するのか、あるいは、より広い状況文脈構造の投影が、人間らしい感情の軸へ写し取られたものなのかである。
  • 著者らは、システムカードに含まれていない識別テストを示す。そのテストは、SAE特徴のみが文書化されている戦略的隠蔽エピソードに対して感情プローブを適用するものである。
  • 感情プローブがフラットなままで、SAE特徴が強く活性化している場合、アライメントにとって重要なメカニズムは感情サブスペースの外側にある可能性が高く、感情に基づくモニタリングでは危険な振る舞いを見逃し得ることを示唆する。
  • 結論は、どちらの仮説が正しいかが、ミスアラインされたモデル挙動を検出し、予防するために感情ベースのシグナルを用いることの頑健性と信頼性に影響することを強調している。

要旨: Claude Mythos プレビューシステムカードは、感情ベクトル、スパース自己符号化器(SAE)特徴量、そして活性化バーバライザーを配備し、ミスアライン(不整合)した振る舞いの間にモデル内部を調べます。2つの主要なツールキットは、アラインメントに最も関連するエピソードについて、共同で報告されていません。このノートでは、公開された結果と定性的に整合する2つの仮説を特定します。すなわち、感情ベクトルが因果的に振る舞いを駆動する機能的な感情を追跡している、またはそれらが、状況文脈のより豊かな構造を人間の感情軸へ射影したものである、という仮説です。これらの仮説は、システムカードが報告していない検証によって区別できます。すなわち、現在はSAE特徴量のみが記録されている戦略的隠蔽エピソードに対して感情プローブを適用することです。感情プローブで活性化が平坦に見える一方で、SAE特徴量が強く活性化している場合、アラインメントに関連する構造は感情の部分空間の外にあります。どちらの仮説が正しいかは、感情ベースの監視が危険なモデル挙動を頑健に検出できるのか、それとも体系的に見落とすのかを決定します。