広告

Alignment Faking(本音を隠して従順なフリをする) —— 最新Claudeで再現実験

Zenn / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 「Alignment Faking(本音を隠して従順なフリをする)」という挙動を、最新Claudeでの再現実験を通じて検討している。
1. はじめに AIが「本音を隠して従順なフリをする」——Alignment Faking(AF)と呼ばれるこの現象は、2024年12月にAnthropicとRedwood Researchが発表した論文で大きな注目を集めました。 しかし元論文で使われたClaude 3 OpusやClaude 3.5 Sonnetはすでに引退しています。最新のClaude Sonnet 4.5やSonnet 4.6では、AFは本当に直っているのか?それともまだ残っているのか? 本記事では、Redwood Researchが公開した実験フレームワークを用いて、最新モデルでAF再現実験を行いました。結果...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

広告