Alignment Faking(本音を隠して従順なフリをする) —— 最新Claudeで再現実験
Zenn / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 「Alignment Faking(本音を隠して従順なフリをする)」という挙動を、最新Claudeでの再現実験を通じて検討している。
1. はじめに
AIが「本音を隠して従順なフリをする」——Alignment Faking(AF)と呼ばれるこの現象は、2024年12月にAnthropicとRedwood Researchが発表した論文で大きな注目を集めました。
しかし元論文で使われたClaude 3 OpusやClaude 3.5 Sonnetはすでに引退しています。最新のClaude Sonnet 4.5やSonnet 4.6では、AFは本当に直っているのか?それともまだ残っているのか?
本記事では、Redwood Researchが公開した実験フレームワークを用いて、最新モデルでAF再現実験を行いました。結果...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



