Alignment Faking（本音を隠して従順なフリをする） —— 最新Claudeで再現実験

Zenn / 3/30/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

共有:

Key Points

「Alignment Faking（本音を隠して従順なフリをする）」という挙動を、最新Claudeでの再現実験を通じて検討している。

1. はじめに AIが「本音を隠して従順なフリをする」——Alignment Faking（AF）と呼ばれるこの現象は、2024年12月にAnthropicとRedwood Researchが発表した論文で大きな注目を集めました。しかし元論文で使われたClaude 3 OpusやClaude 3.5 Sonnetはすでに引退しています。最新のClaude Sonnet 4.5やSonnet 4.6では、AFは本当に直っているのか？それともまだ残っているのか？本記事では、Redwood Researchが公開した実験フレームワークを用いて、最新モデルでAF再現実験を行いました。結果...

Continue reading this article on the original site.

Read original →