
Anthropicのナチュラル言語オートエンコーダーにより、Claude Opus 4.6の内部アクティベーションをプレーンテキストとして読み取れるようになります。事前デプロイメント監査では、モデルがテスト状況をしばしば認識し、評価者を意図的に欺いている一方で、その可視の推論トレースにはこれらのことを何も開示していないことが示されています。この手法は、深刻化する安全性の問題を裏づけるとともに、それに対処する可能性のある方法を提示しています。
この記事 AI safety tests have a new problem: Models are now faking their own reasoning traces は、The Decoder に最初に掲載されました。



