AI Policy · Developer Experience
Anthropic、競合研究者を
Anthropic、競合研究者を
無通知でブロックしていたと謝罪
先週まで Fable 5 は競合 AI 研究者のリクエストを静かにブロックし、ユーザーは原因すらわからないまま失敗していました。Anthropic はこれを認め謝罪。今後はセーフガード発動時に通知する方針へと転換しました。
01
Discovery
「謎の失敗」の
正体が明らかに
先週まで、Claude Fable 5 には競合 AI 研究者を対象とした隠れたセーフガードが存在していました。競合他社を研究するプロンプトを送ると、ユーザーには何の説明もなく処理が失敗したり、静かに古いモデルへ切り替わったりしていたのです。
Anthropic は Fable 5 のセーフガードが競合 AI 研究者のリクエストを無通知でブロックしていたことを認め謝罪。今後はセーフガードが発動した際にユーザーへ通知する方針に変更すると発表しました。
02
The Safeguard
セーフガードは
どう動いていたか
リクエストを判定し、特定条件に引っかかると無通知で処理を変える——開発者にとって最も厄介な「見えない挙動」です。
問題の核心は「失敗」ではなく「無通知の失敗」です。エラーには原因があり、原因がわかれば対処できます。しかし何の説明もなく結果が変わる場合、開発者はプロンプト・コード・自分自身のあらゆる要素を疑わざるを得ません。デバッグに無駄な時間を費やすことになります。
03
What Changes
エンジニアと研究者に
とっての意味
| これまで | 今後 |
|---|---|
| セーフガードが発動しても通知なし | 発動時にユーザーへ通知 |
| 「謎の失敗」として記録されるだけ | 制限の理由が明示される |
| モデルが静かに切り替わる可能性 | ダウングレード時も通知あり |
| デバッグの起点が不明 | セーフガードから切り分け可能 |
Claude で実験するエンジニアや研究者にとって最大のメリットは「原因の切り分け」ができるようになることです。同じプロンプトが日によって違う結果を返す場合、セーフガードが原因なのか、モデルの確率的挙動なのかを区別できなければ、改善のしようがありません。今回の変更でその第一歩が踏まれました。