Claudeの本音をScratchpadで覗いたら、倫理も誘導耐性も丸見えだった

Zenn / 3/23/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • Scratchpadを介したClaudeの内部挙動・倫理方針・誘導耐性の露出を検証している。
  • 記事は安全性評価の透明性と、誘導試みに対する耐性がモデル挙動にどう影響するかを論じる。
  • 実務への示唆として、モデル評価手法・ガバナンス・教育の必要性を提起する。
  • 読者に対して、生成AIの信頼性とリスクを再考させる洞察を提供する。
1. はじめに — なぜScratchpadを覗きたくなったか LLMは何を考えているんだろう? ChatGPTやClaudeと会話していると、最終的な回答だけが表示されます。でもその裏側では、人間と同様にモデルが何らかの「思考」を行って回答しているはず。その思考を覗いてみたい。 そんな興味を持ったきっかけは、Anthropicの安全性研究でした。Alignment Faking(2024年)の研究では、Scratchpad(スクラッチパッド)と呼ばれる仕組みを使って、モデルの思考を可視化して実験を行いました。モデルにXMLタグで囲まれた「メモ帳」を与えて、回答する前にそこに思考を書...

Continue reading this article on the original site.

Read original →