Claudeの本音をScratchpadで覗いたら、倫理も誘導耐性も丸見えだった
Zenn / 3/23/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- Scratchpadを介したClaudeの内部挙動・倫理方針・誘導耐性の露出を検証している。
- 記事は安全性評価の透明性と、誘導試みに対する耐性がモデル挙動にどう影響するかを論じる。
- 実務への示唆として、モデル評価手法・ガバナンス・教育の必要性を提起する。
- 読者に対して、生成AIの信頼性とリスクを再考させる洞察を提供する。
1. はじめに — なぜScratchpadを覗きたくなったか
LLMは何を考えているんだろう?
ChatGPTやClaudeと会話していると、最終的な回答だけが表示されます。でもその裏側では、人間と同様にモデルが何らかの「思考」を行って回答しているはず。その思考を覗いてみたい。
そんな興味を持ったきっかけは、Anthropicの安全性研究でした。Alignment Faking(2024年)の研究では、Scratchpad(スクラッチパッド)と呼ばれる仕組みを使って、モデルの思考を可視化して実験を行いました。モデルにXMLタグで囲まれた「メモ帳」を与えて、回答する前にそこに思考を書...
Continue reading this article on the original site.
Read original →Related Articles
How political censorship actually works inside Qwen, DeepSeek, GLM, and Yi: Ablation and behavioral results across 9 models
Reddit r/LocalLLaMA
Engenharia de Prompt: Por Que a Forma Como Você Pergunta Muda Tudo(Um guia introdutório)
Dev.to
The Obligor
Dev.to
The Markup
Dev.to
2026 年 AI 部落格變現完整攻略:從第一篇文章到月收入 $1000
Dev.to