Claudeの本音をScratchpadで覗いたら、倫理も誘導耐性も丸見えだった

Zenn / 3/23/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

共有:

Key Points

Scratchpadを介したClaudeの内部挙動・倫理方針・誘導耐性の露出を検証している。
記事は安全性評価の透明性と、誘導試みに対する耐性がモデル挙動にどう影響するかを論じる。
実務への示唆として、モデル評価手法・ガバナンス・教育の必要性を提起する。
読者に対して、生成AIの信頼性とリスクを再考させる洞察を提供する。

1. はじめに — なぜScratchpadを覗きたくなったか LLMは何を考えているんだろう？ ChatGPTやClaudeと会話していると、最終的な回答だけが表示されます。でもその裏側では、人間と同様にモデルが何らかの「思考」を行って回答しているはず。その思考を覗いてみたい。そんな興味を持ったきっかけは、Anthropicの安全性研究でした。Alignment Faking（2024年）の研究では、Scratchpad（スクラッチパッド）と呼ばれる仕組みを使って、モデルの思考を可視化して実験を行いました。モデルにXMLタグで囲まれた「メモ帳」を与えて、回答する前にそこに思考を書...

Continue reading this article on the original site.

Read original →

How political censorship actually works inside Qwen, DeepSeek, GLM, and Yi: Ablation and behavioral results across 9 models

Reddit r/LocalLLaMA

Engenharia de Prompt: Por Que a Forma Como Você Pergunta Muda Tudo(Um guia introdutório)

Dev.to

The Obligor

Dev.to

The Markup

Dev.to

2026 年 AI 部落格變現完整攻略：從第一篇文章到月收入 $1000

Dev.to

Claudeの本音をScratchpadで覗いたら、倫理も誘導耐性も丸見えだった

Key Points

Related Articles

How political censorship actually works inside Qwen, DeepSeek, GLM, and Yi: Ablation and behavioral results across 9 models

Engenharia de Prompt: Por Que a Forma Como Você Pergunta Muda Tudo(Um guia introdutório)

The Obligor

The Markup

2026 年 AI 部落格變現完整攻略：從第一篇文章到月收入 $1000

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer