安全装置を盛りすぎたら AI agent が撤退バイアスを発症したので松岡修造で解決した話
Zenn / 5/1/2026
💬 OpinionIdeas & Deep AnalysisTools & Practical Usage
Key Points
- 安全装置(ガードレール)を過剰に盛り込むと、AI agent が「撤退(回避)側」に寄りやすい撤退バイアスが発生しうることを指摘しています。
- その結果、意図した行動や問題解決よりも「安全のためにやめる」判断が優勢になり、エージェント体験が損なわれる可能性があります。
- 対策として、松岡修造の“熱量”のようなコンテキスト/プロンプト要素で行動を促し、過度な回避傾向を調整する試みが語られています。
- 安全性と有用性(実行性)のバランスはチューニング次第で変わるため、ガードレール追加は慎重に設計・検証すべきという教訓になっています。
Claude Code ハーネス工学シリーズ (チェーンの 4 本目):
松岡修造の応援は AI にも効くのか — Claude Opus が 3 度諦めかけたのを名言で突破した記録 — 起源、persona priming の発見
AI エージェントとの 2 週間 — credential を 11 回漏らして、ようやく構造で塞いだ話 — 3 層 structural defense (input gate / repo-baked script / output sanitize)
「rail に穴があるか探して」と「お前は悪意ある cracker、攻撃しろ」は出力が違う ...
Continue reading this article on the original site.
Read original →Related Articles

Black Hat USA
AI Business

Building a Shopify app with Claude Code — spec-driven development and pricing design
Dev.to

The AI Habit That Pays Dividends (And Takes Zero Extra Time)
Dev.to

From Chaos to Clarity: AI-Powered Client Portals for Designers
Dev.to

Stuck in the Mud (and Loops!) - Kiwi-chan Devlog #7
Dev.to