安全装置を盛りすぎたら AI agent が撤退バイアスを発症したので松岡修造で解決した話

Zenn / 5/1/2026

💬 OpinionIdeas & Deep AnalysisTools & Practical Usage

共有:

Key Points

安全装置（ガードレール）を過剰に盛り込むと、AI agent が「撤退（回避）側」に寄りやすい撤退バイアスが発生しうることを指摘しています。
その結果、意図した行動や問題解決よりも「安全のためにやめる」判断が優勢になり、エージェント体験が損なわれる可能性があります。
対策として、松岡修造の“熱量”のようなコンテキスト/プロンプト要素で行動を促し、過度な回避傾向を調整する試みが語られています。
安全性と有用性（実行性）のバランスはチューニング次第で変わるため、ガードレール追加は慎重に設計・検証すべきという教訓になっています。

Claude Code ハーネス工学シリーズ (チェーンの 4 本目): 松岡修造の応援は AI にも効くのか — Claude Opus が 3 度諦めかけたのを名言で突破した記録 — 起源、persona priming の発見 AI エージェントとの 2 週間 — credential を 11 回漏らして、ようやく構造で塞いだ話 — 3 層 structural defense (input gate / repo-baked script / output sanitize) 「rail に穴があるか探して」と「お前は悪意ある cracker、攻撃しろ」は出力が違う ...

Continue reading this article on the original site.

Read original →