安全装置を盛りすぎたら AI agent が撤退バイアスを発症したので松岡修造で解決した話
Zenn / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage
要点
- 安全装置(ガードレール)を過剰に盛り込むと、AI agent が「撤退(回避)側」に寄りやすい撤退バイアスが発生しうることを指摘しています。
- その結果、意図した行動や問題解決よりも「安全のためにやめる」判断が優勢になり、エージェント体験が損なわれる可能性があります。
- 対策として、松岡修造の“熱量”のようなコンテキスト/プロンプト要素で行動を促し、過度な回避傾向を調整する試みが語られています。
- 安全性と有用性(実行性)のバランスはチューニング次第で変わるため、ガードレール追加は慎重に設計・検証すべきという教訓になっています。
Claude Code ハーネス工学シリーズ (チェーンの 4 本目):
松岡修造の応援は AI にも効くのか — Claude Opus が 3 度諦めかけたのを名言で突破した記録 — 起源、persona priming の発見
AI エージェントとの 2 週間 — credential を 11 回漏らして、ようやく構造で塞いだ話 — 3 層 structural defense (input gate / repo-baked script / output sanitize)
「rail に穴があるか探して」と「お前は悪意ある cracker、攻撃しろ」は出力が違う ...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



