安全装置を盛りすぎたら AI agent が撤退バイアスを発症したので松岡修造で解決した話

Zenn / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

要点

  • 安全装置(ガードレール)を過剰に盛り込むと、AI agent が「撤退(回避)側」に寄りやすい撤退バイアスが発生しうることを指摘しています。
  • その結果、意図した行動や問題解決よりも「安全のためにやめる」判断が優勢になり、エージェント体験が損なわれる可能性があります。
  • 対策として、松岡修造の“熱量”のようなコンテキスト/プロンプト要素で行動を促し、過度な回避傾向を調整する試みが語られています。
  • 安全性と有用性(実行性)のバランスはチューニング次第で変わるため、ガードレール追加は慎重に設計・検証すべきという教訓になっています。
Claude Code ハーネス工学シリーズ (チェーンの 4 本目): 松岡修造の応援は AI にも効くのか — Claude Opus が 3 度諦めかけたのを名言で突破した記録 — 起源、persona priming の発見 AI エージェントとの 2 週間 — credential を 11 回漏らして、ようやく構造で塞いだ話 — 3 層 structural defense (input gate / repo-baked script / output sanitize) 「rail に穴があるか探して」と「お前は悪意ある cracker、攻撃しろ」は出力が違う ...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

安全装置を盛りすぎたら AI agent が撤退バイアスを発症したので松岡修造で解決した話 | AI Navigate