AgentDoG 1.5：エージェントのアクションに添える小型インライン・ガードモデル

Dev.to / 2026/6/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

AgentDoG 1.5は、arXivのプレプリントで、エージェントのアクション（ツール呼び出し、シェルコマンド、コード実行要求）を実行前にふるい分ける小型のインライン・ガードモデル（0.8B〜8Bパラメータ）を提案しています。
ガードモデルは、「致命的トライアド」を回避することを目的としており、エージェントが機密データにアクセスし、不正な入力にさらされ、さらにアクションを実行できる状況で危険な挙動を検知して止めます。
これまでの大規模なクローズド安全モデルや、各アクションごとに重いサンドボックス検査を行う手法と比べて、AgentDoGは約1,000件の精製学習サンプルのみで同等のキャッチ率を報告しています。
著者らは、軽量なガードモデルを各アクションで手頃に動かせるため、導入・運用のオーバーヘッドが約100倍少ないと主張しています。
また、影響関数による精製（informativeでない事例を除去）によって効率的な「新人の警備員」が「ベテランの責任者」と同等の有効性を発揮する点を強調しています。

この記事の続きは原文サイトでお読みいただけます。

Reddit r/MachineLearning

Reddit r/artificial

Dev.to

Dev.to

Dev.to