11個のAIエージェントを2か月動かして分かったこと——メモリよりも「アイデンティティ」がボトルネックだった

Reddit r/artificial / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

著者は、ローカルで11個の持続型AIエージェントを運用する中で、メモリ不足やコンテキスト長よりも「アイデンティティ／文脈の取り違え」が最大のデバッグコストになったと述べています。
エージェントは技術的には正しい回答を返していても、関係ない質問に答えたり、範囲外の行動をしたりといった形で誤作動する可能性があるそうです。
対策として、エージェントごとにアイデンティティとメモリを分離し、passport.json（役割・目的・原則の固定情報）、local.json（上限付きのセッション履歴）、observations.json（人やエージェントに関する具体的な観察）という3つのJSONを使うことを提案しています。
著者は「アイデンティティを最初に読み込み、その後にメモリ、最後に観察を読み込む」順序が安定性に効いたと報告しており、アイデンティティがあいまいな場合は「大きく失敗」させるべきだと強調しています。
11個へのスケールには、フックによる自動コンテキスト注入、メモリが満杯になったときの自動アーカイブ、計画によるスコープの絞り込みが効いたと述べています。

今、誰もがメモリ層を積み重ねようとしています。より長いコンテキスト、より良い埋め込み、セッションをまたいだ永続的な状態。私は同じことに何週間も費やしました。

しかし、実際に私のデバッグ時間をいちばん奪った失敗モードは、メモリとは無関係でした。

それがどう見えたかというと、エージェントが技術的には正しいのに――良い推論、きれいな出力――まったく別の文脈から動いているんです。誰も聞いていない質問に答える。自分のスコープを超えた行動を取る。幻覚は起こさない。ふらつく。まるで有能な人が間違った会議に入ってしまい、違う部屋だと気づかないまま貢献し始めるような感じです。

私はローカルで11個の永続エージェントを動かしています。それぞれはドメインの専門家で――存在意義が「それ一つ」になっています。メールエージェントは、あらゆるセッション、あらゆるテスト、あらゆるバグ修正が、メッセージのルーティングの話です。スタンダーズ監査人の全ては、品質チェックのためにあります。彼らは、タスク用に設定された汎用ワーカーではありません。各エージェントは、それぞれのドメインにおける運用上の履歴を何十セッションも積み重ねていて、その履歴が仕事の質を作っています。

彼らがふらつき始めたとき、最初に思ったのは誰もが思うことでした。より良いメモリ。もっとコンテキスト。それでも何も解決しませんでした。直近50セッションを完璧に思い出すエージェントでも、セッション51で「自分が誰か」を見失います。

実際に直ったのは

私はアイデンティティをメモリから完全に切り離しました。エージェントごとに3つのファイルです。

passport.json - あなたは誰か。役割、目的、原則。めったに変わりません。これはアンカーです。

local.json - 何が起きたか。ローリングするセッション履歴、重要な学び。いっぱいになったら上限とトリミングで切り詰めます。

observations.json - あなたが一緒に働く人間やエージェントについて気づいたこと。たとえば「gitエージェントは大きな差分に対して2回リトライが必要」や「技術的主張に関する品質監査が行き過ぎて補正してしまう」といった具体的なものです。エージェント自身が、実際に起きたことに基づいてこれを書き込みます。

アイデンティティを最初に読み込み、その後にメモリ、最後にobservationsです。この順序が重要です。アイデンティティファイルを先に読み込むことで、履歴が何かしら投入される前に、エージェントには安定した参照点ができます。

メールルーティングエージェントが、この最も鋭い形を学びました。アイデンティティが曖昧だと、間違った送信者からのメッセージをルーティングしてしまうんです。解決策は、より良いルーティングロジックではありませんでした。次のようにすることでした――アイデンティティが不明確なら大きく失敗する（fail loud）。誤ったアイデンティティは、沈黙よりも悪い。

ファイルだけでは足りなかった

3つのJSONファイルは役立ちましたが、数個のエージェント以上にはスケールしませんでした。実際に11個動くようになったのは、どれも「システム全体」を理解する必要がなかったからです。フックが毎セッション自動でコンテキストを注入します――プロジェクトのルール、ブランチの指示、現在の計画。1つのコマンドで、どのエージェントにも到達できます。メモリはいっぱいになったら自動アーカイブされます。計画（プラン）が作業を絞り込み、エージェントがコンテキストに自分の全履歴を抱え込まないようにします。

このシステムは失敗から学びました。エージェントはローカルのメールシステムを通して連絡します――互いにタスクを送り、ステータス更新を送り、バグ報告をします。あるエージェントが全ログをエラーについて監視します。何かを見つけたら、そのドメインを所有するエージェントにメールを送り、調査するよう起こします。エージェント同士が直し合います。メモリエージェントは、単一のロールオーバー境界条件を直すために3セッションを反復しました。出荷するたびに新しいエッジケースを観測し、改善しました。これらは冷たい部品（コールドモジュール）ではありません。壊れますし、互いに修正を手伝い、良くなっていきます。だからこそ、システムは今の場所まで到達できたのです。

11個のエージェントは不要

私のセットアップの11個のエージェントは、フレームワークそのものを維持しています。そこがリファレンス実装です。ですが、サイドプロジェクトなら1つのエージェントから始めることもできます――アイデンティティとメモリだけで、明日、自分がどこで止めたかから再開する。チームが必要？バックエンドエージェント、フロントエンドエージェント、デザインリサーチャーを追加します。エージェント3つで同じパターン、同じコマンド。あるいは、大きなシステムなら30までスケールできます。新しいエージェントを追加するのは「1つのコマンド」と「同じ構造」です。

これで解決できないこと

この全ては、1台のマシン上でローカルに動かしています。ホスト環境でアイデンティティのふらつきが同じように見えるかどうかは分かりません。もしAPIの裏側でステートレスなエージェントを動かしているなら、あなたの環境では問題が存在しないかもしれません。

小さなプロジェクト、小さなコミュニティ、成長中です。パターン自体は小さくて盗むのに十分です――3つのJSONファイルと慣習（コンベンション）。ただし、大規模でエージェント同士を一貫させ続けるシステムが、本当の作業を生み出した部分です。

pip install aipass と、2つのコマンドで動くエージェントが手に入ります。 .trinity/ ディレクトリはアイデンティティ層です。

他の人も、エージェントのセットアップでアイデンティティをメモリから分離しようと試しましたか？他のアーキテクチャでも順序が重要なのか、それともこのシステムが進化していく過程の単なる副産物なのか、気になります。

submitted by /u/Input-X
[link] [comments]

Black Hat USA

AI Business

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

日経XTECH

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力

日経XTECH

リーガル・インサイト活用の変革：AIツール導入で避けるべき7つのミス

Dev.to

法務インサイトの変革：従来型とAI駆動型リサーチの比較

Dev.to

11個のAIエージェントを2か月動かして分かったこと——メモリよりも「アイデンティティ」がボトルネックだった

要点

関連記事

Black Hat USA

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力

リーガル・インサイト活用の変革：AIツール導入で避けるべき7つのミス

法務インサイトの変革：従来型とAI駆動型リサーチの比較

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

光電融合の業界地図、AI需要で「バブルの様相」 日本は光源に強み

先端防衛網を突破、航続距離2倍 イラン製格安軍事ドローンの破壊力

リーガル・インサイト活用の変革：AIツール導入で避けるべき7つのミス

法務インサイトの変革：従来型とAI駆動型リサーチの比較

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

先端防衛網を突破、航続距離2倍イラン製格安軍事ドローンの破壊力