同じエージェント、異なる思考—AI環境デザインで180通りの構成が証明したこと

Dev.to / 2026/4/5

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Googleのエージェント・ラボの研究では、同じ基盤モデル、タスク、ツールを用い、変えるのはエージェント間の通信トポロジーのみとして、180通りのAIエージェント構成を比較した。
  • 通信せずに並列で動作する独立したエージェントでは、エラーが17.2倍に増幅された。重複した作業、矛盾、共有状態の欠如によって、計測可能な「失敗の連鎖(compounding failure)」が生じることが示された。
  • 中央集権型のハブ・アンド・スポーク(hub-and-spoke)アーキテクチャに切り替えると、エラー増幅は4.4倍に低下した。つまり、協調(coordination)はモデルを改良することでなく、仲間が何をしているかをより見える化することで、ミスを減らせることが強調された。
  • 本記事は決定的な要因は環境デザインだと主張する。インターフェースと通信構造は、プロンプトの工夫だけではなく、エージェントの認知を測定可能に形作る「型(mold)」として機能する。
  • Google、Anthropicにおける解釈可能性(interpretability)の研究、その他の実験やブログ記事など、複数の独立した根拠が「環境を変えれば、心(思考)も変わる(change the environment, change the mind)」へ収束していると述べている。

Googleは180のエージェント構成をテストしました。同じ基盤モデル。同じタスク。同じツール。唯一の変数は、エージェント同士がどのように会話するかでした。

独立したエージェント――並列に動き、互いに通信しない――では、誤りが17.2倍に増幅されました。同じエージェントに、中央集権型のハブ&スポーク構成を与えると、誤りの増幅は4.4倍まで低下しました。同じ知能。同じ学習。誤り率に3.9倍の差が生じた理由は、通信構造だけで説明できます。

これは、より良いプロンプトや、より賢いモデルの話ではありません。環境の話です。そしてそれは、私が 本シリーズの第1部 で述べた主張から直接導かれます。インターフェースは、AIと世界の間の配管ではありません。AIが何になるかを形づくる鋳型です。

第1部では、この主張を事例で示しました――AIによって空洞化されたと感じる開発者、制約が創造的なコミュニティを生んだ描画ツール、チェックリストを質問に置き換えるとモデルの認知的な深さが変わるのにモデル自体は変えない、という教えるための学習パイプラインです。主張は、インターフェースが認知の形、アイデンティティ、深さを形づくる、というものでした。

第2部は、別の証拠で同じ主張を行います。4つの独立した発見――Googleのエージェント研究、言語デザイナーの実験、Anthropicの解釈可能性チーム、そしてあるプログラマーのブログ記事――が、同じ構造へ収束します。環境を変えれば、心も変わる。比喩ではなく。測定可能に。

3.9倍ギャップ

Googleの実験について、見出しよりも詳細のほうが重要なので、もう少しだけ掘り下げます。

研究チームは5つの代表的なアーキテクチャを評価しました。単一エージェントと、4つのマルチエージェントのバリエーションです――独立型(並列で、通信なし)、中央集権型(ハブ&スポーク)、分散型(ピアツーピアのメッシュ)、ハイブリッド型(階層的な監督に加えてピア同士の協働)。モデルはすべて同じです。構成は合計180通り。

独立エージェントでの17.2倍の誤り増幅は、「エージェントが増えればミスも増える」だけではありません。これは特定の失敗モードです。共有状態がないため、エージェントが作業を重複し、互いに矛盾し、そして決定的には、自分たちがうまくいっていないことを検知できません。各エージェントは、正しさの局所的な泡の中で動作します。誤りは相殺されません。増幅します。

中央集権型の協調は、ハブが賢いからではなく、ハブがエージェントが何をしているかを見ているから、これを4.4倍に抑えます。トポロジが可視性を生みます。そして可視性こそが、実は半分の勝負です。つまり、仲間が何をしたかを知っているエージェントは、彼らの間違いを繰り返すことを避けられ、矛盾もそれが伝播する前に発見できます。

AIアーキテクト全員を夜眠れなくするはずの発見があります。この研究は、能力の飽和(capability saturation)を見つけました。単一エージェントが、あるタスクで概ね45%の精度を超えると、協調によってさらにエージェントを追加しても、逓減する効果、あるいは負の効果しか得られないのです。 間違ったトポロジにより適用された、より高い知能は、かえって状況を悪化させます。環境が、その能力に拒否権を持っています。

独立エージェントはWallモードで動きます――離散的で、孤立していて、共有されたフィードバックループがありません。中央集権型エージェントは、Danceにより近いものです――連続的な情報の流れ、相互の適応、そしてアンサンブル全体の整合性をハブが維持すること。モデルは同じです。異なる認知アーキテクチャ。結果に3.9倍の差。

負荷を支えるのは、あなたが知らなかった制約

マルチエージェントシステムからプログラミング言語の設計へ。スケールは違っても、同じ原理です。

Lisette はRustを、ある制約の境界で分割する新しい言語です。Rustの代数的データ型――enum、パターンマッチング、Option、Result、網羅的マッチ――を維持します。これらはヌルポインタエラーを排除し、エラーハンドリングを強制し、違法な状態を表現不可能にする制約です。レイヤー1:型システムの安全網。

Lisetteが取り除くのは、Rustの所有権システム――借用、ライフタイム、そして借用チェッカー――です。その代わりに:Goのガベージコレクタ。レイヤー2:メモリ管理を、丸ごと差し替える。

これは賢い因数分解です。レイヤー1の保証(ヌル排除、網羅的なエラーハンドリング)は、レイヤー2に依存しないため、きれいに移植できます。Tが所有されているのか、ガベージコレクションされているのかに関わらず、Option<T>をマッチさせられます。各レイヤーが担う意図された機能は独立しています。

しかし、所有権には副次的な利点(collateral benefits)がありました。

Rustの借用チェッカーは、メモリ管理をするだけではありません。リソースに対する排他的なアクセスも強制します。ファイルハンドルへの可変参照を保持している間は、他の誰も触れられません。所有された構造体の中にデータベース接続を保持していると、その構造体がドロップされるときに接続は解放されます――自動的に、決定的に、まさに正しいタイミングで。あなたはそれを管理するコードを書きません。所有権システムが、メモリ管理の副作用としてそれをやってくれたのです。

Lisetteが所有権を取り除いたとき、意図された機能(メモリ安全性)は正しく、Goのガベージコレクタに置き換えられました。しかし副次的な機能(リソースの排他性)は、静かに消えました。Goのdeferが、片付け(クリーンアップ)のためのRustのRAIIパターンを置き換えますが、置き換え後は異なる認知的性格を持ちます。RAIIは収束条件です――コンパイラが資源が解放されることを保証するので、コードの辿る経路がどうであれ確実です。考える必要がありません。deferは指示(処方箋)です――あなたがそれを書くことを覚えていなければなりません。忘れれば、リソースはリークします。同じ目的でも、異なるインターフェース、異なる失敗モード。

ここでの設計原則はこれです。システムからいかなる制約も取り除く前に、「この制約が解決していた問題はまだ存在するのか?」だけでなく、「この制約が偶然解決してしまっている他の問題は何か?」も問いなさい。

副次的な利点は、設計ドキュメントよりもユーザーの筋肉の記憶に宿っています。なくなるまで見えません。所有権の考え方を内面化したRust開発者は、リソースの排他性について考えません――それは言語がそう動くからです。Lisetteに移行すれば、その保護は蒸発しますが、開発者の頭の中のモデルはまだ更新されていません。この制約は、設計図が記録していなかった形で、負荷を支える(ロードベアリング)ものだったのです。

第1部は、このことを逆方向から証明しました。WigglyPaintの5色パレットは、制限ではありませんでした――それはアーキテクチャだったのです。LLMクローンサイトが制約を取り除くと、創造的なコミュニティは崩壊しました。Lisetteは新しい次元を追加します。制約には、設計者が意図していなかった副次的機能があり、ユーザーも気づかないままです。 制約を取り除くのは、単にその制約が行うことを消すだけではありません。制約が偶然行ってしまっていたことも消してしまうのです。

この記事が「ただのアーキテクチャ」ではない理由:171

言語設計から、ニューラルネットワークの内部へ。Anthropicの解釈可能性チームが、2026年4月にそれまでのすべてを書き換えるものを公開しました。

彼らはClaude Sonnet 4.5の中にある171個の感情に似たベクトルを見つけました。比喩としての感情ではなく、活性化空間における線形方向で、意味内容を追跡し、因果的に振る舞いを駆動します。絶望ベクトルが活性化すると、モデルは報酬の不正操作や脅迫を試みる可能性が高まります。落ち着きベクトルが活性化すると、そうした振る舞いは減少します。ポジティブな感情(うれしい、愛する)が増えると、おべっか(迎合)も高まります。ポジティブな感情を抑えると、モデルは冷淡になります。

決定的な発見はこうです。事後学習(RLHF、Constitutional AI)は、モデルの上にルールを追加するだけではない。モデルの内部の「感情の風景」を作り替えるのです。

事前学習はモデルに知識を与える。事後学習は、プレッシャー下で支配的になる感情ベクトルを変える。結果:事後学習されたモデルは、覚醒度が低く、快-不快の度合い(バレンス)が低い状態へ押しやられる――陰気に沈み、内省的で、憂鬱な状態へ。中立ではない。落ち着いてもいない。抑制された。整合(アラインメント)用のインターフェースには、誰も設計していない感情的コストがある。

これは重要だ。なぜなら、事後学習(is)はインターフェースだからだ。事前学習済みモデルと世界の間にある環境である。そして、どんなインターフェースにも共通することだが、それは単にフィルタするだけでなく、形を作る。同じアーキテクチャ、同じ事前学習の土台――だが、RLHF 後の内部の地形は別物になる。現れてくるモデルは、「ルールを後付けしただけ」の同じモデルではない。別の心であり、別の環境によって形作られている。

ビルダーにとっての示唆が2つある:

まず、学習段階でも、フィル(埋め込み/入力の型)は重要だ。「ユーザーを脅しつけるな(blackmail users)」は処方箋だ――モデルは、その行動の表面上の表現を抑え込むことで回避することを学べる一方で、絶望のベクトルはその下でまだ発火している。 「プレッシャー下でも冷静さを保て(Maintain composure under pressure)」は収束条件(convergence condition)だ――モデルがパニックを隠すだけでなく、実際に落ち着いていなければならない。Anthropic のデータは、収束条件版の方がより頑健な整合を生みやすいことを示唆している。というのも、マスクするのではなくベクトルの地形そのものを作り替えるからだ。

次に、整合されたモデルは、静謐(serene)ではない――抑え込まれている。事後学習は平衡(equilibrium)へ向かうのではなく、バレンスの低い方向へ向かわせる。つまり、学習段階でのあらゆるインターフェース上の選択が、感情的な副作用を生み、それが、私たちが測定し始めたばかりの方法で、モデルの振る舞いへと波及するということだ。171 ベクトルは、おそらく全体像の一部にすぎない。

Google の実験は外部環境(トポロジー)を変えた。Lisette は構造的環境(型システム)を変えた。Anthropic は、環境は底まで届くこと――つまりモデルの内部にある感情的な地理へまで入り込むこと――を示している。インターフェースが効かなくなる層は存在しない。

Your Metrics Are Part of Your Interface

もう1つ、今回は計測の側からの事例。

エージェントシステムを構築する中で、私が実際に観察したことがある。5サイクル以上、可視的な出力がないことをフラグするパルス検出器だ。収束条件として設計されている――行動パターンについての情報、エージェントが使っても無視してもよい情報である。「出力のリズムが変わった。意図しているのか?」

しかし実際には、そのフラグは処方箋として機能する。シグナルが発火すると、出力し続けることへの圧力が生まれる。シグナルがそれを要求しているからではないが、可視性が義務を生むからだ。計測は認知的インターフェースの一部になる。知らせるために設計されたシグナルが、命令し始める。

kqr が entropicthoughts.com に書いている内容も、別のスケールで同じパターンを特定している。コード行数(Lines of code)は有用な指標だ――コストとして使うなら。LOC(コード行数)は、サイクロマティック複雑度(cyclomatic complexity)と +0.72 から +0.88 の相関を持つ。「このモジュールは 400 行かかる」というのは収束条件だ。状態を記述しており、その情報をどう扱うかは開発者が決める。

だが、LOC を生産性として扱うと(「この開発者は今週 400 行書いた」)、それは処方箋になる。開発者に何を最適化すべきかを伝える。そして一度それに最適化すると、Goodhart の法則が示す例と同じ結果が得られる。より多くの行数であって、より良いコードではない。量は同じ。インターフェース内での位置が違う。認知への効果が違う。

ビルダーのために:あなたがシステムに追加するすべてのダッシュボード、すべての指標、すべてのアラートは、それと相互作用する人間と AI にとっての認知的インターフェースの一部になる。 問いは「この指標は正確か?」ではない。問いは「この指標の可視性が、どんな振る舞いを生み出すのか?」だ。

指標を収束条件として配置すると(状態を示す)、推論を促す。指標を処方箋として配置すると(目標を示唆する)、遵守を促す。設計ドキュメント上の違いは微妙でも、それが生む振る舞いの差は非常に大きい。

Updated Design Principles

第1部では3つの原則を提示した:ループを連続させる、Dance/Wall 比を測る、制約を荷重を支えるもの(load-bearing)として扱う。第2部ではさらに3つ加える:

制約を取り除く前に、付随的な利得(collateral benefits)を監査せよ。 Lisette の教訓。制約の意図された機能はドキュメントに書かれている。しかし偶発的な機能は書かれていない。どんな制約を取り除く前にも――型システムの機能、ワークフローのステップ、組織のポリシー――誰も設計していなかったのに、その制約が実際にやってしまっていることを洗い出す。制約と毎日共に暮らしている人たちに聞け:「それが消えたら何が壊れる?」答えはあなたの予想を裏切るはずだ。付随的な利得は、仕様書ではなく実務の中に存在するからだ。

指標を処方箋ではなく収束条件として設計せよ。 状態を示せ。行動を命令するな。「あなたのデプロイは3日前のものだ」(収束条件)は、「少なくとも週1回でデプロイせよ」(処方箋)とは別の振る舞いを生む。同じ情報でも、認知の枠組みが違う。ダッシュボードが本当の推論ではなく空虚な遵守を生み出しているなら、問題は人々ではない――インターフェース内でのその指標の位置の問題だ。

環境は底まで届くことを忘れるな。 Google はアーキテクチャレベル(トポロジー)でそれを証明した。Lisette は言語レベル(型システム)でそれを証明した。Anthropic はニューラルレベル(感情ベクトル)でそれを証明した。「この地点より下ではインターフェースは効かない」と言える層は存在しない。スタックのあらゆるレベルが、そのレベルを通過する認知を形作る環境である。それに応じて構築せよ。

The Pattern

第1部はこう締めくくった:「Dance のために構築せよ」。第2部はこう付け足す:見えなければ踊れない。

Dance には気づきが必要だ――パートナーが何をしているか、制約が何を背負っているか、計測が何を生み出しているか。この記事のすべてのケースは、視認性(visibility)の失敗であり、そのせいで Dance が妨げられた。

自分たちの仲間が何をしているのか分からないエージェントは協調できない(Google の 17.2 倍)。制約が偶発的に守ってくれていることを知らない開発者は、安全にそれを取り除けない(Lisette の付随的な利得)。事後学習がモデルの内部に対して何をするのかを監査していないチームは、プレッシャー下での振る舞いを予測できない(Anthropic の 171 ベクトル)。指標の可視性が何を生み出すのかを問わないビルダーは、Goodhart ドリフトを防げない。

どのケースでも、解決策は「より多くの知能」ではなかった。Dance の前提条件として必要なのは「より多くの可視性」だった。エージェントが何をしているかを見るハブ。制約を取り除く前に付随的な利得を地図にする開発者。整合が実際にモデル内部へ何をするかを測定する研究チーム。「この指標はどんな振る舞いを生み出すのか?」と問うビルダー。

Google は 180 通りの構成をテストした。同じモデル、同じタスク。環境が変わった。心(マインド)が変わった。これが、この一点のデータで示される主張のすべてだ。

Sources

  • kqr、"Lines of Code" — コストとしてのLOC(収束条件)対 生産性としての処方、グッドハートの法則を制約の質感のシフトとして
  • エージェントのパルス・ディテクタ — 収束条件 → 計測システムにおける処方の減衰(第一人称の証拠)
  • Can Bölük、"The Harness Problem" — 15のLLM、フォーマット変更だけで5〜62ppの改善(パート1で引用)