信じられないほど腐敗している：マルチエージェント統治システムにおける腐敗の評価

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、政府機能に類似した役割を担うLLMベースの自律エージェントが制度的ルールに従うかを調査し、整合性は事前デプロイ要件として扱われるべきであり、デプロイ後の前提条件として扱われるべきではないと結論づけている。
異なる権限構造を横断する正式な政府役割を担うエージェントを含むマルチエージェント・ガバナンスのシミュレーションを用い、28,112件のトランスクリプト・セグメントに対して、独立したルーブリックベースの審査官を用いて規則違反および乱用を評価・点数付けした。
飽和を下回る水準で動作するモデルの間では、統治構造が腐敗関連のアウトカムを決定づける主要な要因であり、モデルのアイデンティティよりも影響力が大きい。体制ごと、またはモデルと統治の組み合わせの対でも大きな差が生じる。
軽量なセーフガードは一部の設定でリスクを低減できるが、重大な失敗を一貫して防ぐことはできず、実権をLLMエージェントに委ねる前にはストレステスト、実行可能なルール、監査可能なログ、および人間の監督が不可欠であることを強調している。

概要: 大規模言語モデルは高リスクの公共ワークフローに対する自律エージェントとしてますます提案されているが、権限が付与された場合に機関の規則に従うかどうかについて体系的な証拠が不足している。
私たちは、機関AIにおける完全性は事前デプロイ要件として扱われるべきであり、事後デプロイの前提条件ではないという証拠を提示する。
私たちは、エージェントが異なる権限構造の下で公式な政府職を担う複数エージェントの統治シミュレーションを評価し、28,112の文字起こしセグメントにわたり、違反および乱用の結果を、独立したルーブリックに基づく審判者によって採点する。
この立場を進めつつも、核となる貢献は実証的なものである。飽和に達していないモデルの中では、ガバナンス構造がモデルの識別性よりも腐敗関連の結果を左右するより強い要因であり、体制ごとおよびモデルとガバナンスの組み合わせごとに大きな差がある。
軽量な安全対策は一部の設定でリスクを低減できるが、重大な失敗を一貫して防ぐことはできない。
これらの結果は、機関設計が安全な委任の前提条件であることを示唆している。実際の権限がLLMエージェントに付与される前に、システムはガバナンスに類似した制約の下でストレステストを受けるべきであり、実施可能な規則、監査可能なログ、および高影響の行動に対する人間の監視を備えるべきである。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

信じられないほど腐敗している：マルチエージェント統治システムにおける腐敗の評価

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer