CoE：エージェント型マルチLLMシステムにおける不確実性定量化のための協調エントロピー（Collaborative Entropy）

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、マルチLLMシステムにおける現行の不確実性推定の限界を指摘する。具体的には、多くの手法は各モデル内の不確実性を測定するものの、コラボレーションにおけるモデル間の意味的な不一致を捉えられていない。
協調エントロピー（CoE）を導入する。これは、共有する意味クラスタ空間上で定義された統一的な情報理論的指標であり、モデル内の意味エントロピーと、アンサンブル平均に対するモデル間のダイバージェンスを組み合わせる。
CoEは、加重アンサンブルの予測子ではなく、システム全体の不確実性指標として位置付けられており、複数のLLM間における協調的な確信と不一致を定量化することを目的とする。
著者らは、CoEの主要な理論的性質（完全な意味的コンセンサスの下で不確実性がゼロになり、非負であることなど）を解析し、モデルごとの崩壊がデルタ分布に至るといったエッジケースでの挙動も検討する。
LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、Mistral-7B-Instructを用いて、TriviaQAおよびSQuADで実験を行う。結果として、CoEは標準的なエントロピー／ダイバージェンス基準よりも不確実性推定を改善し、より多くの異種モデルを追加するほど改善幅が大きくなることが示される。また、学習を行わない（training-free）CoE誘導の協調（コーディネーション）ヒューリスティックの有効性も示される。

Abstract

マルチLLMシステムにおける不確実性推定は、いまだに概ね単一モデル中心のままです。既存手法は各モデル内で不確実性を定量化しますが、モデル間にまたがる意味的な不一致を十分に捉えていません。このギャップに対処するために、マルチLLM協調における意味的不確実性のための統一された情報理論的指標であるCollaborative Entropy（CoE）を提案します。CoEは共有された意味クラスタ空間上で定義され、2つの成分、すなわち（1）モデル内の意味エントロピーと（2）アンサンブル平均に対するモデル間の発散を組み合わせます。CoEは加重アンサンブル予測器ではありません。これは協調における信頼と不一致を特徴づけるシステムレベルの不確実性指標です。CoEの主要な性質として、非負性、完全な意味的合意がある場合のゼロ値の確実性、そして個々のモデルがデルタ分布へ崩壊したときのCoEの振る舞いを含めて解析します。これらの結果により、各モデルの不確実性を減らすことで足りる場合と、それでもなお残るモデル間の不一致がいつ生じるかが明確になります。また、この指標の実用的な応用として、学習不要のシンプルなCoE誘導型ポストホック協調ヒューリスティックも提示します。LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、Mistral-7B-Instructを用いた\textit{TriviaQA}および\textit{SQuAD}での実験では、CoEが標準的なエントロピーおよび発散に基づくベースラインよりも強力な不確実性推定を提供し、さらに異種のモデルを追加するほど改善幅が大きくなることが示されます。総じて、CoEはマルチLLM協調に対する、不確実性を意識した有用な視点を提供します。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

CoE：エージェント型マルチLLMシステムにおける不確実性定量化のための協調エントロピー（Collaborative Entropy）

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer