Council Mode：マルチエージェント・コンセンサスによるLLMの幻覚とバイアスの低減

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、「Council Mode」というマルチエージェント・コンセンサスの枠組みを提案し、最先端の異種モデルを複数問い合わせ、その出力を専用のコンセンサスモデルで統合することで、LLMの幻覚（ハルシネーション）とバイアスを低減する。
Council Modeは3つのフェーズで実装される：複雑度に応じてルーティングするトリアージ分類器、アーキテクチャが多様なLLM群での並列生成、そして合意・不一致・独自の知見を強調する構造化された統合。
著者らは、コンセンサスメカニズムの数学的な定式化を示し、オープンソースのAIワークスペース実装を含むシステム全体のアーキテクチャを説明している。
複数のベンチマークにおいて、Council ModeはHaluEvalで幻覚率を最良の単一モデルに対して35.9%相対的に低減し、TruthfulQAで7.8ポイントの改善を報告しており、さらに領域間でのバイアス分散も低下させている。
本研究には、各コンポーネントの寄与を検証するための、ベンチマーク比較を含む大規模な実験結果と、アブレーションスタディが含まれている。

Abstract

大規模言語モデル（LLM）、とりわけMixture-of-Experts（MoE）アーキテクチャを採用するものは、さまざまな自然言語処理タスクにおいて目覚ましい能力を示してきました。しかし、これらのモデルはしばしばハルシネーション（もっともらしいが事実としては誤っている内容を生成すること）に悩まされ、さらに推論時の専門家（エキスパート）の不均一な活性化によって、体系的なバイアスが増幅されるという問題も見られます。本論文では、これらの制約に対処する新しいマルチエージェント合意フレームワークであるCouncil Modeを提案します。Council Modeは、複数の異種（ヘテロジニアス）な最先端LLMにクエリを並列に送信し、それらの出力を専用の合意モデルを通じて合成することで、これらの限界を解消します。Councilのパイプラインは3つのフェーズから構成されます：（1）複雑さに基づいてクエリを振り分けるインテリジェントなトリアージ分類器、（2）アーキテクチャ的に多様なモデル群にわたる並列なエキスパート生成、（3）最終応答を生成する前に、合意・不一致・独自の発見を明示的に特定する構造化された合意合成です。本論文では、このアーキテクチャをオープンソースのAIワークスペース内で実装し、評価します。複数のベンチマークにわたる包括的な評価により、Council Modeは、HaluEvalベンチマークにおいてハルシネーション率を35.9%相対的に低減し、また最も高性能な単一モデルと比較してTruthfulQAで7.8ポイントの改善を達成しつつ、領域をまたいだバイアス分散を有意に低く維持することが示されます。合意メカニズムの数学的定式化、システムアーキテクチャの詳細、そしてアブレーション研究を含む広範な実証結果を提示します。