Analytica:頑健でスケーラブルなLLM駆動分析のためのソフト命題推論

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、Soft Propositional Reasoning(SPR)に基づいて結果命題の「ソフト真理値」を推定し、実世界の分析をより安定かつ検証可能にするためのLLMエージェント・アーキテクチャ「Analytica」を提案しています。
  • Analyticaは、バイアス低減の段階で問題をサブ命題の木構造に分解し、事実を検証・スコアリングするツール連携の「grounder」エージェント(Jupyter Notebookエージェントを含む)を用いて推論誤差を抑えます。
  • さらに分散低減として、並列の分割統治(divide-and-conquer)による合成ステップで、堅牢な線形モデルを用いてgroundされた出力を統合し、確率的ノイズを効率よく平均化してスケールさせます。
  • 経済・金融・政治の予測タスクでの実験では、多様なベースモデルに対して平均15.84%の精度向上が示され、Deep Research grounder使用時には分散最小(6.02%)で71.06%の精度を達成したと報告されています。
  • Jupyter Notebook grounderはコスト効率が高いとして、約70.11%の精度を90.35%低いコストと52.85%短い時間で実現し、分析の深さが増える際も実行時間がほぼ線形に伸びると主張しています。

要旨: 大規模言語モデル(LLM)エージェントは、複雑な現実世界の分析(例:金融予測、科学的発見)を担うことがますます増えていますが、その推論は確率的な不安定性に悩まされ、検証可能で、かつ合成可能な構造を欠いています。これに対処するため、私たちは新しいエージェントアーキテクチャであるAnalyticaを導入します。Analyticaはソフト命題推論(Soft Propositional Reasoning: SPR)の原理に基づいて構築されています。SPRは、複雑な分析を、異なる結果命題に対する「ソフトな真値」を推定するための構造化されたプロセスとして捉え直します。これにより、推定誤差を、そのバイアスと分散の観点で形式的にモデル化し、最小化することが可能になります。Analyticaは、両方の誤差源を体系的に同時に低減する並列・分割統治(divide-and-conquer)フレームワークによって、この考え方を実装します。バイアスを低減するために、まず問題をサブ命題の木(ツリー)へ分解し、ツールを備えたLLMグウンダー(grounder)エージェントを用います。これには、データ駆動型の分析のための新しいJupyter Notebookエージェントが含まれ、事実の検証とスコアリングを助けます。分散を低減するために、Analyticaはこれらの「根拠づけられた」葉(leaves)を再帰的に統合し、頑健な線形モデルを用いて確率的ノイズを平均化します。その結果、優れた効率と拡張性が得られ、対話的な「what-if」シナリオ分析も可能になります。経済・金融・政治の予測タスクに関する理論的および実証的な結果は、Analyticaが多様なベースモデルに対して平均で15.84%精度を向上させること、さらにDeep Researchグウンダーを用いた場合において、分散が最も小さい6.02%で71.06%の精度を達成することを示しています。私たちのJupyter Notebookグウンダーは、90.35%少ないコストと52.85%少ない時間で、ほぼ70.11%の精度を達成するという高い費用対効果を示します。加えてAnalyticaは、分析の深さが増すにつれて、ほぼ線形の時間計算量とともに、高いノイズ耐性があり安定した性能の成長を示し、さらにオープンウェイトLLMや科学分野への適応性も良好です。