AI Navigate

確率的回答から検証可能な推論へ:LLM生成コードによる解釈可能な意思決定

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMsを構造化データ上で決定論的に実行可能な、人間が読みやすい意思決定ロジックを生成するコード生成機として再定義し、高リスクな決定における解釈性と再現性に取り組む。
  • コード生成と自動統計検証(精度の向上、二項有意性検定、カバレッジフィルタリング)およびクラスタベースのギャップ分析を組み合わせ、人的注釈なしに規則を反復的に洗練させる。
  • このフレームワークは、ベンチャーキャピタルの創業者スクリーニング(VCBench、4,500名の創業者、ベースレート9%)でデモンストレーションされ、精度37.5%、F0.5スコア25.0%を達成。GPT-4oより精度で上回りつつ、完全な解釈性を維持。
  • 各予測は実行可能で人間が読みやすいルールに結びついており、検証可能で監査可能なLLMベースの意思決定を実務で実現します。
  • サンプルごとのLLMクエリを排除し、再現性のある予測を可能にすることで、重要なタスクに対して解釈可能なAIをスケールさせることを目指します。

要旨: 大規模言語モデル(LLMs)は、リスクの高い意思決定においてますます利用されていますが、既存のアプローチはスケーラビリティ、解釈性、再現性の調和に苦労しています。ブラックボックスモデルは推論過程を隠蔽し、一方で最近のLLMベースのルールシステムはサンプルごとの評価に依存するため、データセットサイズに応じてコストが拡大し、確率的で幻覚を生みやすい出力を導入します。我々はLLMsを個別インスタンスの評価者としてではなくコード生成器として再定義することを提案します。1回のLLM呼び出しは、構造化データ上で決定ロジックを実行可能で人間が読める形に生成し、サンプルごとのLLMクエリを排除しつつ、再現可能で監査可能な予測を可能にします。我々はコード生成と、自動統計検証(適合率リフト、二項有意性検定、カバレッジフィルタリング)を組み合わせ、クラスタベースのギャップ分析を適用して、人間の注釈なしに意思決定ロジックを反復的に洗練させます。我々はこのフレームワークを、強い解釈性要件を伴う稀少事象予測タスクであるベンチャーキャピタル創業者スクリーニングに適用します。VCBenchでは、4,500名の創業者を対象としベース成功率が9%のベンチマークにおいて、我々のアプローチは適合率37.5%、F0.5スコア25.0%を達成し、GPT-4o(適合率30.0%、F0.5スコア25.7%)を上回りつつ完全な解釈性を維持します。各予測は人間が読める属性に対する実行可能なルールに追跡され、実践において検証可能で解釈可能なLLMベースの意思決定を示しています。